revista cubana

de transformación digital

RNPS 2487 • ISSN 2708-3411

vꢀꢁ. 4 • Nro. 1 • enero-marzo 2023 • e200

artículo original

Multiclasiﬁcador homogéneo para

detección de bots en el comercio electrónico

Homogeneous Multiclassiﬁer for Bot Detection in E-Commerce

Hélder João Chissingui

hjchissing@gmail.com • https://orcid.org/0000-0002-7538-3865

InstItuto superIor técnIco MIlItar – IstM, angola

Nayma Cepero Peréz

cepero@ceis.cujae.edu.cu • https://orcid.org/0000-0003-3808-8135

Humberto Diaz Pando

hdiazp@ceis.cujae.edu.cu • https://orcid.org/0000-0003-1591-8781

Mailyn Moreno Espino

my@ceis.cujae.edu.cu • https://orcid.org/0000-0002-7613-3382

unIversIdad tecnológIca de la Habana “José antonIo ecHeverrÍa”, cuJae, cuba

Recibido: 2023-01-26 • Aceptado: 2023-03-03

RESUMEN

Para el comercio electrónico, mitigar las amenazas de bots es una tarea re-

levante, debido al enorme impacto de las actividades maliciosas perpetradas

por bots, a través de estos por personas mal intencionadas, las cuales, además

del daño que causan a la infraestructura informática y pérdidas económicas,

también agudizan la insatisfacción de los usuarios humanos. Actualmente,

este problema se hace aún más complejo, porque en ocasiones, usuarios hu-

manos emplean aplicaciones móviles con sus cuentas de usuario para tener

privilegios en el acceso a determinados servicios del comercio, o sea, es cada

vez más elevado el nivel de soﬁsticación de bots, lo que resulta que en de-

terminadas circunstancias los patrones de actividades humanas tengan las

mismas características de las actividades de bots. Con estos niveles de de-

sarrollo, las tareas de detección se hacen cada vez más complejas y vitales.

En este estudio, se propone un enfoque de detección basado en aprendizaje

supervisado, con los modelos homogéneos de ensambles de clasiﬁcadores,

Bagging y Boosting. Los modelos construidos con base a los estimadores Ex-

traTree, Cart y K-vecinos más cercanos, lograron la puntuación F1 máxima

de 100 %, en determinados escenarios, en que la cantidad de ejemplos de la

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

clase minoritaria no sobrepasa 9 % del conjunto de datos. Los resultados se

comparan con otros enfoques del estado del arte.

Palabras clave: detección de bots, metaaprendizaje, multiclasiﬁcadores,

comercio electrónico.

ABSTRACT

For electronic commerce, mitigating bot threats is a relevant task, due to the

enormous impact of malicious activities perpetrated by bots, through these

by malicious people, whose, in addition to the damage they cause to the IT

infrastructure and economic losses, also exacerbate human user dissatisfac-

tion. Currently this problem becomes even more complex, because sometimes

human users use mobile applications with their user accounts to have ac-

cess privileges to certain business services, that is, the level of sophistication

of the bots is increasingly higher, which results in the patterns of human ac-

tivities under certain circumstances having the same characteristics as the

activities of bots. With these levels of development, detection tasks become

increasingly complex and vital. In this study, a detection approach based on

supervised learning is proposed, with the homogeneous models of ensembles

of classiﬁers, Bagging and Boosting. e models built based on the ExtraTree,

Cart and K-nearest neighbors estimators, achieved the maximum F1 score of

1

00%, in certain scenarios, in which the number of examples of the minority

class does not exceed 9% of the data set. e results are compared with other

approaches of the state of the art.

Keywords: bot detection, meta learning, multiclassiﬁers, e-commerce.

INTRODUCCIÓN

La pandemia de la COVID-19 impulsó el desarrollo de servicios basados en la web. Inter-

net Banking, teletrabajo, e-learning, comercio electrónico, marketing digital, gobierno, entre

otros, son áreas con alto nivel de informatización en el mundo de hoy, lo que también es vi-

sible en países como Cuba, donde se busca profundizar el proceso de informatización como

una de las claves de las estrategias de desarrollo sostenible (Bermúdez, 2022).

Los bots son caracterizados por poseer determinadas habilidades de usuarios humanos e

incluso mejoran algunas en determinados contextos. De forma general, los bots pueden per-

tenecer a una comunidad o conjunto de bots denominado botnet, por otro lado, pueden ser

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

controlados de forma remota por el botmaster (rol de un usuario humano), mediante canales

de comando y control (C&C, del inglés, Command and Control) dedicados. Estos últimos

basados fundamentalmente en los protocolos de comunicación: Internet Relay Chat (IRC),

Peer-to-Peer (P2P) y el protocolo de transferencia de hipertexto (HTTP, del inglés Hypertext

Transfer Protocol).

Pueden ser clasiﬁcados según la ﬁnalidad como bots benignos, los que realizan tareas

como motores de búsquedas y otras, que son parte importante de los sistemas, y bots mali-

ciosos, los que son utilizados por atacantes para perpetrar actividades maliciosas. Según su

evolución, pueden ser clasiﬁcados los bots maliciosos en: bots simples, se conectan en una

sola dirección IP asignada por el proveedor del servicio de Internet (ISP, del inglés Internet

Service Provider), usando scripts automatizados para que no sean identiﬁcados, además no se

identiﬁcan como un navegador. Los bots moderados, con determinada complejidad, simula

la tecnología del navegador, incluida la capacidad de ejecutar JavaScript. Por último, los bots

avanzados, reproducen movimientos del mouse y clics que engañan incluso a los métodos de

detección más soﬁsticados, imitan a los humanos, emplean comportamientos más evasivos,

utilizan software de automatización del navegador o malware instalado en navegadores reales

para conectarse a los sitios. Bots evasivos son una agrupación de bots maliciosos moderados

y avanzados, que tienden a recorrer direcciones IP aleatorias, ingresan a través de proxies

anónimos y redes P2P, y pueden cambiar sus agentes de usuario; utilizan una combinación

de tecnologías y métodos para evadir la detección, mientras se mantiene la persistencia en los

sitios objetivo; a menudo eligen tácticas «bajas y lentas», que les permitir llevar a cabo ataques

signiﬁcativos utilizando menos solicitudes e incluso retrasar las solicitudes, lo que les posi-

bilita no sobresalir de los patrones de tráﬁco normales y evitar la activación de umbrales de

detección de seguridad basados en tasas. Este método reduce el «ruido» o grandes picos de

tráﬁco generados por muchas compañías de bots maliciosos (Imperva, 2022).

Según el Imperva bad bot report 2022 (Imperva, 2022), 42,3 % del tráﬁco de Internet del

año 2021 es resultante de la actividad de bots, donde 27,7 % es tráﬁco de bots maliciosos, lo

cual representa 2,1 % más que el año anterior. Estos resultados demuestran la tendencia cre-

ciente en el empleo de bots, lo cual trae consigo un crecimiento de la exposición de recursos

informáticos a varias amenazas.

Una de las grandes ventajas de la web consiste en el poder de interconectividad global,

lo que proporciona un aporte importante para los sistemas en dependencia de sus ﬁnalida-

des, y es determinante para la disponibilidad y calidad de servicio (QoS, del inglés Quality of

Service). Sin embargo, esta interconectividad suele ser el recurso que expone el sistema a va-

riadas amenazas informáticas, de hecho, es el más utilizado en las actividades que violan las

propiedades de seguridad de los sistemas (conﬁdencialidad, autenticación, no repudio, control

de integridad, auditabilidad e incluso la disponibilidad) de los sistemas, perpetradas por indi-

viduos que intentan dañar los recursos, confundir la opinión pública, obtener ventajas sobre

los adversarios y muchas otras actividades maliciosas materializadas por medio de ataques

cibernéticos.

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

El comercio electrónico es una de las áreas que en los últimos años se ha beneﬁciado de

los diversos avances tecnológicos, no solo por el tema de la pandemia de la COVID-19, pues su

tendencia de expansión es perceptible desde hace años con el crecimiento de la adopción de

servicios basados en Internet. Posee características distinguibles, donde se pueden identiﬁcar

para el lado del proveedor la rentabilidad, el gran alcance de las ventas, los ahorros de recur-

sos para el alcance del servicio, etc., lo que convierte al comercio electrónico en un entorno de

alta disputa entre adversarios. También es rehén de políticas microeconómicas y macroeco-

nómicas de Estados, continentes, grupos, etc., e incluso de los propios clientes, lo que desen-

cadena un conjunto de actividades maliciosas con recurso a bots y que violan las propiedades

de seguridad mencionadas en el párrafo anterior.

En el estado del arte se emplean con mayor frecuencia algoritmos supervisados para cla-

siﬁcar el tráﬁco de red o las solicitudes de usuarios. Entre ellos, los algoritmos de aprendizaje

supervisados tradicionales tienen como objetivo minimizar el número de errores cometidos

durante la clasiﬁcación, asumiendo que los costos de los falsos positivos y falsos negativos

son iguales, considerando un equilibrio de clases, al suponer una distribución equilibrada de

clases y costos de error iguales, por lo tanto, no son adecuados para datos de clases desequi-

libradas. Los modelos multiclasiﬁcadores funcionan relativamente bien para el problema de

desequilibrio de clases en dos clases, ya que los clasiﬁcadores individuales que componen el

conjunto pueden incluir versiones de los enfoques de sobremuestreo y el desplazamiento del

umbral (Han et al., 2012).

En este trabajo se implementan los algoritmos multiclasiﬁcadores homogéneos Bagging y

Adaboost para detectar Bots, con estimadores seleccionados según la frecuencia de empleo en

el estado de arte, con el objetivo principal de seleccionar las conﬁguraciones de multiclasiﬁca-

dores homogéneos con mejor rendimiento empleando la base de datos CTU-13.

ANTECEDENTES

Aquí se presenta un resumen de los trabajos relacionados con la detección de bots en el co-

mercio electrónico. Se hace énfasis en las diferentes variantes de algoritmos empleados, ade-

más se presentarán los principios fundamentales para la construcción de multiclasiﬁcadores

y la descripción de las técnicas más comunes.

Trabajos relacionados

Entre las diferentes variantes de enfoques de detección de bots, el aprendizaje automático es el

más común, con las variantes de algoritmos: no supervisados y supervisados, siendo estos últi-

mos los más frecuentes. La adopción del tipo de algoritmo está directamente asociada a las ca-

racterísticas propias del aprendizaje supervisado con respecto al problema de detección de bots.

Entre los algoritmos de aprendizaje supervisado para la detección de bots el más utilizado

es Random Fore (Barbon et al., 2018; García et al., 2020). Adicionalmente, existen otros enfo-

ques en los estudios de detección de bots en el comercio electrónico:

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

•

ꢀ En Suchacka & Sobków (2015) se emplea un enfoque bayesiano de análisis de clústeres

con accuracy mayor de 90 %.

ꢀ En Rahman & Tomar (2020) se implementaron algoritmos de Red Neuronales Artiﬁcia-

les (ANN, del inglés, Artiﬁcial Neural Networks) para la detección de scraping Bots en

sitios web de comercio electrónico, con un rendimiento (valores de las métricas de ren-

dimiento de clasiﬁcación como accuracy, precision, f-score, recall) no superior a 95 %.

ꢀ En Cabri et al. (2018) y Suchacka et al. (2021) se emplean otras variantes de ANN.

ꢀ En Rovetta et al. (2020) se emplea el algoritmo K-Medios, que incluso su rendimiento sobre-

pasó los clasiﬁcadores basados en Perceptrón Multicapas (MLP, del inglés Multi-Layer Per-

ceptron) y de Máquinas de Soporte Vectorial (SVM, del inglés Support Vector Machine).

ꢀ En Suchacka & Iwanski (2020) se emplea el algoritmo no supervisado de Cuello de Bote-

lla de Información Aglomerativa (AIB, del inglés Agglomerative Information Bottleneck).

ꢀ En B. et al. (2018) se emplean arboles de decisión (DT, del inglés Decision Tree) y un en-

foque basado en reglas para clasiﬁcar las direcciones IP de bots maliciosos y benignos.

•

Los estudios mencionados en el párrafo anterior tienen la similitud de que los modelos

de aprendizaje automático fueron diseñados con características de sesiones de usuarios (ex-

traídas a nivel de sesión y aplicación), donde se incluyen las características semánticas que re-

presentan los contenidos de las solicitudes HTTP en cada sesión. Además, hay otros estudios

donde los modelos de clasiﬁcación para detectar bots se construyen con características de

tráﬁco web extraídas a nivel de las capas de red y transporte del modelo OSI.

Construcción de conjuntos de clasificadores

En Dietterich (2000) se resumen las razones para el diseño de multiclasiﬁcadores:

•

ꢀ Estadística: si los datos de entrenamiento son pequeños en comparación con el espacio

de hipótesis. Si los datos son insuﬁcientes, el algoritmo de aprendizaje puede encontrar

variadas hipótesis en H con igual precisión sobre los datos. Si los clasiﬁcadores se com-

binan el algoritmo puede promediar sus votos y reducir el riesgo de seleccionar una hi-

pótesis errónea.

•

ꢀ Computacional: en entornos donde no hay problema estadístico, como muchos de los al-

goritmos funcionan por medio de búsquedas locales, esto tiene como consecuencia que

dichos algoritmos pueden cometer errores en los máximos locales, lo que puede repre-

sentar una enorme diﬁcultad para llegar al objetivo desde la perspectiva computacional.

Pero una combinación de clasiﬁcadores cuyas búsquedas locales sean realizadas desde

diferentes puntos de partida del espacio de hipótesis, puede llegar a una mejor aproxi-

mación que uno de los clasiﬁcadores individuales que componen el conjunto.

ꢀ Representación: en la mayor parte de las aplicaciones de aprendizaje automático, su

función real f no puede ser representada por alguna hipótesis de H, la combinación de

•

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

clasiﬁcadores puede permitir la expansión del espacio H de tal modo que se pueda in-

cluir f en dicho espacio. Se hace referencia también a algoritmos de ANN y árboles de

decisión (DT, del inglés Decision Trees), que son muy ﬂexibles en la exploración de todas

las hipótesis posibles de determinado espacio.

Estas razones están centradas en el hecho de que un conjunto de clasiﬁcadores puede re-

presentar mayor seguridad de clasiﬁcación, o sea, puede ser más preciso que un clasiﬁcador

individual en un determinado entorno. Al considerar varios clasiﬁcadores (del mismo tipo,

como de tipos diferentes), le conﬁere más diversidad (por usar diferentes formas de explora-

ción del campo de hipótesis), en dependencia de la función de decisión del multiclasiﬁcador se

torna el aporte determinante en la decisión. Es normal que en determinado entorno un clasi-

ﬁcador individual tenga mejor rendimiento que un multiclasiﬁcador; pero teniendo en cuenta

la capacidad de generalización de los modelos para clasiﬁcación, un modelo multiclasiﬁcador

tendrá una respuesta más robusta que un clasiﬁcador individual.

Existen muchos métodos para generar el conjunto de clasiﬁcadores, teniendo en cuenta lo

planteado en Dietterich (2000), a continuación se describen algunos métodos que son de pro-

pósitos generales:

•

ꢀ Voto Bayesiano: aplicable en contextos donde se pueden enumerar las hipótesis hl y cal-

cular probabilidad a posteriori. Se centra fundamentalmente en el teorema de Bayes.

ꢀ Manipulación de los ejemplos de entrenamiento: con la ﬁnalidad de generar diferentes

hipótesis, el algoritmo puede ser ejecutado varias veces con un conjunto de datos dife-

rentes. Esta técnica funciona mejor con algoritmos de aprendizaje inestables, es decir,

aquellos cuyo modelo resultante puede variar mucho al cambiar en menor grado los

ejemplos de entrenamiento. Por ejemplo, los árboles de decisión, las redes de neuronales

artiﬁciales y los algoritmos de inducción de reglas, son algoritmos inestables. En cambio,

los métodos de regresión lineal y el vecino más cercano, suelen ser muy estables.

ꢀ Manipulación de los atributos de entrada: se centra en la manipulación de los atributos

de entrada disponibles a la hora de utilizar el algoritmo de aprendizaje. Una debilidad de

esta técnica es que solo funciona cuando los atributos de entrada son altamente redun-

dantes.

•

ꢀ Manipulación de las salidas: en esta técnica el conjunto de clasiﬁcador es generado por

medio de la manipulación de clase de instancia, como es el caso de la técnica ECOC

(

error correcting output code).

•

ꢀ Introducción de aleatoriedad: otra técnica muy común para la generación de conjuntos

consiste en la incorporación de aleatoriedad dentro del algoritmo de aprendizaje.

ꢀ En el estudio Dietterich (2000) no se hace referencia a los conjuntos de clasiﬁcadores for-

mados por diferentes algoritmos de aprendizaje, centrándose únicamente en multiclasi-

ﬁcadores homogéneos. En el estado del arte no hay consenso en cuanto a la taxonomía

de algoritmos de construcción de multiclasiﬁcadores, pero de forma genérica se desta-

•

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

can los métodos de Boosting, Bagging, Voting y Stacking. Los dos primeros se reﬁeren a

algoritmos homogéneos que se basan en la manipulación de ejemplos de entrenamiento,

lo cual constituye el objetivo de este estudio.

•

ꢀ Bagging es un método que logra la diversidad en función de la aleatoriedad que se in-

troduce en la fase de entrenamiento del modelo, por ejemplo, el muestreo aleatorio con

reemplazo es utilizado para generar los subconjuntos de datos de entrenamiento de los

clasiﬁcadores bases, a su vez las predicciones de los clasiﬁcadores bases son combinadas

con una función basada en votación o promedio. Del mismo modo, el método Boosting

logra la diversidad en el entrenamiento; pero con una estrategia diferente: los modelos

clasiﬁcadores bases son formados secuencialmente, donde el objetivo del clasiﬁcador

base posterior seria corregir los errores de clasiﬁcación del modelo anterior, o sea, se in-

troducen en su entrenamiento las instancias clasiﬁcadas de forma errónea por el clasiﬁ-

cador base anterior al actual.

METODOLOGÍA

Este trabajo fue desarrollado, empleando un enfoque de Minería de Datos cuyos pasos se des-

criben en los apartados a continuación (tabla 1).

tꢀꢁꢂꢀ 1, cꢀꢃꢀꢄꢅꢆꢃíꢇꢅiꢄꢀꢇ ꢈꢆ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ꢁꢉꢅꢊꢆꢅ ꢈꢆ ctu-13 (cF: cꢂiꢄꢇ fꢃꢀꢋꢈꢋꢂꢆꢊꢅꢉꢇ, ps: eꢇꢄꢀꢊꢆꢉ ꢈꢆ

ꢌꢋꢆꢃꢅꢉꢇ, FF: FꢀꢇꢅFꢂꢋx, us: cꢉmꢌiꢂꢀꢈꢉ y ꢄꢉꢊꢅꢃꢉꢂꢀꢈꢉ ꢌꢉꢃ ꢂꢉꢇ ꢈꢆꢇꢀꢃꢃꢉꢂꢂꢀꢈꢉꢃꢆꢇ) (Fꢋꢆꢊꢅꢆ: gꢀꢃꢄíꢀ et al., 2014)

Id IRC SPAM CF PS DDoS FF P2P US HTTP Nota

1

x x x

x

2

3

4

5

6

7

8

9

x

UDP and ICMP DDoS

x Scan web proxies

x

Proprietary C&C, RDP

x Chinese hosts

x

Proprietary C&C, Net-BIOS, STUN

x x x x

1

0 x

1 x

x

UDP DDoS

ICMP DDoS

1

2

x

Synchronization

x Captcha, Web mail

13

x

Descripción de los datos

Los datos son el componente fundamental para la construcción de modelos basados en apren-

dizaje automático. Existe bastante escasez de conjuntos de datos de comercio electrónico

disponibles en la web, de hecho, la mayor parte de los algoritmos de detección de bots en co-

mercio electrónico del estado del arte son implementados con conjuntos de datos formados a

partir de archivos de registro de servidores web, los cuales no están disponibles por diversas

razones. Por otro lado, las plataformas de comercio electrónico son desarrolladas con tecno-

logías diferentes, lo que reduce la posibilidad de tener un conjunto de datos que sea genérico.

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

CTU-13 es un conjunto de datos de tráﬁco real de botnet, capturado en la universidad CTU

de la República Checa en 2014. Consiste en trece capturas o escenarios de diferentes muestras

de tráﬁco de botnets y contiene datos de siete diferentes botnets: Neris, Rbot, Virut, Murlo,

NSIS, Donbot y Sogou. Cada escenario fue analizado y etiquetado manualmente; la columna

ID de la tabla 1 corresponde a los escenarios del conjunto de datos, cuyas características se

describen en esa tabla.

Preprocesamiento

Para adecuar los datos al proceso de minería, se aplicó un conjunto de procedimientos que

buscan eliminar irregularidades, inconsistencias y ruidos en los datos, convertir, escalar y

reducir la dimensionalidad. El conjunto de datos posee instancias de clases de tráﬁco de bot-

net, normal y background. Las clases de normal y background fueron tratadas como una sola

clase, porque la primera representa el tráﬁco de usuarios humanos y la segunda es el tráﬁco

propio de la red cuando no existen actividades de usuarios humanos y de bots. Tras la carga

y limpieza de los datos, y con el objetivo de garantizar que los algoritmos de clasiﬁcación no

sean inducidos a atribuir más peso a un atributo en relación con los otros, con una técnica

de estandarización se estableció una misma escala de valores para cada atributo. Para la re-

ducción de dimensionalidad se implementó el Análisis de Componentes Principales (PCA,

del inglés Principal Component Analysis), considerando una varianza explicativa acumulada

correspondiente a 98 %, que resultó en 10-12 componentes principales en dependencia del

escenario. Se observa que los escenarios de CTU-13 son muy desbalanceados, donde la clase

positiva (clase de tráﬁco de botnet) es la clase minoritaria, con un porcentaje máximo inferior

a 10 % de los ejemplos en un escenario, como se describe en la tabla 2.

tꢀꢁꢂꢀ 2. dimꢆꢊꢇiꢉꢊꢆꢇ ꢈꢆ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 ꢀꢊꢅꢆꢇ y ꢈꢆꢇꢌꢋꢍꢇ ꢈꢆꢂ ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ

(pc: ꢄꢉmꢌꢉꢊꢆꢊꢅꢆꢇ ꢌꢃiꢊꢄiꢌꢀꢂꢆꢇ)

Fꢀꢇꢆꢇ ꢈꢆꢂ ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ

númꢆꢃꢉ ꢈꢆ iꢊꢇꢅꢀꢊꢄiꢀꢇ ꢌꢉꢃ ꢄꢂꢀꢇꢆ ꢀꢊꢅꢆꢇ ꢈꢆꢂ

ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ (ꢄꢉꢊ 14 ꢀꢅꢃiꢁꢋꢅꢉꢇ)

pꢉꢃꢄꢆꢊꢅꢀjꢆ

ꢈꢆ ꢂꢀ ꢄꢂꢀꢇꢆ

miꢊꢉꢃiꢅꢀꢃiꢀ

limꢌiꢆzꢀ ꢆ tꢃꢀꢊꢇfꢉꢃmꢀꢄiꢏꢊ

iꢊꢅꢆꢎꢃꢀꢄiꢏꢊ

y ꢇꢆꢂꢆꢄꢄiꢏꢊ

Id

1

2

3

4

5

6

7

8

9

bꢉꢅꢊꢆꢅ

40 961

20 941

26 822

2 580

901

nꢉꢃmꢀꢂ

2 783 675 2 824 636

1 787 181 1 808 122

4 683 816 4 710 638

tꢉꢅꢀꢂ

Iꢊꢇꢅꢀꢊꢄiꢀꢇ

2 824 636

1 808 122

4 710 638

1 121 076

129 832

pc

11

1,45 %

1,15 %

0,57 %

0,23 %

0,70 %

0,83 %

0,05 %

0,20 %

8,45 %

8,11 %

1 118 496

128 931

554 289

114 014

1 121 076

129 832

558 919

114 077

11

4 630

63

558 919

11

114 077

11

6 127

2 948 103 2 954 230

2 954 230

11

184 987

106 352

8 164

1 902 521 2 087 508 2 087 508

12

10

11

1

0

1

1 203 439

99 087

1 309 791

107 251

1 309 791

107 251

325 471

1 925 149

7,61 %

0,67 %

2,07 %

12

2 168

40 003

323 303

1 885 146

325 471

1 925 149

13

11

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

Diseño de experimento

Tras el conjunto de tareas a las que fueron sometidos los datos en la etapa de preprocesa-

miento, para la validación de los algoritmos de multiclasiﬁcadores homogéneos, se realiza un

diseño de experimento basado en determinar los modelos multiclasiﬁcadores adecuados para

clasiﬁcar el tráﬁco de usuarios de humanos y de Bots con base a métricas de rendimiento. El

proceso consistió en las siguientes actividades:

•

ꢀ Construcción individual de algoritmos supervisados: en este experimento se busca en-

contrar un modelo clasiﬁcador individual de referencia (según los algoritmos supervisa-

dos de la tabla 3), para posteriormente compararlo con los modelos multiclasiﬁcadores

Bagging y AdaBoost.

•

ꢀ Construcción de ensambles: se construyen los ensambles Bagging y AdaBoosting, consi-

derando como estimadores los algoritmos supervisados de la tabla 3 y se busca encontrar

el modelo ensamble más adecuado para clasiﬁcar el tráﬁco normal e de botnet.

ꢀ Comparación con el estado del arte: se comparan los resultados de los mejores modelos

ensambles con los enfoques del estado del arte donde se emplea el mismo conjunto de

datos.

•

tꢀꢁꢂꢀ 3. aꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ ꢇꢋꢌꢆꢃꢐiꢇꢀꢈꢉ ꢇꢆꢂꢆꢄꢄiꢉꢊꢀꢈꢉꢇ

tiꢌꢉ

vꢀꢃiꢀꢊꢅꢆ

Iꢈꢆꢊꢅiﬁꢄꢀꢈꢉꢃ

Modelos lineares

Logística

LR

Descenso de gradientes estocástico SGD

Árbol de decisión

Cart

ExtraTree

Naive Bayes

k-vecinos más cercanos

CART

EXTRA

NAIVE

KNN

Red bayesiana

Basado en instancias

Máquinas de soporte vectorial LinearSVC

LSVC

MLP

Red neuronal artiﬁcial

Perceptrón multicapas

RESULTADOS Y DISCUSIÓN

Antes del empleo de los ensambles se evaluaron de forma individual los algoritmos de apren-

dizaje supervisado mencionados en la tabla 3. Para la evaluación del rendimiento de los algo-

ritmos se empleó la métrica puntuación F1, que permite tener una noción más precisa de la

inﬂuencia de los falsos positivos y falsos negativos en escenarios desbalanceados. Con la re-

ferida métrica se puede veriﬁcar que los valores F1 = 0,00 implican que el algoritmo no logró

clasiﬁcar correctamente ningún ejemplo de la clase positiva (clase de tráﬁco de botnet).

Los resultados de la evaluación individual de los algoritmos supervisados en la tabla 4 de-

muestran una tendencia de bajo rendimiento en los escenarios con un desbalance de clases

severo, como los escenarios 6, 7, 8 y 12, mientras que los escenarios 10 y 11 fueron los más

favorables, donde los todos los algoritmos lograron un rendimiento no inferior a 85 %. Los

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

clasiﬁcadores basados en los algoritmos ExtraTree, CART y KNN con los promedios de ren-

dimiento (usando el conjunto de test) de 91 %, 93 % y 91 % respectivamente, han presentado

mejor estabilidad del rendimiento en los diferentes escenarios.

tꢀꢁꢂꢀ 4. dꢆꢇꢆmꢌꢆñꢉ ꢈꢆ ꢂꢉꢇ ꢄꢂꢀꢇiﬁꢄꢀꢈꢉꢃꢆꢇ iꢊꢈiꢐiꢈꢋꢀꢂꢆꢇ ꢇꢆꢎúꢊ ꢂꢀ mꢍꢅꢃiꢄꢀ ꢌꢋꢊꢅꢋꢀꢄiꢏꢊ F1, lꢀ ꢄꢉꢂꢋmꢊꢀ Id

ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆ ꢀ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 mꢆꢊꢄiꢉꢊꢀꢈꢉꢇ ꢆꢊ ꢂꢀ ꢅꢀꢁꢂꢀ 1, lꢀꢇ ꢄꢆꢂꢈꢀꢇ ꢄꢉꢊ ꢐꢀꢂꢉꢃꢆꢇ ꢆꢊ ꢊꢆꢎꢃiꢅꢀ,

ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆꢊ ꢀ ꢂꢉꢇ mꢆꢊꢉꢃꢆꢇ ꢃꢆꢊꢈimiꢆꢊꢅꢉꢇ ꢀꢂꢄꢀꢊzꢀꢈꢉꢇ ꢌꢉꢃ ꢂꢉꢇ ꢀꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ ꢆꢊ ꢆꢂ ꢃꢆꢇꢌꢆꢄꢅiꢐꢉ

ꢆꢇꢄꢆꢊꢀꢃiꢉ (entr: eꢊꢅꢃꢆꢊꢀmiꢆꢊꢅꢉ, test: tꢆꢇꢅ)

En las tablas 5 y 6 se describe el comportamiento de los ensambles Bagging y Adaboost

respectivamente. En los resultados de la evaluación del modelo Bagging se mantiene la ten-

dencia anterior de la evaluación individual de los algoritmos, donde se destacan los modelos

basados en ExtraTree, CART y KNN con los rendimientos promedios de 93 %, 94 % y 93 %

respectivamente (para el conjunto de datos de test). Se evidencia un crecimiento mínimo de 1

%

y máximo de 2 % del promedio de rendimiento. Para el modelo Adaboost, los estimadores

ExtraTree y CART presentaron los mejores rendimientos promedios de 93 % y 66 % respecti-

vamente, lo que representa un descenso de rendimiento del clasiﬁcador basado en CART de

evaluación individual.

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

tꢀꢁꢂꢀ 5. dꢆꢇꢆmꢌꢆñꢉ ꢈꢆꢂ mꢉꢈꢆꢂꢉ Bagging, ꢇꢆꢎúꢊ ꢂꢀ mꢍꢅꢃiꢄꢀ ꢌꢋꢊꢅꢋꢀꢄiꢏꢊ F1, lꢀ ꢄꢉꢂꢋmꢊꢀ Id ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆ ꢀ

ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 mꢆꢊꢄiꢉꢊꢀꢈꢉꢇ ꢆꢊ ꢂꢀ ꢅꢀꢁꢂꢀ 1, lꢀꢇ ꢄꢆꢂꢈꢀꢇ ꢄꢉꢊ ꢐꢀꢂꢉꢃꢆꢇ ꢆꢊ ꢊꢆꢎꢃiꢅꢀ, ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆꢊ ꢀ ꢂꢉꢇ

mꢀyꢉꢃꢆꢇ ꢃꢆꢊꢈimiꢆꢊꢅꢉꢇ ꢀꢂꢄꢀꢊzꢀꢈꢉꢇ ꢌꢉꢃ ꢂꢉꢇ ꢀꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ

tꢀꢁꢂꢀ 6. dꢆꢇꢆmꢌꢆñꢉ ꢈꢆꢂ mꢉꢈꢆꢂꢉ AdaBoost, ꢇꢆꢎúꢊ ꢂꢀ mꢍꢅꢃiꢄꢀ pꢋꢊꢅꢋꢀꢄiꢏꢊ F1, lꢀ ꢄꢉꢂꢋmꢊꢀ Id ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆ ꢀ

ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 mꢆꢊꢄiꢉꢊꢀꢈꢉꢇ ꢆꢊ ꢂꢀ ꢅꢀꢁꢂꢀ 1, lꢀꢇ ꢄꢆꢂꢈꢀꢇ ꢄꢉꢊ ꢐꢀꢂꢉꢃꢆꢇ ꢆꢊ ꢊꢆꢎꢃiꢅꢀ, ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆꢊ ꢀ ꢂꢉꢇ

mꢀyꢉꢃꢆꢇ ꢃꢆꢊꢈimiꢆꢊꢅꢉꢇ ꢀꢂꢄꢀꢊzꢀꢈꢉꢇ ꢌꢉꢃ ꢂꢉꢇ ꢀꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

Fiꢎ. 1 rꢆꢌꢃꢆꢇꢆꢊꢅꢀꢄiꢏꢊ ꢈꢆꢂ iꢊꢅꢆꢃꢐꢀꢂꢉ ꢈꢆ ꢐꢀꢂꢉꢃꢆꢇ qꢋꢆ ꢂꢀ mꢍꢅꢃiꢄꢀ ꢌꢋꢊꢅꢋꢀꢄiꢏꢊ F1 ꢌꢀꢃꢀ ꢂꢉꢇ mꢉꢈꢆꢂꢉꢇ

mꢋꢂꢅiꢄꢂꢀꢇiﬁꢄꢀꢈꢉꢃꢆꢇ ꢇꢆꢂꢆꢄꢄiꢉꢊꢀꢈꢉꢇ ꢄꢉꢊꢇiꢈꢆꢃꢀꢊꢈꢉ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 (imꢀꢎꢆꢊ ꢀ ꢂꢀ izqꢋiꢆꢃꢈꢀ). vꢀꢂꢉꢃ

ꢌꢃꢉmꢆꢈiꢉ ꢈꢆ ꢂꢀꢇ mꢍꢅꢃiꢄꢀꢇ ꢈꢆ ꢃꢆꢊꢈimiꢆꢊꢅꢉ ꢈꢆ ꢂꢉꢇ mꢉꢈꢆꢂꢉꢇ ꢇꢆꢂꢆꢄꢄiꢉꢊꢀꢈꢉꢇ (imꢀꢎꢆꢊ ꢀ ꢂꢀ ꢈꢆꢃꢆꢄhꢀ). eꢊ ꢀmꢁꢉꢇ

ꢄꢀꢇꢉꢇ ꢆmꢌꢂꢆꢀꢊꢈꢉ ꢆꢂ ꢄꢉꢊjꢋꢊꢅꢉ ꢈꢆ ꢈꢀꢅꢉꢇ ꢈꢆ ꢅꢆꢇꢅ.

En la figura 1 se representa el comportamiento de los modelos que ha alcanzado me-

jor rendimiento. Los patrones atípicos en las gráficas están relacionados con valores de

puntuación F1 que están fuera da normalidad del conjunto de valores hallados en los 13

escenarios.

Teniendo en cuenta los factores seleccionados para experimento se pudo conﬁrmar la in-

ﬂuencia de ambos en rendimiento de un modelo clasiﬁcador, individual o multiclasiﬁcador.

Los escenarios más complejos o donde se obtuvo muy poco rendimiento tienen características

similares, ya que están conformados fundamentalmente por tráﬁcos de ataques de botnets,

que son: Escaneo de puertos (PS), tráﬁco P2P y HTTP, y se puede asociar el hecho de que sean

escenarios con acentuado desequilibrio de clases.

Los resultados sugieren que los algoritmos de aprendizaje supervisados bases o individuales

son la parte importante para el rendimiento del modelo multiclasiﬁcador homogéneo, pues se

mantuvo estable la tendencia de comportamiento de los clasiﬁcadores individuales en los multi-

clasiﬁcadores homogéneos. Del mismo modo, el mecanismo de ensamble puede inﬂuir negativa

o positivamente, ya que se puede observar en la tabla 6, que con el modelo Adaboost el rendi-

miento mínimo para los mejores modelos descendió en 20 %.

Comparación con los algoritmos del estado del arte

En esta sección se comparan algunas propuestas del estado del arte, donde se emplea el con-

junto de datos CTU-13 muy utilizado en enfoques genéricos de detección de tráﬁco de Botnet.

La comparación se describe en la tabla 7.

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

tꢀꢁꢂꢀ 6. dꢆꢇꢆmꢌꢆñꢉ ꢈꢆꢂ mꢉꢈꢆꢂꢉ aꢈꢀbꢉꢉꢇꢅ, ꢇꢆꢎúꢊ ꢂꢀ mꢍꢅꢃiꢄꢀ pꢋꢊꢅꢋꢀꢄiꢏꢊ F1, lꢀ ꢄꢉꢂꢋmꢊꢀ Id ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆ ꢀ

ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 mꢆꢊꢄiꢉꢊꢀꢈꢉꢇ ꢆꢊ ꢂꢀ ꢅꢀꢁꢂꢀ 1, lꢀꢇ ꢄꢆꢂꢈꢀꢇ ꢄꢉꢊ ꢐꢀꢂꢉꢃꢆꢇ ꢆꢊ ꢊꢆꢎꢃiꢅꢀ, ꢄꢉꢃꢃꢆꢇꢌꢉꢊꢈꢆꢊ ꢀ ꢂꢉꢇ

mꢀyꢉꢃꢆꢇ ꢃꢆꢊꢈimiꢆꢊꢅꢉꢇ ꢀꢂꢄꢀꢊzꢀꢈꢉꢇ ꢌꢉꢃ ꢂꢉꢇ ꢀꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ

rꢆfꢆꢃꢆꢊꢄiꢀ

aꢂꢎꢉꢃiꢅmꢉꢇ

bꢃꢆꢐꢆ ꢈꢆꢇꢄꢃiꢌꢄiꢏꢊ

rꢆꢊꢈimiꢆꢊꢅꢉ (%)

(

Echevarría et al., 2022) Random Forests Ensemble homogeneo

Exactitud = 98,83

Puntuación F1 = 98,48

(Zhao et al., 2020) Bot-AHGCN

Basado en redes neuronales

profundas.

(

Daya et al., 2019) SOM Enfoque basado en grafos

Naive Bayes Enfoque Bayesiano

Haq & Singh, 2018) Rule base table Enfoque basado en reglas

ID3 Árbol de decisión

Exactitud = 99,95

Exactitud = 19,43

Exactitud = 87,79

Exactitud = 90,27

exꢀꢄꢅiꢅꢋꢈ = 100

pꢃꢆꢄiꢇiꢏꢊ = 97

(

Presente trabajo

Bagging

Empleando estimados basados

y Adaboost

En ExtraTree, CART, y KNN.

rꢆꢄꢀꢂꢂ = 92

pꢋꢊꢅꢋꢀꢄiꢏꢊ F1 = 94

CONCLUSIONES

En este trabajo se obtuvieron cuatro modelos multiclasiﬁcadores para predecir el tráﬁco de di-

ferentes botnets, basados en tráﬁcos de IRC, SPAM, clics fraudulentos (CF), escaneo de puertos

(PS), denegación de servicio (DDoS), FastFlux (FF), peer-to-peer (P2P), compilado y controla-

do por los desarrolladores (US) y HTTP. Tres modelos se obtuvieron empleando el algoritmo

Bagging, con estimadores basados en los algoritmos ExtraTree, Cart y KNN (Bag-EXTRA,

Bag-CART, Bag-KNN), y con el algoritmo Adaboost con el estimador basado en ExtraTree

(

Ada-EXTRA). Hay una inﬂuencia signiﬁcativa del tipo de algoritmo supervisado usado como

estimador en el rendimiento del ensamble. El escenario 7 resulta el más severo en desbalance

de clases. Se veriﬁcó un descenso signiﬁcativo de rendimiento de los ensambles, lo que impli-

ca poca efectivad de los ensambles cuando el desbalance de clase es severo.

TRABAJOS FUTUROS

Para los trabajos futuros se planea implementar los algoritmos seleccionados, empleando otros

conjuntos de datos del estado del arte, además de implementar algunas medidas estadísticas

para evaluar mejor los resultados de los experimentos. Se plantea también enfocarlo en la

captura de datos en una plataforma web de comercio electrónico real y la construcción de un

sistema de detección, con dos fases de detección, basado en metaaprendizaje, utilizando los

algoritmos Proative Forests y multiclasiﬁcadores híbridos.

REFERENCIAS

B, H. X., Li, Z., Chu, C., Chen, Y., Yang, Y., Lu, H., Wang, H., & Stavrou, A. (2018). Detecting

and Characterizing Web Bot Traﬃc in a Large E-commerce Marketplace. ESORICS 2018,

1

: 143-163. https://doi.org/10,1007/978-3-319-98989-1

Barbon S., J., Campos, G. F. C., Tavares, G. M., Igawa, R. A., Proença M.L., J., & Guido, R. C.

2018). Detection of human, legitimate bot, and malicious bot in online social networks

(

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

based on wavelets. ACM Transactions on Multimedia Computing, Communications and

Applications, 14(1s). https://doi.org/10,1145/3183506

Bermúdez, M. D.-C. (2022). Gestión de Gobierno basada en ciencia e innovación: avances y

desafíos. Anales de la Academia de Ciencias de Cuba, 12(2): 12-35. http://www.revistac-

cuba.cu/index.php/revacc/article/view/e1235

Cabri, A., Suchacka, G., Rovetta, S., & Masulli, F. (2018). Online Web Bot Detection Using a

Sequential Classiﬁcation Approach. 2018 IEEE 20th International Conference on High

Performance Computing and Communications; IEEE 16th International Conference on

SmartCity;IEEE4thIntl. ConferenceonDataScienceandSystems. https://doi.org/10,1109/

HPCC/SmartCity/DSS.2018.00252

Daya, A. A., Salahuddin, M. A., Limam, N., & Boutaba, R. (2019). A Graph-Based Machine

Learning Approach for Bot Detection. IFIP/IEEE International Symposium on Integrated

Network Management, Washington DC, USA, April 2019, April.

Dietterich, T. G. (2000). Ensemble Methods in Machine Learning. Multiple Classiﬁer Sys-

tems, pp. 1-15.

Echevarría, D. P., Espino, M. M., Pando, H. D., & Chissingui, H. J. (2022). Comercio Electró-

nico Random Forest For Bot Detection In E-Comerce. Infomática - XVIII Convención y

Feria Internacional.

Garcia, S., Grill, M., Stiborek, J., & Zunimo, A. (2014). An empirical comparison of botnet de-

tection methods. Computers and Security Journal, Elsevier, 45: 100-123. https://doi.org/

http://dx.doi.org/10,1016/j.cose.2014.05.011

Garcia, S., Grill, M., Stiborek, J., Zunimo, A., Dietterich, T. G., Suchacka, G., Wotzka, D., Chen,

H., He, H., Starr, A., Deng, J., Dong, W., Socher, R., Li, L. L.-J., Li, K., Fei-Fei, L., Balla, A.,

Stassopoulou, A., Dikaiakos, M. D., … Greensmith, J. (2020). Artiﬁcial Intelligence - A

Modern Approach. Computers & Security, 8(1): 1-6. https://doi.org/10,1007/s11416-020-

0

0368-6

Han,J.,Kamber,M.,&Pei,J.(2012).Dataminingconceptsandtechniques,thirdedition.Morgan

Kaufmann Publishers. http://www.amazon.de/Data-Mining-Concepts-Techniques-Ma-

nagement/dp/0123814790/ref=tmm_hrd_title_0?ie=UTF8&qid=1366039033&sr=1-1

Haq, S., & Singh, Y. (2018). Botnet Detection using Machine Learning. 2018 Fifth Internatio-

nal Conference on Parallel, Distributed and Grid Computing (PDGC), pp. 240-245. ht-

tps://doi.org/10,1109/PDGC.2018.8745912

Imperva. (2022). 2022 Imperva Bad Bot Report - Evasive Bots Drive Online Fraud. www.im-

perva.com

Rahman, R. U., & Tomar, D. S. (2020). reats of price scraping on e-commerce websites:

attack model and its detection using neural network. Journal of Computer Virology and

Hacking Techniques, 17(1): 75-89. https://doi.org/10,1007/s11416-020-00368-6

Rovetta, S., Suchacka, G., & Masulli, F. (2020). Bot recognition in a Web store: An approach

based on unsupervised learning. Journal of Network and Computer Applications, 157,

102577. https://doi.org/https://doi.org/10,1016/j.jnca.2020,102577

Multiclasiﬁcador homogéneo para detección de bots en el comercio electrónico

revista cubana

de transformación digital

chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.

Suchacka, G., Cabri, A., Rovetta, S., & Masulli, F. (2021). Eﬃcient on-the-ﬂy Web bot de-

tection. Knowledge-Based Systems, 223, 107074. https://doi.org/https://doi.org/10,1016/j.

knosys.2021,107074

Suchacka, G., & Iwanski, J. (2020). Identifying legitimate Web users and bots with diﬀerent

traﬃc proﬁles — an Information Bottleneck approach. Knowledge-Based Systems, 197,

105875. https://doi.org/https://doi.org/10,1016/j.knosys.2020,105875

Suchacka, G., & Sobków, M. (2015). Detection of Internet Robots Using a Bayesian Approach.

IEEE.

Zhao, J., Liu, X., Yan, Q., Li, B., Shao, M., & Peng, H. (2020). Multi-attributed heterogeneous

graph convolutional network for bot detection. Information Sciences, 537: 380-393. https://

doi.org/https://doi.org/10,1016/j.ins.2020,03.113

Este obra está bajo una licencia de Creative Commons Atribución-No Comercial 4.0 Internacional