revista cubana  
de transformación digital  
RNPS 2487 • ISSN 2708-3411  
vꢀꢁ. 4 • Nro. 1 • enero-marzo 2023 • e200  
artículo original  
Multiclasificador homogéneo para  
detección de bots en el comercio electrónico  
Homogeneous Multiclassifier for Bot Detection in E-Commerce  
Hélder João Chissingui  
hjchissing@gmail.com • https://orcid.org/0000-0002-7538-3865  
InstItuto superIor técnIco MIlItar – IstM, angola  
Nayma Cepero Peréz  
cepero@ceis.cujae.edu.cu • https://orcid.org/0000-0003-3808-8135  
Humberto Diaz Pando  
hdiazp@ceis.cujae.edu.cu • https://orcid.org/0000-0003-1591-8781  
Mailyn Moreno Espino  
my@ceis.cujae.edu.cu • https://orcid.org/0000-0002-7613-3382  
unIversIdad tecnológIca de la Habana “José antonIo ecHeverrÍa”, cuJae, cuba  
Recibido: 2023-01-26 • Aceptado: 2023-03-03  
RESUMEN  
Para el comercio electrónico, mitigar las amenazas de bots es una tarea re-  
levante, debido al enorme impacto de las actividades maliciosas perpetradas  
por bots, a través de estos por personas mal intencionadas, las cuales, además  
del daño que causan a la infraestructura informática y pérdidas económicas,  
también agudizan la insatisfacción de los usuarios humanos. Actualmente,  
este problema se hace aún más complejo, porque en ocasiones, usuarios hu-  
manos emplean aplicaciones móviles con sus cuentas de usuario para tener  
privilegios en el acceso a determinados servicios del comercio, o sea, es cada  
vez más elevado el nivel de sofisticación de bots, lo que resulta que en de-  
terminadas circunstancias los patrones de actividades humanas tengan las  
mismas características de las actividades de bots. Con estos niveles de de-  
sarrollo, las tareas de detección se hacen cada vez más complejas y vitales.  
En este estudio, se propone un enfoque de detección basado en aprendizaje  
supervisado, con los modelos homogéneos de ensambles de clasificadores,  
Bagging y Boosting. Los modelos construidos con base a los estimadores Ex-  
traTree, Cart y K-vecinos más cercanos, lograron la puntuación F1 máxima  
de 100 %, en determinados escenarios, en que la cantidad de ejemplos de la  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
clase minoritaria no sobrepasa 9 % del conjunto de datos. Los resultados se  
comparan con otros enfoques del estado del arte.  
Palabras clave: detección de bots, metaaprendizaje, multiclasificadores,  
comercio electrónico.  
ABSTRACT  
For electronic commerce, mitigating bot threats is a relevant task, due to the  
enormous impact of malicious activities perpetrated by bots, through these  
by malicious people, whose, in addition to the damage they cause to the IT  
infrastructure and economic losses, also exacerbate human user dissatisfac-  
tion. Currently this problem becomes even more complex, because sometimes  
human users use mobile applications with their user accounts to have ac-  
cess privileges to certain business services, that is, the level of sophistication  
of the bots is increasingly higher, which results in the patterns of human ac-  
tivities under certain circumstances having the same characteristics as the  
activities of bots. With these levels of development, detection tasks become  
increasingly complex and vital. In this study, a detection approach based on  
supervised learning is proposed, with the homogeneous models of ensembles  
of classifiers, Bagging and Boosting. e models built based on the ExtraTree,  
Cart and K-nearest neighbors estimators, achieved the maximum F1 score of  
1
00%, in certain scenarios, in which the number of examples of the minority  
class does not exceed 9% of the data set. e results are compared with other  
approaches of the state of the art.  
Keywords: bot detection, meta learning, multiclassifiers, e-commerce.  
INTRODUCCIÓN  
La pandemia de la COVID-19 impulsó el desarrollo de servicios basados en la web. Inter-  
net Banking, teletrabajo, e-learning, comercio electrónico, marketing digital, gobierno, entre  
otros, son áreas con alto nivel de informatización en el mundo de hoy, lo que también es vi-  
sible en países como Cuba, donde se busca profundizar el proceso de informatización como  
una de las claves de las estrategias de desarrollo sostenible (Bermúdez, 2022).  
Los bots son caracterizados por poseer determinadas habilidades de usuarios humanos e  
incluso mejoran algunas en determinados contextos. De forma general, los bots pueden per-  
tenecer a una comunidad o conjunto de bots denominado botnet, por otro lado, pueden ser  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
controlados de forma remota por el botmaster (rol de un usuario humano), mediante canales  
de comando y control (C&C, del inglés, Command and Control) dedicados. Estos últimos  
basados fundamentalmente en los protocolos de comunicación: Internet Relay Chat (IRC),  
Peer-to-Peer (P2P) y el protocolo de transferencia de hipertexto (HTTP, del inglés Hypertext  
Transfer Protocol).  
Pueden ser clasificados según la finalidad como bots benignos, los que realizan tareas  
como motores de búsquedas y otras, que son parte importante de los sistemas, y bots mali-  
ciosos, los que son utilizados por atacantes para perpetrar actividades maliciosas. Según su  
evolución, pueden ser clasificados los bots maliciosos en: bots simples, se conectan en una  
sola dirección IP asignada por el proveedor del servicio de Internet (ISP, del inglés Internet  
Service Provider), usando scripts automatizados para que no sean identificados, además no se  
identifican como un navegador. Los bots moderados, con determinada complejidad, simula  
la tecnología del navegador, incluida la capacidad de ejecutar JavaScript. Por último, los bots  
avanzados, reproducen movimientos del mouse y clics que engañan incluso a los métodos de  
detección más sofisticados, imitan a los humanos, emplean comportamientos más evasivos,  
utilizan software de automatización del navegador o malware instalado en navegadores reales  
para conectarse a los sitios. Bots evasivos son una agrupación de bots maliciosos moderados  
y avanzados, que tienden a recorrer direcciones IP aleatorias, ingresan a través de proxies  
anónimos y redes P2P, y pueden cambiar sus agentes de usuario; utilizan una combinación  
de tecnologías y métodos para evadir la detección, mientras se mantiene la persistencia en los  
sitios objetivo; a menudo eligen tácticas «bajas y lentas», que les permitir llevar a cabo ataques  
significativos utilizando menos solicitudes e incluso retrasar las solicitudes, lo que les posi-  
bilita no sobresalir de los patrones de tráfico normales y evitar la activación de umbrales de  
detección de seguridad basados en tasas. Este método reduce el «ruido» o grandes picos de  
tráfico generados por muchas compañías de bots maliciosos (Imperva, 2022).  
Según el Imperva bad bot report 2022 (Imperva, 2022), 42,3 % del tráfico de Internet del  
año 2021 es resultante de la actividad de bots, donde 27,7 % es tráfico de bots maliciosos, lo  
cual representa 2,1 % más que el año anterior. Estos resultados demuestran la tendencia cre-  
ciente en el empleo de bots, lo cual trae consigo un crecimiento de la exposición de recursos  
informáticos a varias amenazas.  
Una de las grandes ventajas de la web consiste en el poder de interconectividad global,  
lo que proporciona un aporte importante para los sistemas en dependencia de sus finalida-  
des, y es determinante para la disponibilidad y calidad de servicio (QoS, del inglés Quality of  
Service). Sin embargo, esta interconectividad suele ser el recurso que expone el sistema a va-  
riadas amenazas informáticas, de hecho, es el más utilizado en las actividades que violan las  
propiedades de seguridad de los sistemas (confidencialidad, autenticación, no repudio, control  
de integridad, auditabilidad e incluso la disponibilidad) de los sistemas, perpetradas por indi-  
viduos que intentan dañar los recursos, confundir la opinión pública, obtener ventajas sobre  
los adversarios y muchas otras actividades maliciosas materializadas por medio de ataques  
cibernéticos.  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
El comercio electrónico es una de las áreas que en los últimos años se ha beneficiado de  
los diversos avances tecnológicos, no solo por el tema de la pandemia de la COVID-19, pues su  
tendencia de expansión es perceptible desde hace años con el crecimiento de la adopción de  
servicios basados en Internet. Posee características distinguibles, donde se pueden identificar  
para el lado del proveedor la rentabilidad, el gran alcance de las ventas, los ahorros de recur-  
sos para el alcance del servicio, etc., lo que convierte al comercio electrónico en un entorno de  
alta disputa entre adversarios. También es rehén de políticas microeconómicas y macroeco-  
nómicas de Estados, continentes, grupos, etc., e incluso de los propios clientes, lo que desen-  
cadena un conjunto de actividades maliciosas con recurso a bots y que violan las propiedades  
de seguridad mencionadas en el párrafo anterior.  
En el estado del arte se emplean con mayor frecuencia algoritmos supervisados para cla-  
sificar el tráfico de red o las solicitudes de usuarios. Entre ellos, los algoritmos de aprendizaje  
supervisados tradicionales tienen como objetivo minimizar el número de errores cometidos  
durante la clasificación, asumiendo que los costos de los falsos positivos y falsos negativos  
son iguales, considerando un equilibrio de clases, al suponer una distribución equilibrada de  
clases y costos de error iguales, por lo tanto, no son adecuados para datos de clases desequi-  
libradas. Los modelos multiclasificadores funcionan relativamente bien para el problema de  
desequilibrio de clases en dos clases, ya que los clasificadores individuales que componen el  
conjunto pueden incluir versiones de los enfoques de sobremuestreo y el desplazamiento del  
umbral (Han et al., 2012).  
En este trabajo se implementan los algoritmos multiclasificadores homogéneos Bagging y  
Adaboost para detectar Bots, con estimadores seleccionados según la frecuencia de empleo en  
el estado de arte, con el objetivo principal de seleccionar las configuraciones de multiclasifica-  
dores homogéneos con mejor rendimiento empleando la base de datos CTU-13.  
ANTECEDENTES  
Aquí se presenta un resumen de los trabajos relacionados con la detección de bots en el co-  
mercio electrónico. Se hace énfasis en las diferentes variantes de algoritmos empleados, ade-  
más se presentarán los principios fundamentales para la construcción de multiclasificadores  
y la descripción de las técnicas más comunes.  
Trabajos relacionados  
Entre las diferentes variantes de enfoques de detección de bots, el aprendizaje automático es el  
más común, con las variantes de algoritmos: no supervisados y supervisados, siendo estos últi-  
mos los más frecuentes. La adopción del tipo de algoritmo está directamente asociada a las ca-  
racterísticas propias del aprendizaje supervisado con respecto al problema de detección de bots.  
Entre los algoritmos de aprendizaje supervisado para la detección de bots el más utilizado  
es Random Fore (Barbon et al., 2018; García et al., 2020). Adicionalmente, existen otros enfo-  
ques en los estudios de detección de bots en el comercio electrónico:  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
 En Suchacka & Sobków (2015) se emplea un enfoque bayesiano de análisis de clústeres  
con accuracy mayor de 90 %.  
 En Rahman & Tomar (2020) se implementaron algoritmos de Red Neuronales Artificia-  
les (ANN, del inglés, Artificial Neural Networks) para la detección de scraping Bots en  
sitios web de comercio electrónico, con un rendimiento (valores de las métricas de ren-  
dimiento de clasificación como accuracy, precision, f-score, recall) no superior a 95 %.  
 En Cabri et al. (2018) y Suchacka et al. (2021) se emplean otras variantes de ANN.  
 En Rovetta et al. (2020) se emplea el algoritmo K-Medios, que incluso su rendimiento sobre-  
pasó los clasificadores basados en Perceptrón Multicapas (MLP, del inglés Multi-Layer Per-  
ceptron) y de Máquinas de Soporte Vectorial (SVM, del inglés Support Vector Machine).  
 En Suchacka & Iwanski (2020) se emplea el algoritmo no supervisado de Cuello de Bote-  
lla de Información Aglomerativa (AIB, del inglés Agglomerative Information Bottleneck).  
 En B. et al. (2018) se emplean arboles de decisión (DT, del inglés Decision Tree) y un en-  
foque basado en reglas para clasificar las direcciones IP de bots maliciosos y benignos.  
Los estudios mencionados en el párrafo anterior tienen la similitud de que los modelos  
de aprendizaje automático fueron diseñados con características de sesiones de usuarios (ex-  
traídas a nivel de sesión y aplicación), donde se incluyen las características semánticas que re-  
presentan los contenidos de las solicitudes HTTP en cada sesión. Además, hay otros estudios  
donde los modelos de clasificación para detectar bots se construyen con características de  
tráfico web extraídas a nivel de las capas de red y transporte del modelo OSI.  
Construcción de conjuntos de clasificadores  
En Dietterich (2000) se resumen las razones para el diseño de multiclasificadores:  
 Estadística: si los datos de entrenamiento son pequeños en comparación con el espacio  
de hipótesis. Si los datos son insuficientes, el algoritmo de aprendizaje puede encontrar  
variadas hipótesis en H con igual precisión sobre los datos. Si los clasificadores se com-  
binan el algoritmo puede promediar sus votos y reducir el riesgo de seleccionar una hi-  
pótesis errónea.  
 Computacional: en entornos donde no hay problema estadístico, como muchos de los al-  
goritmos funcionan por medio de búsquedas locales, esto tiene como consecuencia que  
dichos algoritmos pueden cometer errores en los máximos locales, lo que puede repre-  
sentar una enorme dificultad para llegar al objetivo desde la perspectiva computacional.  
Pero una combinación de clasificadores cuyas búsquedas locales sean realizadas desde  
diferentes puntos de partida del espacio de hipótesis, puede llegar a una mejor aproxi-  
mación que uno de los clasificadores individuales que componen el conjunto.  
 Representación: en la mayor parte de las aplicaciones de aprendizaje automático, su  
función real f no puede ser representada por alguna hipótesis de H, la combinación de  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
clasificadores puede permitir la expansión del espacio H de tal modo que se pueda in-  
cluir f en dicho espacio. Se hace referencia también a algoritmos de ANN y árboles de  
decisión (DT, del inglés Decision Trees), que son muy flexibles en la exploración de todas  
las hipótesis posibles de determinado espacio.  
Estas razones están centradas en el hecho de que un conjunto de clasificadores puede re-  
presentar mayor seguridad de clasificación, o sea, puede ser más preciso que un clasificador  
individual en un determinado entorno. Al considerar varios clasificadores (del mismo tipo,  
como de tipos diferentes), le confiere más diversidad (por usar diferentes formas de explora-  
ción del campo de hipótesis), en dependencia de la función de decisión del multiclasificador se  
torna el aporte determinante en la decisión. Es normal que en determinado entorno un clasi-  
ficador individual tenga mejor rendimiento que un multiclasificador; pero teniendo en cuenta  
la capacidad de generalización de los modelos para clasificación, un modelo multiclasificador  
tendrá una respuesta más robusta que un clasificador individual.  
Existen muchos métodos para generar el conjunto de clasificadores, teniendo en cuenta lo  
planteado en Dietterich (2000), a continuación se describen algunos métodos que son de pro-  
pósitos generales:  
 Voto Bayesiano: aplicable en contextos donde se pueden enumerar las hipótesis hl y cal-  
cular probabilidad a posteriori. Se centra fundamentalmente en el teorema de Bayes.  
 Manipulación de los ejemplos de entrenamiento: con la finalidad de generar diferentes  
hipótesis, el algoritmo puede ser ejecutado varias veces con un conjunto de datos dife-  
rentes. Esta técnica funciona mejor con algoritmos de aprendizaje inestables, es decir,  
aquellos cuyo modelo resultante puede variar mucho al cambiar en menor grado los  
ejemplos de entrenamiento. Por ejemplo, los árboles de decisión, las redes de neuronales  
artificiales y los algoritmos de inducción de reglas, son algoritmos inestables. En cambio,  
los métodos de regresión lineal y el vecino más cercano, suelen ser muy estables.  
 Manipulación de los atributos de entrada: se centra en la manipulación de los atributos  
de entrada disponibles a la hora de utilizar el algoritmo de aprendizaje. Una debilidad de  
esta técnica es que solo funciona cuando los atributos de entrada son altamente redun-  
dantes.  
 Manipulación de las salidas: en esta técnica el conjunto de clasificador es generado por  
medio de la manipulación de clase de instancia, como es el caso de la técnica ECOC  
(
error correcting output code).  
 Introducción de aleatoriedad: otra técnica muy común para la generación de conjuntos  
consiste en la incorporación de aleatoriedad dentro del algoritmo de aprendizaje.  
 En el estudio Dietterich (2000) no se hace referencia a los conjuntos de clasificadores for-  
mados por diferentes algoritmos de aprendizaje, centrándose únicamente en multiclasi-  
ficadores homogéneos. En el estado del arte no hay consenso en cuanto a la taxonomía  
de algoritmos de construcción de multiclasificadores, pero de forma genérica se desta-  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
can los métodos de Boosting, Bagging, Voting y Stacking. Los dos primeros se refieren a  
algoritmos homogéneos que se basan en la manipulación de ejemplos de entrenamiento,  
lo cual constituye el objetivo de este estudio.  
 Bagging es un método que logra la diversidad en función de la aleatoriedad que se in-  
troduce en la fase de entrenamiento del modelo, por ejemplo, el muestreo aleatorio con  
reemplazo es utilizado para generar los subconjuntos de datos de entrenamiento de los  
clasificadores bases, a su vez las predicciones de los clasificadores bases son combinadas  
con una función basada en votación o promedio. Del mismo modo, el método Boosting  
logra la diversidad en el entrenamiento; pero con una estrategia diferente: los modelos  
clasificadores bases son formados secuencialmente, donde el objetivo del clasificador  
base posterior seria corregir los errores de clasificación del modelo anterior, o sea, se in-  
troducen en su entrenamiento las instancias clasificadas de forma errónea por el clasifi-  
cador base anterior al actual.  
METODOLOGÍA  
Este trabajo fue desarrollado, empleando un enfoque de Minería de Datos cuyos pasos se des-  
criben en los apartados a continuación (tabla 1).  
tꢀꢁꢂꢀ 1, cꢀꢃꢀꢄꢅꢆꢃíꢇꢅiꢄꢀꢇ ꢈꢆ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ꢁꢉꢅꢊꢆꢅ ꢈꢆ ctu-13 (cF: cꢂiꢄꢇ fꢃꢀꢋꢈꢋꢂꢆꢊꢅꢉꢇ, ps: eꢇꢄꢀꢊꢆꢉ ꢈꢆ  
ꢌꢋꢆꢃꢅꢉꢇ, FF: FꢀꢇꢅFꢂꢋx, us: cꢉmꢌiꢂꢀꢈꢉ y ꢄꢉꢊꢅꢃꢉꢂꢀꢈꢉ ꢌꢉꢃ ꢂꢉꢇ ꢈꢆꢇꢀꢃꢃꢉꢂꢂꢀꢈꢉꢃꢆꢇ) (Fꢋꢆꢊꢅꢆ: gꢀꢃꢄíꢀ et al., 2014)  
Id IRC SPAM CF PS DDoS FF P2P US HTTP Nota  
1
x x x  
x x x  
x
x
x
2
3
4
5
6
7
8
9
x
x
x
x
UDP and ICMP DDoS  
x Scan web proxies  
x
x
Proprietary C&C, RDP  
x Chinese hosts  
x
Proprietary C&C, Net-BIOS, STUN  
x x x x  
1
1
0 x  
1 x  
x
x
x
x
UDP DDoS  
ICMP DDoS  
1
2
x
Synchronization  
x Captcha, Web mail  
13  
x
Descripción de los datos  
Los datos son el componente fundamental para la construcción de modelos basados en apren-  
dizaje automático. Existe bastante escasez de conjuntos de datos de comercio electrónico  
disponibles en la web, de hecho, la mayor parte de los algoritmos de detección de bots en co-  
mercio electrónico del estado del arte son implementados con conjuntos de datos formados a  
partir de archivos de registro de servidores web, los cuales no están disponibles por diversas  
razones. Por otro lado, las plataformas de comercio electrónico son desarrolladas con tecno-  
logías diferentes, lo que reduce la posibilidad de tener un conjunto de datos que sea genérico.  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
CTU-13 es un conjunto de datos de tráfico real de botnet, capturado en la universidad CTU  
de la República Checa en 2014. Consiste en trece capturas o escenarios de diferentes muestras  
de tráfico de botnets y contiene datos de siete diferentes botnets: Neris, Rbot, Virut, Murlo,  
NSIS, Donbot y Sogou. Cada escenario fue analizado y etiquetado manualmente; la columna  
ID de la tabla 1 corresponde a los escenarios del conjunto de datos, cuyas características se  
describen en esa tabla.  
Preprocesamiento  
Para adecuar los datos al proceso de minería, se aplicó un conjunto de procedimientos que  
buscan eliminar irregularidades, inconsistencias y ruidos en los datos, convertir, escalar y  
reducir la dimensionalidad. El conjunto de datos posee instancias de clases de tráfico de bot-  
net, normal y background. Las clases de normal y background fueron tratadas como una sola  
clase, porque la primera representa el tráfico de usuarios humanos y la segunda es el tráfico  
propio de la red cuando no existen actividades de usuarios humanos y de bots. Tras la carga  
y limpieza de los datos, y con el objetivo de garantizar que los algoritmos de clasificación no  
sean inducidos a atribuir más peso a un atributo en relación con los otros, con una técnica  
de estandarización se estableció una misma escala de valores para cada atributo. Para la re-  
ducción de dimensionalidad se implementó el Análisis de Componentes Principales (PCA,  
del inglés Principal Component Analysis), considerando una varianza explicativa acumulada  
correspondiente a 98 %, que resultó en 10-12 componentes principales en dependencia del  
escenario. Se observa que los escenarios de CTU-13 son muy desbalanceados, donde la clase  
positiva (clase de tráfico de botnet) es la clase minoritaria, con un porcentaje máximo inferior  
a 10 % de los ejemplos en un escenario, como se describe en la tabla 2.  
tꢀꢁꢂꢀ 2. dimꢆꢊꢇiꢉꢊꢆꢇ ꢈꢆ ꢂꢉꢇ ꢆꢇꢄꢆꢊꢀꢃiꢉꢇ ꢈꢆ ctu-13 ꢀꢊꢅꢆꢇ y ꢈꢆꢇꢌꢋꢍꢇ ꢈꢆꢂ ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ  
(pc: ꢄꢉmꢌꢉꢊꢆꢊꢅꢆꢇ ꢌꢃiꢊꢄiꢌꢀꢂꢆꢇ)  
Fꢀꢇꢆꢇ ꢈꢆꢂ ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ  
númꢆꢃꢉ ꢈꢆ iꢊꢇꢅꢀꢊꢄiꢀꢇ ꢌꢉꢃ ꢄꢂꢀꢇꢆ ꢀꢊꢅꢆꢇ ꢈꢆꢂ  
ꢌꢃꢆꢌꢃꢉꢄꢆꢇꢀmiꢆꢊꢅꢉ (ꢄꢉꢊ 14 ꢀꢅꢃiꢁꢋꢅꢉꢇ)  
pꢉꢃꢄꢆꢊꢅꢀjꢆ  
ꢈꢆ ꢂꢀ ꢄꢂꢀꢇꢆ  
miꢊꢉꢃiꢅꢀꢃiꢀ  
limꢌiꢆzꢀ ꢆ tꢃꢀꢊꢇfꢉꢃmꢀꢄiꢏꢊ  
iꢊꢅꢆꢎꢃꢀꢄiꢏꢊ  
y ꢇꢆꢂꢆꢄꢄiꢏꢊ  
Id  
1
2
3
4
5
6
7
8
9
bꢉꢅꢊꢆꢅ  
40 961  
20 941  
26 822  
2 580  
901  
nꢉꢃmꢀꢂ  
2 783 675 2 824 636  
1 787 181 1 808 122  
4 683 816 4 710 638  
tꢉꢅꢀꢂ  
Iꢊꢇꢅꢀꢊꢄiꢀꢇ  
2 824 636  
1 808 122  
4 710 638  
1 121 076  
129 832  
pc  
11  
11  
11  
11  
1,45 %  
1,15 %  
0,57 %  
0,23 %  
0,70 %  
0,83 %  
0,05 %  
0,20 %  
8,45 %  
8,11 %  
1 118 496  
128 931  
554 289  
114 014  
1 121 076  
129 832  
558 919  
114 077  
11  
4 630  
63  
558 919  
11  
114 077  
11  
6 127  
2 948 103 2 954 230  
2 954 230  
11  
184 987  
106 352  
8 164  
1 902 521 2 087 508 2 087 508  
12  
10  
10  
11  
1
1
0
1
1 203 439  
99 087  
1 309 791  
107 251  
1 309 791  
107 251  
325 471  
1 925 149  
7,61 %  
0,67 %  
2,07 %  
12  
2 168  
40 003  
323 303  
1 885 146  
325 471  
1 925 149  
13  
11  
Multiclasificador homogéneo para detección de bots en el comercio electrónico  
revista cubana  
de transformación digital  
chꢀꢁꢁꢀꢂꢃꢄꢀ, H. J., cꢅpꢅꢆꢇ Pꢅꢆéz, n., dꢀꢈz Pꢈꢂꢉꢇ, H., mꢇꢆꢅꢂꢇ eꢁpꢀꢂꢇ, m.  
Diseño de experimento  
Tras el conjunto de tareas a las que fueron sometidos los datos en la etapa de preprocesa-  
miento, para la validación de los algoritmos de multiclasificadores homogéneos, se realiza un  
diseño de experimento basado en determinar los modelos multiclasificadores adecuados para  
clasificar el tráfico de usuarios de humanos y de Bots con base a métricas de rendimiento. El  
proceso consistió en las siguientes actividades:  
 Construcción individual de algoritmos supervisados: en este experimento se busca en-  
contrar un modelo clasificador individual de referencia (según los algoritmos supervisa-  
dos de la tabla 3), para posteriormente compararlo con los modelos multiclasificadores  
Bagging y AdaBoost.  
 Construcción de ensambles: se construyen los ensambles Bagging y AdaBoosting, consi-  
derando como estimadores los algoritmos supervisados de la tabla 3 y se busca encontrar  
el modelo ensamble más adecuado para clasificar el tráfico normal e de botnet.  
 Comparación con el estado del arte: se comparan los resultados de los mejores modelos  
ensambles con los enfoques del estado del arte donde se emplea el mismo conjunto de  
datos.  
tꢀꢁꢂꢀ 3. aꢂꢎꢉꢃiꢅmꢉꢇ ꢈꢆ ꢀꢌꢃꢆꢊꢈizꢀjꢆ ꢇꢋꢌꢆꢃꢐiꢇꢀꢈꢉ ꢇꢆꢂꢆꢄꢄiꢉꢊꢀꢈꢉꢇ  
tiꢌꢉ  
vꢀꢃiꢀꢊꢅꢆ  
Iꢈꢆꢊꢅifiꢄꢀꢈꢉꢃ  
Modelos lineares  
Logística  
LR  
Descenso de gradientes estocástico SGD  
Árbol de decisión  
Cart  
ExtraTree  
Naive Bayes  
k-vecinos más cercanos  
CART  
EXTRA  
NAIVE  
KNN  
Red bayesiana  
Basado en instancias  
Máquinas de soporte vectorial LinearSVC  
LSVC  
MLP  
Red neuronal artificial  
Perceptrón multicapas  
RESULTADOS Y DISCUSIÓN  
Antes del empleo de los ensambles se evaluaron de forma individual los algoritmos de apren-  
dizaje supervisado mencionados en la tabla 3. Para la evaluación del rendimiento de los algo-  
ritmos se empleó la métrica puntuación F1, que permite tener una noción más precisa de la  
influencia de los falsos positivos y falsos negativos en escenarios desbalanceados. Con la re-  
ferida métrica se puede verificar que los valores F1 = 0,00 implican que el algoritmo no logró  
clasificar correctamente ningún ejemplo de la clase positiva (clase de tráfico de botnet).  
Los resultados de la evaluación individual de los algoritmos supervisados en la tabla 4 de-  
muestran una tendencia de bajo rendimiento en los escenarios con un desbalance de clases  
severo, como los escenarios 6, 7, 8 y 12, mientras que los escenarios 10 y 11 fueron los más  
favorables, donde los todos los algoritmos lograron un rendimiento no inferior a 85 %. Los