Algoritmos de balanceo probabilístico: desarrollo y evaluación de un sistema informático para clasificación binaria

Ireimis  Leguen de Varona; Julio  Madera Quintana; Alfredo  Simon-Cuevas; Marcos Antonio  Rodríguez Guerra

Autores/as

Ireimis Leguen de Varona Universidad de Camagüey "Ignacio Agramonte Loynaz"
Julio Madera Quintana Universidad de Camagüey "Ignacio Agramonte Loynaz"
Alfredo Simon-Cuevas Universidad Tecnológica de La Habana "José Antonio Echevarría", CUJAE
Marcos Antonio Rodríguez Guerra Universidad de Camagüey "Ignacio Agramonte Loynaz"

Palabras clave:

Aprendizaje Automatizado, Desbalance de clases, Sobremuestreo probabilístico, Modelos probabilísticos, Sistema informático

Resumen

El desbalance de clases es un problema habitual en tareas de clasificación supervisada, donde la clase minoritaria se encuentra representada por una proporción significativamente menor de instancias. Esta situación compromete la capacidad de los modelos para reconocer correctamente los casos más relevantes, como en la clasificación de texto, detección de fraudes o diagnósticos médicos. Aunque existen múltiples algoritmos de sobremuestreo que abordan este reto, las soluciones probabilísticas que se proponen en este trabajo: SMOTE-COV-LW, SMOTE-RL y SMOTE-EN, presentan un enfoque innovador basado en modelos probabilísticos. Sin embargo, su uso ha estado limitado a entornos de programación, lo que restringe su aplicación por parte de usuarios no especializados. Para facilitar su acceso, se diseñó un sistema informático que permite aplicar estos algoritmos de sobremuestreo probabilísticos para conjuntos de datos de clasificación binaria de forma gráfica y sin necesidad de conocimientos técnicos avanzados. El sistema fue desarrollado con tecnologías como Python y PyQt6, e incluye herramientas para importar bases de conocimientos de clasificación binarias, aplicar balanceo y exportar resultados. Para evaluar el rendimiento de los algoritmos probabilísticos propuestos, se realizó una comparación con técnicas clásicas ampliamente utilizadas (SMOTE, Borderline-SMOTE, SMOTE-RSB y ADASYN). La evaluación se realizó sobre múltiples conjuntos de datos de clasificación binaria desbalanceados, utilizando como clasificadores a C4.5, MLP, KNN, Random Forest y SVM, y como métricas de desempeño el AUC y el F1-Score. Los resultados mostraron que los algoritmos probabilísticos alcanzaron resultados similares o incluso superiores en varios escenarios, lo que evidencia su competitividad frente a los métodos tradicionales.

Citas

Alghamdi, M., Alghamdi, M., & Al-Barakati, A. (2022). A systematic review on oversampling techniques for imbalanced data classification. IEEE Access, *10*, 12458-12478.

Algamal, Z. Y., & Lee, M. H. (2019). A new adaptive elastic net for high-dimensional data. Journal of Statistical Computation and Simulation, *89*(9), 1689-1702.

Bodnar, T., Okhrin, Y., & Parolya, N. (2021). Optimal shrinkage covariance matrix estimation in high-dimensional problems. Journal of Multivariate Analysis, *185*, Article 104767. https://doi.org/10.1016/j.jmva.2021.104767

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, *16*, 321-357.

Chawla, N. V., Lazarevic, A., Hall, L. O., & Bowyer, K. W. (2003). SMOTEBoost: Improving prediction of the minority class in boosting. In Proceedings of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (pp. 107-119). Springer.

Das, S., Datta, S., & Chaudhuri, B. B. (2023). Handling class overlap and imbalance to detect rare events. Pattern Recognition, *133*, Article 109018.

Fernández, A., García, S., del Jesus, M. J., & Herrera, F. (2008). A study of the behaviour of linguistic fuzzy rule-based classification systems in the framework of imbalanced data sets. Fuzzy Sets and Systems, 159(18), 2378-2398.

Fernández, A., García, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, *61*, 863-905.

Fernández, A., García, S., Galar, M., Prati, R. C., Krawczyk, B., & Herrera, F. (2018). Learning from imbalanced data sets. Springer.

Google Cloud. (s.f.). ¿Qué es la inteligencia artificial o IA? Recuperado el 22 de junio de 2025, de https://cloud.google.com/learn/what-is-artificial-intelligence.

Han, H., Wang, W. Y., & Mao, B. H. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In Advances in intelligent computing (pp. 878-887). Springer.

Hastie, T., Tibshirani, R., & Wainwright, M. (2019). Statistical learning with sparsity: The Lasso and generalizations. CRC Press.

He, H., Bai, Y., Garcia, E. A., & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). IEEE.

Krawczyk, B. (2016). Learning from imbalanced data: Open challenges and future directions. Progress in Artificial Intelligence, *5*(4), 221-232.

Ledoit, O., & Wolf, M. (2022). The power (non) linear shrinking: A review and guide to covariance matrix estimation. Journal of Multivariate Analysis, *188*, Article 104844. https://doi.org/10.1016/j.jmva.2021.104844

López, V., Fernández, A., García, S., Palade, V., & Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information Sciences, *250*, 113-141.

Lu, Y., & Yin, Y. (2022). Applying logistic lasso regression for the diagnosis of atypical Crohn's disease. Computers in Biology and Medicine, *141*, Article 105151. https://doi.org/10.1016/j.compbiomed.2021.105151

Madera, J. (2008). Algoritmos evolutivos con estimación de distribuciones basados en pruebas de independencia.

Murphy, K. P. (2022). Probabilistic machine learning: An introduction. MIT Press.

Ramentol, E., Caballero, Y., Bello, R., & Herrera, F. (2012a). SMOTE-RSB*: A hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using rough set theory. Knowledge and Information Systems, *33*(2), 245-265.

Richardson Ibáñez, J. (2017). Algoritmos evolutivos estimadores de distribución celulares para problemas de optimización continuos.

Soofi, A. A., & Awan, A. (2017). Classification techniques in machine learning: Applications and issues. Journal of Basic & Applied Sciences, *13*, 459-465.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), *58*(1), 267-288.

Zhang, C., Zhang, Y., & Zhang, Y. (2021). A survey on artificial intelligence for medical diagnosis. Artificial Intelligence Review, *54*(5), 3597-3645.

Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), *67*(2), 301-320.