Algoritmos de balanceo probabilístico: desarrollo y evaluación de un sistema informático para clasificación binaria
Palabras clave:
Aprendizaje Automatizado, Desbalance de clases, Sobremuestreo probabilístico, Modelos probabilísticos, Sistema informáticoResumen
El desbalance de clases es un problema habitual en tareas de clasificación supervisada, donde la clase minoritaria se encuentra representada por una proporción significativamente menor de instancias. Esta situación compromete la capacidad de los modelos para reconocer correctamente los casos más relevantes, como en la clasificación de texto, detección de fraudes o diagnósticos médicos. Aunque existen múltiples algoritmos de sobremuestreo que abordan este reto, las soluciones probabilísticas que se proponen en este trabajo: SMOTE-COV-LW, SMOTE-RL y SMOTE-EN, presentan un enfoque innovador basado en modelos probabilísticos. Sin embargo, su uso ha estado limitado a entornos de programación, lo que restringe su aplicación por parte de usuarios no especializados. Para facilitar su acceso, se diseñó un sistema informático que permite aplicar estos algoritmos de sobremuestreo probabilísticos para conjuntos de datos de clasificación binaria de forma gráfica y sin necesidad de conocimientos técnicos avanzados. El sistema fue desarrollado con tecnologías como Python y PyQt6, e incluye herramientas para importar bases de conocimientos de clasificación binarias, aplicar balanceo y exportar resultados. Para evaluar el rendimiento de los algoritmos probabilísticos propuestos, se realizó una comparación con técnicas clásicas ampliamente utilizadas (SMOTE, Borderline-SMOTE, SMOTE-RSB y ADASYN). La evaluación se realizó sobre múltiples conjuntos de datos de clasificación binaria desbalanceados, utilizando como clasificadores a C4.5, MLP, KNN, Random Forest y SVM, y como métricas de desempeño el AUC y el F1-Score. Los resultados mostraron que los algoritmos probabilísticos alcanzaron resultados similares o incluso superiores en varios escenarios, lo que evidencia su competitividad frente a los métodos tradicionales.
Citas
Alghamdi, M., Alghamdi, M., & Al-Barakati, A. (2022). A systematic review on oversampling techniques for imbalanced data classification. IEEE Access, *10*, 12458-12478.
Algamal, Z. Y., & Lee, M. H. (2019). A new adaptive elastic net for high-dimensional data. Journal of Statistical Computation and Simulation, *89*(9), 1689-1702.
Bodnar, T., Okhrin, Y., & Parolya, N. (2021). Optimal shrinkage covariance matrix estimation in high-dimensional problems. Journal of Multivariate Analysis, *185*, Article 104767. https://doi.org/10.1016/j.jmva.2021.104767
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, *16*, 321-357.
Chawla, N. V., Lazarevic, A., Hall, L. O., & Bowyer, K. W. (2003). SMOTEBoost: Improving prediction of the minority class in boosting. In Proceedings of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (pp. 107-119). Springer.
Das, S., Datta, S., & Chaudhuri, B. B. (2023). Handling class overlap and imbalance to detect rare events. Pattern Recognition, *133*, Article 109018.
Fernández, A., García, S., del Jesus, M. J., & Herrera, F. (2008). A study of the behaviour of linguistic fuzzy rule-based classification systems in the framework of imbalanced data sets. Fuzzy Sets and Systems, 159(18), 2378-2398.
Fernández, A., García, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, *61*, 863-905.
Fernández, A., García, S., Galar, M., Prati, R. C., Krawczyk, B., & Herrera, F. (2018). Learning from imbalanced data sets. Springer.
Google Cloud. (s.f.). ¿Qué es la inteligencia artificial o IA? Recuperado el 22 de junio de 2025, de https://cloud.google.com/learn/what-is-artificial-intelligence.
Han, H., Wang, W. Y., & Mao, B. H. (2005). Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. In Advances in intelligent computing (pp. 878-887). Springer.
Hastie, T., Tibshirani, R., & Wainwright, M. (2019). Statistical learning with sparsity: The Lasso and generalizations. CRC Press.
He, H., Bai, Y., Garcia, E. A., & Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE International Joint Conference on Neural Networks (pp. 1322-1328). IEEE.
Krawczyk, B. (2016). Learning from imbalanced data: Open challenges and future directions. Progress in Artificial Intelligence, *5*(4), 221-232.
Ledoit, O., & Wolf, M. (2022). The power (non) linear shrinking: A review and guide to covariance matrix estimation. Journal of Multivariate Analysis, *188*, Article 104844. https://doi.org/10.1016/j.jmva.2021.104844
López, V., Fernández, A., García, S., Palade, V., & Herrera, F. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Information Sciences, *250*, 113-141.
Lu, Y., & Yin, Y. (2022). Applying logistic lasso regression for the diagnosis of atypical Crohn's disease. Computers in Biology and Medicine, *141*, Article 105151. https://doi.org/10.1016/j.compbiomed.2021.105151
Madera, J. (2008). Algoritmos evolutivos con estimación de distribuciones basados en pruebas de independencia.
Murphy, K. P. (2022). Probabilistic machine learning: An introduction. MIT Press.
Ramentol, E., Caballero, Y., Bello, R., & Herrera, F. (2012a). SMOTE-RSB*: A hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using rough set theory. Knowledge and Information Systems, *33*(2), 245-265.
Richardson Ibáñez, J. (2017). Algoritmos evolutivos estimadores de distribución celulares para problemas de optimización continuos.
Soofi, A. A., & Awan, A. (2017). Classification techniques in machine learning: Applications and issues. Journal of Basic & Applied Sciences, *13*, 459-465.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), *58*(1), 267-288.
Zhang, C., Zhang, Y., & Zhang, Y. (2021). A survey on artificial intelligence for medical diagnosis. Artificial Intelligence Review, *54*(5), 3597-3645.
Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), *67*(2), 301-320.
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Ireimis Leguen de Varona, Julio Madera Quintana, Alfredo Simon-Cuevas, Marcos Antonio Rodríguez Guerra

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.






