Agrupamiento funcional de enzimas GH-70 utilizando aprendizaje semi-supervisado y Apache Spark

Yadelis González Valle; Deborah Galpert Cañizares; Reinaldo  Molina-Ruiz; Guillermin  Agüero-Chapin

Authors

Yadelis González Valle
Deborah Galpert Cañizares
Reinaldo Molina-Ruiz Universidad Central de Las Villas "Marta Abreu"
Guillermin Agüero-Chapin Universidad Central de Las Villas "Marta Abreu"

Keywords:

agrupamiento de enzimas, aprendizaje semi-supervisado, ensamblado de agrupamientos

Abstract

Uno de los campos de gran interés para la bioinformática resulta la clasificación estructural y funcional de enzimas. En particular las enzimas de la familia Glicosil Hidrolasa-70 (GH-70), tienen un alto valor para la biotecnología y a su vez pueden ocasionar pérdidas millonarias en la producción de azúcar. En este artículo se investigó el uso de algoritmos de agrupamiento semi-supervisados y no supervisados para agrupar secuencias similares de enzimas de esta familia, a partir de la integración de descriptores de proteínas libres de alineamiento. Se extrajeron rasgos numéricos con el método de k-mers con valores de k del 2 al 6 y luego se implementaron tres algoritmos que agrupan las enzimas de acuerdo a su función enzimática tomando información de referencia de 58 secuencias funcionalmente caracterizadas de la familia GH-70 de la base de datos CAZy. En los resultados obtenidos en el algoritmo de ensamblado de K-medias se ubicaron correctamente en sus respectivos grupos la gran mayoría de las enzimas clasificadas, con un máximo de 0.91 en la medida-F. Se obtuvieron valores moderados del índice de silueta como medida de validación interna (máximo de 0.3145 para el ensamblado de K-medias), pero mejor que los obtenidos con el propio método K-medias sin ensamblar.

References

Abdallah, L., Yousef, M. (2020) GrpClassifierEC: a novel classification approach based on the ensemble clustering space. Algorithms Mol Biol 15(3). https://doi.org/10.1186/s13015-020-0162-7.

AK Ong, Serene, Hong Huang Lin, Yu Zong Chen, Ze Rong Li, y Zhiwei Cao. (2007). Efficacy of different protein descriptors in predicting protein functional families. BMC Bioinformatics 8(300).

Anderberg, Michael R. (1973). Cluster Analysis for Applications. 1st Edition. Probability and Mathematical Statistics: A Series of Monographs and Textbooks ISBN: 978-0-12-057650-0. https://doi.org/10.1016/C2013-0-06161-0. eBook ISBN: 9781483191393. Imprint: Academic Press. Published Date: 28th November 1973. Page Count: 376.

Baeza-Yates, R., y William B. F. (1992). Information Retrieval: Data Structures and Algorithms. editado por Prentice. Hall. ISBN 0-13-463837-9.

Basu, Sugato, Arindam Banerjee, y Raymond Mooney (2002). Semi-supervised Clustering by Seeding. Proceedings of the 19th International Conference on Machine Learning 27-34.

Bhasin, Manoj, y Gajendra P. S. Raghava. (2004). Classification of Nuclear Receptors Based on Amino AcidComposition and Dipeptide Composition. The Journal of Biological Chemistry 279(22).

Brun, Marcel, Chao Sima, Jianping Hua, James Lowey Brent Carroll, Edward Suha, Edward R.Dougherty (March 2007). Model-based evaluation of clustering validation measures. Pattern Recognition. 40(3): 807-824. https://doi.org/10.1016/j.patcog.2006.06.026

Chapelle, Olivier, Bernhard Schölkopf, y Alexander Zien. (January 2009). Semi-Supervised Learning. (Review) IEEE Transactions on Neural Networks 20(3):542.

Davies, Gideon J., y Michael L. Sinnott. (2008). The sequence‑based classifications of carbohydrate‑active enzymes. Sorting the diverse. Regulars Biochemical Journal Classic Papers 27-32.

Fraga Vidal, Reinaldo, Aidín Martínez, Claire Moulis, Pierre Escalier, Sandrine Morel, Magali Remaud-Simeon, y Pierre Monsan. (2011). A novel dextransucrase is produced by Leuconostoc citreum strain B/110-1-2: An isolate used for the industrial production of dextran and dextran derivatives. Journal of Industrial Microbiology and Biotechnology 38(9):1499-1506.

Galpert, Deborah (2016). Contribuciones al enfoque de comparación par a par en la detección de genes ortólogos. Tesis para optar por el grado de Doctor en Ciencias Técnicas. Departamento de Ciencia de la Computación. Universidad Central "Marta Abreu" de Las Villas.

Gunasinghe, Upuli, Damminda Alahakoon, y Susan Bedingfield. (2014). Extraction of high quality k-words for alignment-free sequence comparison. Journal of Theoretical Biology 358:31-51.

Halkidi, Maria, Yannis Batistakis, y Michalis Vazirgiannis. (2002). Clustering validity checking methods: part II. SIGMOD Rec. 31(3): 19-27.

Frank Höppner, Frank Klawonn, Rudolf Kruse, Thomas Runkler. (July 1999). Fuzzy Cluster Analysis: Methods for Classification, Data Analysis and Image Recognition. ISBN: 978-0-471-98864-9, 300 pages

Konstantinos Koutroumbas Sergios Theodoridis (20th October 2008). Pattern Recognition. Imprint: Academic Press. eBook ISBN: 9780080949123 Hardcover ISBN: 9781597492720. Page Count: 984

Kruse, Rudolf, Christian Döring, y Marie‐Jeanne Lesot. (20 April 2007). Fundamentals of Fuzzy Clustering, in Advances in Fuzzy Clustering and its Applications. Pages (1-30) Editor(s): J. Valente de Oliveira W. Pedrycz. Print ISBN:9780470027608 |Online ISBN:9780470061190 |DOI:10.1002/9780470061190 John Wiley & Sons, Ltd

Lange, Tilman, Martin H. C. Law, Anil K. Jain, y Joachim M. Buhmann. (2005). Learning With Constrained and Unlabelled Data. In CVPR '05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Volume 1 - Volume 01 June 2005, pp 731–738 https://doi.org/10.1109/CVPR.2005.210

Lombard, Vincent, Hemalatha Golaconda Ramulu, Elodie Drula, Pedro M. Coutinho, y Bernard Henrissat. (2014). The carbohydrate-active enzymes database ( CAZy ) in 2013. Nucleic Acids Res. 42(Database-Issue): D490-D495

Melsted, Páll, y Jonathan k. Pritchard. (2011). Efficient counting of k-mers in DNA sequences using a bloom filter. BMC Bioinformatics 12(333):1-7.

Meng, X., Gangoiti, J., Bai, Y. et al. Structure–function relationships of family GH70 glucansucrase and 4,6-α-glucanotransferase enzymes, and their evolutionary relationships with family GH13 enzymes. Cell. Mol. Life Sci. 73, 2681–2706 (2016). https://doi.org/10.1007/s00018-016-2245-7

Rosell, Magnus, Kth Nada, Viggo Kann, y Jan-Eric Litton. (2004). Comparing comparisons: Document clustering evaluation using two manual classifications. En Proceedings of the International Conference on Natural Language Processing (ICON 2004). Hyderabad, India: Allied Publishers.

Ruiz-Shulcloper, José. Cap. 10 Clasificación no supervisada: Algoritmos de estructuración de espacios cartesianos. En Reconocimiento lógico combinatorio de patrones: teoría y aplicaciones. Tesis para optar por el grado de Doctor de Segundo Grado.

Ruiz-Shulcloper, José, y Guillermo Sánchez-Díaz. (2001). A clustering method for very large mixed data sets. IEEE.

Steinbach, Michael, George Karypis, y Vipin Kumar. (2000). A Comparison of Document Clustering Techniques. en Proceedings of 6th ACM SIGKDD World Text Mining Conference. Boston: ACM Press.

Vinga, Susana. (2014). Alignment-free methods in computational biology. Briefings In Bioinformatics 15(3):341-42.

Vinga, Susana, y Jonas S. Almeida. (2003). Alignment-free sequence comparison. Bioinformatics 19(4):513-23.

Xiaojin Zhu. (2005). Semi-Supervised Learning Literature Survey. editado por U. of W.-M. D. of C. Sciences.

Zielezinski, Andrzej, Hani Z. Girgis, Guillaume Bernard, Chris-Andre Leimeister, Kujin Tang, Thomas Dencker, … Wojciech M. Karlowski. (2019). Benchmarking of alignment-free sequence comparison methods. Genome Biology.

Zielezinski, Andrzej, Susana Vinga, Jonas Almeida, y Wojciech M. Karlowski. (2017). Alignment-free sequence comparison: benefits, applications, and tools. Genome Biol 18(1):186.