Proper integration of feature subsets boosts GO subcellular localization predictions

Abstract

La predicción de múltiples localizaciones subcelulares en proteínas brinda información relavante para el descubrimiento de funciones biológicas. El uso de métodos computacionales basados en el conocimiento puede ser un buen punto de partida para conducir a las costosas validaciones experimentales. En este trabajo, presentamos un framework de clasificación multi-etiqueta para para realizar la predicción en Gene Ontology - Componente Celular enfocada en la mejora de dos aspectos del diseño: i) la caracterización de la secuencia proteica, relacionando el conocimiento biológico con la evidencia experimental; y ii) la evaluación de errores al considerar un modelo de ruido inherente a los frameworks de predicción reales. Nuestra propuesta es validada contra un conjunto de secuencias de proteínas de cuatro organismos modelos D. rerio, A. thaliana, S. cerevisiae and D. melanogaster.Prediction of multiple subcellular localizations in proteins brings relevant information for biologicalfunction discovery. The use of computational methods based on knowledge can be a helpful starting point forguiding the costly experimental validation. In this work, we present a multilabel classifier framework to performGene Ontology - Cellular Component prediction focused on the improvement of two design aspects: i) the proteinsequence characterization, regarding biological knowledge with experimental evidence, and ii) the error evaluation byconsidering a noise model inherent in real prediction frameworks. Our proposal is validated against sets of well-knownprotein sequences of four model organisms D. rerio, A. thaliana, S. cerevisiae and D. melanogasterFil: Spetale, Flavio Ezequiel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Tapia Elizabeth. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Murillo, Javier. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Krsticevic Flavia. Universidad Tecnológica Nacional. Facultad Regional San Nicolás; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Ponce Sergio. Universidad Tecnológica Nacional. Facultad Regional San Nicolás; ArgentinaFil: Angelone, Laura Monica. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Bulacio, Pilar Estela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; Argentina. Universidad Tecnológica Nacional. Facultad Regional San Nicolás; Argentin

    Similar works