Métodos estadístico-computacionales para la caracterización de patrones de expresión de proteínas en 2D-DIGE

Balzarini, Mónica; Fernández, Elmer Andrés; Fresno Rodiríguez, Cristóbal; Girotti, María Romina; Llera, Andrea Sabina; Ponzoni, Ignacio

Métodos estadístico-computacionales para la caracterización de patrones de expresión de proteínas en 2D-DIGE

Authors: Mónica Balzarini
Elmer Andrés Fernández
Cristóbal Fresno Rodiríguez
María Romina Girotti
Andrea Sabina Llera
Ignacio Ponzoni
Publication date: 1 March 2010
Publisher: 'Universidad Catolica de Cordoba'

Abstract

El volumen de datos provenientes de experimentos basados en genómica y poteómica es grande y de estructura compleja. Solo a través de un análisis bioinformático/bioestadístico eficiente es posible identificar y caracterizar perfiles de expresión de genes y proteínas que se expresan en forma diferencial bajo distintas condiciones experimentales (CE). El objetivo principal es extender las capacidades computacionales y analíticos de los softwares disponibles de análisis de este tipo de datos, en especial para aquellos aplicables a datos de electroforésis bidimensional diferencial (2D-DIGE). En DIGE el método estadístico más usado es la prueba t de Student cuya aplicación presupone una única fuente de variación y el cumplimiento de ciertos supuestos distribucionales de los datos (como independencia y homogeneidad de varianzas), los cuales no siempre se cumplen en la práctica, pudiendo conllevar a errores en las estimaciones e inferencias de los efectos de interés. Los modelos Generalizados lineales mixtos (GLMM) permiten no solo incorporar los efectos que, se asume, afectan la variación de la respuesta sino que también modelan estructuras de covarianzas y de correlaciones más afines a las que se presentan en la realidad, liberando del supuesto de independencia y de normalidad. Estos modelos, más complejos en esencia, simplificará el análisis debido a la modelización directa de los datos crudos sin la aplicación de transformaciones para lograr distribuciones más simétricas. Produciendo también a una estimación estadísticamente más eficiente de los efectos presentes y por tanto a una detección más certera de los genes/ proteínas involucrados en procesos biológicos de interés. La característica relevante de esta tecnología es que no se conoce a priori cuáles son las proteínas presentes. Estas son identificadas mediante otras técnicas más costosas una vez que se detectó un conjunto de manchas diferenciales sobre los geles 2DE. Por ende disminuir los falsos positivos es fundamental en la identificación de tales manchas ya que inducen a resultados erróneas y asociaciones biológica ficticias. Esto no solo se logrará mediante el desarrollo de técnicas de normalización que incorporen explícitamente las CE, sino también con el desarrollo de métodos que permitan salirse del supuesto de gaussianidad y evaluar otros supuestos distribucionales más adecuados para este tipo de datos. También, se desarrollarán técnicas de aprendizaje automática que mediante optimización de funciones de costo específicas nos permitan identificar el subconjunto de proteínas con mayor potencialidad diagnóstica. Este proyecto tiene una alta componente estadístico/bioinformática, pero creemos que es el campo de aplicación, es decir la genómica y la proteómica, los que mas se beneficiarán con los resultados esperados. Para tal fin se utilizarán diversas bases de datos de distintos experimentos provistos por distintos centros de investigación nacionales e internacionales.Fil: Fernández, Elmer Andrés. Universidad Católica de Córdoba. Facultad de Ingeniería; ArgentinaFil: Fresno Rodríguez, Cristóbal. Universidad Católica de Córdoba. Facultad de Ingeniería; Argentin

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Producción Académica

oai:pa.bibdigital.uccor.edu.ar...

Last time updated on 17/04/2020