10 research outputs found

    A Factor Graph Approach to Automated GO Annotation

    Get PDF
    As volume of genomic data grows, computational methods become essential for providing a first glimpse onto gene annotations. Automated Gene Ontology (GO) annotation methods based on hierarchical ensemble classification techniques are particularly interesting when interpretability of annotation results is a main concern. In these methods, raw GO-term predictions computed by base binary classifiers are leveraged by checking the consistency of predefined GO relationships. Both formal leveraging strategies, with main focus on annotation precision, and heuristic alternatives, with main focus on scalability issues, have been described in literature. In this contribution, a factor graph approach to the hierarchical ensemble formulation of the automated GO annotation problem is presented. In this formal framework, a core factor graph is first built based on the GO structure and then enriched to take into account the noisy nature of GO-term predictions. Hence, starting from raw GO-term predictions, an iterative message passing algorithm between nodes of the factor graph is used to compute marginal probabilities of target GO-terms. Evaluations on Saccharomyces cerevisiae, Arabidopsis thaliana and Drosophila melanogaster protein sequences from the GO Molecular Function domain showed significant improvements over competing approaches, even when protein sequences were naively characterized by their physicochemical and secondary structure properties or when loose noisy annotation datasets were considered. Based on these promising results and using Arabidopsis thaliana annotation data, we extend our approach to the identification of most promising molecular function annotations for a set of proteins of unknown function in Solanum lycopersicum.Fil: Spetale, Flavio Ezequiel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Krsticevic, Flavia Jorgelina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Roda, Fernando. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; ArgentinaFil: Bulacio, Pilar Estela. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas. Universidad Nacional de Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas; Argentin

    RACE: Robot Autonómo para Corte de Césped

    Get PDF
    El rendimiento de robots que deben realizar tareas con tomas de decisión depende fuertemente de la inteligencia agregada a los sistemas de control. En este trabajo se presentan los elementos fundamentales del diseño de RACE, un robot autónomo orientado, pero no limitado, a tareas de cortado de césped. La arquitectura es genérica y modular consistiendo en un módulo de entrada que permite el disparo de acciones; un módulo inteligente que permite el análisis del contexto y la consecuente toma de decisión; y un módulo de salida, que efectiviza la realización de las acciones. El módulo inteligente es el corazón de la arquitectura, escuchando y preguntando al módulo de entrada y accionando en efecto al módulo de salida. La construcción y pruebas del prototipo muestran la consistencia de la propuesta.Presentado en el I Workshop Procesamiento de señales y Sistemas de Tiempo Real (WPSTR)Red de Universidades con Carreras en Informática (RedUNCI

    RACE: Robot Autonómo para Corte de Césped

    Get PDF
    El rendimiento de robots que deben realizar tareas con tomas de decisión depende fuertemente de la inteligencia agregada a los sistemas de control. En este trabajo se presentan los elementos fundamentales del diseño de RACE, un robot autónomo orientado, pero no limitado, a tareas de cortado de césped. La arquitectura es genérica y modular consistiendo en un módulo de entrada que permite el disparo de acciones; un módulo inteligente que permite el análisis del contexto y la consecuente toma de decisión; y un módulo de salida, que efectiviza la realización de las acciones. El módulo inteligente es el corazón de la arquitectura, escuchando y preguntando al módulo de entrada y accionando en efecto al módulo de salida. La construcción y pruebas del prototipo muestran la consistencia de la propuesta.Presentado en el I Workshop Procesamiento de señales y Sistemas de Tiempo Real (WPSTR)Red de Universidades con Carreras en Informática (RedUNCI

    Bio y agroInformática en CIFASIS

    Get PDF
    Las tecnologías de alto rendimiento en proyectos de ciencias de la vida generan cantidades exponenciales de datos cuya naturaleza y complejidad inspira el desarrollo de nuevos métodos computacionales para la extracción y gestión de información biológica relevante con el objetivo de lograr una comprensión más acabada de la vida tanto a nivel molecular como poblacional. Este contexto tecnológico, define un nuevo campo de investigación multidisciplinar conocido como Bioinformática. En nuestro grupo estamos interesados en el desarrollo de algoritmos y herramientas bioinformáticas para el análisis, procesamiento y gestión de datos de espectroscopia, microarreglos, marcadores moleculares y de secuenciación de alto rendimiento en el marco de proyectos de investigación básica y biológica multidisciplinar. Nuestro trabajo en Bioinformática inspira además la introducción de tecnologías de alto rendimiento y procesamiento de datos en Agricultura de Precisión, en el marco de un campo de investigación incipiente conocido como Agroinformática.Eje: Procesamiento de señales y sistemas de tiempo realRed de Universidades con Carreras en Informática (RedUNCI

    Set characterization-selection towards classification based on interaction index

    Get PDF
    In many real world datasets both the individual and coordinated action of features may be relevant for class identification. In this paper, a computational strategy for relevant feature selection based on the characterization of redundant or complementary features is proposed. The characterization is achieved using fuzzy measures and an interaction index computed from fuzzy measure coefficients. Fuzzy measure identification requires raw data to be turned into confidence degrees. This key step is carried out considering the distributions of feature values across all the classes. Fuzzy measure coefficients are then estimated with an improved version of the Heuristic Least Mean Squares algorithm that includes an efficient management of untouched coefficients. Then, a generalization of the Shapley index for an arbitrary number of features is used. Simulations experiments on synthetic datasets are performed to study the behavior of this generalized interaction index. For extreme datasets, containing either redundant or complementary features as well as noise, the index value is defined by mathematical formula. This result is used to motivate feature selection guidelines that take into account feature interactions. Experimental results on benchmark datasets show that the proposal allows for the design of compact, interpretable and competitive classification models.Fil: Murillo, Javier. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas; Argentina. Universidad Nacional de Rosario; ArgentinaFil: Guillaume, S.. Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture; FranciaFil: Spetale, Flavio Ezequiel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas; Argentina. Universidad Nacional de Rosario; ArgentinaFil: Tapia, E.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas; Argentina. Universidad Nacional de Rosario; ArgentinaFil: Bulacio, P.. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Rosario. Centro Internacional Franco Argentino de Ciencias de la Información y Sistemas; Argentina. Universidad Nacional de Rosario; Argentin

    (a) Core GO-FG. (b) Enriched core GO-FG where <i>x</i><sub><i>i</i></sub> are latent variable nodes modeling actual positive/negative <i>GO:i</i> annotations and <i>f</i><sub><i>k</i></sub> are logical factor nodes modeling the TPG constraint over them, <i>y</i><sub><i>i</i></sub> are observable variable leaf nodes modeling real-valued <i>GO:i</i> predictions and <i>g</i><sub><i>i</i></sub> are probabilistic factor nodes modeling their statistical dependence on latent variable nodes <i>x</i><sub><i>i</i></sub>.

    No full text
    <p>(a) Core GO-FG. (b) Enriched core GO-FG where <i>x</i><sub><i>i</i></sub> are latent variable nodes modeling actual positive/negative <i>GO:i</i> annotations and <i>f</i><sub><i>k</i></sub> are logical factor nodes modeling the TPG constraint over them, <i>y</i><sub><i>i</i></sub> are observable variable leaf nodes modeling real-valued <i>GO:i</i> predictions and <i>g</i><sub><i>i</i></sub> are probabilistic factor nodes modeling their statistical dependence on latent variable nodes <i>x</i><sub><i>i</i></sub>.</p

    Matching a GO-DAG to a core FG.

    No full text
    <p>(a) GO-DAG where <i>GO:i</i> nodes are GO-terms and edges are <i>is</i>_<i>a</i> relationships (b) Core GO-FG where <i>x</i><sub><i>i</i></sub> are variable nodes representing positive/negative <i>GO:i</i> annotations and <i>f</i><sub><i>k</i></sub> are logical factor nodes modeling TPG constraint.</p

    Scatter-plot of the average AUC for FGGA and TPR-DAG classifiers on the annotation of <i>D. melanogaster</i> protein sequences to the GO-Molecular Function domain with a Pfam characterization.

    No full text
    <p>Points above the diagonal show AUC improvements by FGGA. Points above the dashed line show 10% margin improvements. (Left) GO with 226 terms, 10 levels and <i>robust</i> annotation data. (Right) GO with 656 terms, 14 levels and <i>loose</i> annotation data.</p

    Scatter-plot of the average AUC after versus before TPR-DAG and FGGA classification.

    No full text
    <p>Annotation of <i>D. melanogaster</i> protein sequences to the GO-Molecular Function domain with Pfam characterization and <i>loose</i> annotation data is considered. (Left) The average AUC for TPR-DAG versus baseline SVM classifiers. (Right) The average AUC for FGGA versus baseline SVM classifiers.</p
    corecore