Conception d'un module d'annotation semi-automatique de génomes à l'aide d'une hiérarchie fonctionnelle

Abstract

Afin de comprendre le mode de fonctionnement de certains organismes, les biologistes en étudient les protéines en leur attribuant entre autres des fonctions. Cette tâche, appelée annotation fonctionnelle est extrêmement longue. Il est donc indispensable de l'automatiser en partie. Nous utilisons une hiérarchie fonctionnelle dérivée de SubtiList pour annoter les protéines par notre système semi-automatique car les génomes bactériens, Lactobacillus bulgaricus et sakei, qui servent à notre étude ont été annotés à l'aide de cette hiérarchie. Afin de prédire les classes fonctionnelles de protéines pour les proposer aux experts biologistes de l'INRA, nous utilisons des algorithmes d'apprentissage sur des critères décrivant les protéines. Ceux-ci renseignent sur les relations de similarité entre protéines et sur leurs propriétés intrinsèques. Tilde, un système d'apprentissage au premier ordre (de PLI) est utilisé pour construire des arbres de décision qui sont ensuite transformés en règles. Un protocole d'expérimentation est mis en place afin de prédire les classes fonctionnelles d'une protéine aux différents niveaux de la hiérarchie. Nous ajoutons aux règles trouvées un indice de confiance calculé à partir des résultats obtenus sur les données de validation. Tous les résultats sont stockés dans une base de données consultable via des pages web. Nous recensons dans un premier temps les différents couples annotations/prédictions possibles en fonction de la hiérarchie puis nous proposons des nouvelles mesures hiérarchiques pour évaluer notre système. Nous comparons notre système à Clus-HMC qui est moins expressif. Nous donnons quelques règles et arbres en exemple.To understand how organisms work, biologists need to study proteins by assigning them some functions. This task is named functional annotation and is extremely time-consuming. There is thus a crucial need to automate functional annotation. So we need to automate some steps. In our semi-automatic system, we use a fontional hierarchy derived from SubtiList to annotate proteins. This choice was made because it is the hierarchy used at INRA to annotate the bacterial genoms we exploit: Lactobacillus bulgaricus and sakei. We use machine learning systems on criteria which give us information on similarity results with other proteins and intrinsic properties of each protein. We use TILDE, which is a first ordrer machine learning system (ILP), to generate decision trees. These trees are transformed into rules. To predict functional class of proteins on different levels of hierarchy, we build an experiment protocol. To each rule we add a confidence level calculated on results we obtain on validation data. All results are stored in a database, available on the web. To evaluate our system we list all the possible annotation/prediction pairs that can be obtained using the hierarchy, then we propose new hierarchical measures. We compare our system to the clus-HMC approach which is less expressive. We give some trees and rules as example.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 14/06/2016