6 research outputs found
Prédiction de la localisation des protéines membranaires: méthodes méta-heuristiques pour la détermination du potentiel d’insertion des acides aminés
In this work, we are interested in the localization of proteins transported towards the endoplasmic reticulum membrane, and more specifically to the recognition of transmembrane segments and signal peptides. By using the last knowledges acquired on the mechanisms of insertion of a segment in the membrane, we propose a discrimination method of these two types of sequences based on the potential of insertion of each amino acid in the membrane. This leads to search for each amino acid a curve giving its potential of insertion according to its place in a window corresponding to the thickness of the membrane. Our goal is to determine ”in silico” a curve for each amino acid to obtain the best performances for our method of classification. The optimization, on data sets constructed from data banks of proteins, of the curves is a difficult problem that we address through the meta-heuristic methods.We first present a local search algorithm for learning a set of curves. Its assessment on the different data sets shows good classification results. However, we notice a difficulty in adjusting the curves of certain amino acids. The restriction of the search space with relevant information on amino acids and the introductionof multiple neighborhood allow us to improve the performances of our method and at the same time to stabilize the learnt curves. We also developed a genetic algorithm to explore in a more diversified way the space of search for this problemDans ce travail, nous nous intéressons à la localisation des protéines adressées vers la membrane du réticulum endoplasmique, et plus spécifiquement à la reconnaissance des segments transmembranaires et des peptides signaux. En utilisant les dernières connaissances acquises sur les mécanismes d'insertion d'un segment dans la membrane, nous proposons une méthode de discrimination de ces deux types de séquences basée sur le potentiel d';insertion de chaque acide aminé dans la membrane. Cela amène à rechercher pour chaque acide aminé une courbe donnant son potentiel d'insertion en fonction de sa place dans une fenêtre correspondant à l'épaisseur de la membrane. Notre objectif est de déterminer "in silico" une courbe pour chaque acide aminé, afin d'obtenir les meilleures performances pour notre méthode de classification. L'optimisation, sur des jeux de données construits à partir des banques de données de protéines, des courbes est un problème difficile que nous abordons grâce aux méthodes méta-heuristiques. Nous présentons tout d'abord un premier algorithme de recherche locale permettant d'apprendre un ensemble de courbes. Son évaluation sur les différents jeux de données montre de bons résultats de classification. Cependant, nous constatons une difficulté d'ajustement pour les courbes de certains acides aminés. La restriction de l'espace de recherche grâce à des informations pertinentes sur les acides aminés et l'introduction d'un voisinage multiple nous permettent d'améliorer les performances de notre méthode et en même temps de stabiliser les courbes apprises. Nous présentons également un algorithme génétique développé afin d'explorer de manière plus diversifiée l'espace de recherche de ce problème
Classification automatique de documents bruités à faible contenu textuel
National audienceLa classification de documents numériques est une tâche complexe dans un flux numérique de gestion électronique de documents. Cependant, la quantité des documents issus de la retro-conversion d'OCR (Reconnaissance Optique de Caractères) constitue une problématique qui ne facilite pas la tâche de classification. Après l'étude et l'évaluation des descripteurs les mieux adaptés aux documents issus d'OCR, nous proposons une nouvelle approche de représentation des données textuelles : l'approche HYBRED (HYBrid REpresentation of Documents). Elle permet de combiner l'utilisation de différents descripteurs d'un texte afin d'obtenir une représentation plus pertinente de celui-ci. Les expérimentations menées sur des données réelles ont montré l'intérêt de notre approche
Hybred: An OCR Document Representation for Classification Tasks
International audienceThe classification of digital documents is a complex task in a document analysis flow. The amount of documents resulting from the OCR retro-conversion (optical character recognition) makes the classification task harder. In the literature, different features are used to improve the classification quality. In this paper, we evaluate various features on OCRed and non OCRed documents. Thanks to this evaluation, we propose the HYBRED (HYBrid REpresentation of Documents) approach which combines different features in a single relevant representation. The experiments conducted on real data show the interest of this approach