725 research outputs found

    Des modèles biologiques à l'amélioration des plantes

    Get PDF

    Étude de la dynamique des populations du viroïde de la mosaïque latente du pêcher par séquençage à haut débit et segmentation

    Get PDF
    Les viroïdes sont des agents pathogènes responsables de maladies affectant les plantes telles que l'avocatier, le pêcher, la tomate, la pomme dé terre, etc. Parce qu'ils dégradent la qualité des fruits et des légumes qu'ils infectent, les viroïdes sont la cause de la perte d'environ 50 % de la production mondiale des cultures touchées. La compréhension des mécanismes couvrant l'infection aux viroïdes constitue un enjeu économique majeur visant l'amélioration de la productivité, dans l'exploitation de ces plantes. Cette étude aborde l'analyse des processus liés à l'infection aux viroïdes par la découverte de nouveaux aspects caractérisant la variabilité génétique du viroïde de la mosaïque latente du pêcher (PLMVd). Elle décrit la dynamique des populations de PLMVd. La grande variabilité de PLMVd, expliquée par un fort taux de mutations, implique la génération de séquences diverses et variées, prenant la forme de nuages. Notre approche pour comprendre cette variabilité génétique de PLMVd consiste à infecter un pêcher à partir d'une seule séquence de PLMVd, puis à en extraire les séquences et analyser leurs caractéristiques intrinsèques par une nouvelle méthode bio-informatique. À notre connaissance, notre étude, à ce jour, est la première à utiliser les récentes techniques de séquençage à haut débit, à des fins d'analyses des viroïdes. La structure relativement simple des viroïdes, brin d'ARN circulaire d'environ 240 à 400 nucléotides, leur confère l'avantage de pouvoir être séquencé dans leur longueur totale par le séquençage à haut débit. Ce dernier couvre de grands volumes de données biologiques, ce qui convient pour séquencer les nuages de séquences qu'on peut retrouver au sein de la population de PLMVd. En bio-informatique, il existe de nombreux algorithmes permettant de comparer des séquences pour en extraire de l'information. L'un des défis majeurs de ces algorithmes est la prise en charge efficace et rapide de quantité de données en constante croissance. Dans le cadre de notre étude, le volume de séquences généré par PLMVd rend impraticable l'application des algorithmes d'alignement pour comparer les séquences et en estimer leurs similarités. D'autres algorithmes tels que ceux basés sur les N-grammes impliquent une perte partielle de l'information contenue dans les séquences. Nous avons donc utilisé une mesure de similarité basée sur le modèle de probabilité conditionnelle (CPD) qui nous permet d'une part, de conserver l'information sous forme de patrons (sous-séquences) contenus dans les séquences, et d'autre part, d'éviter l'alignement de séquences tout en comparant directement chaque séquence avec un ensemble de séquences. Le modèle CPD est intégré dans un nouvel algorithme de segmentation pour les séquences catégoriques, appelé DHCS. Cette étude révèle de nouveaux aspects dans la variabilité génétique de PLMVd. En effet, elle nous a permis d'une part d'extraire des familles de séquences caractérisées par des mutations spécifiques, puis d'autre part, de représenter la distribution de ces mutations dans une arborescence. Par la suite, elle a favorisé l'observation de mutations localisées dans le noyau d'un motif particulier, nommé le ribozyme en tête de marteau des séquences, servant à l'amélioration de l'adaptation de PLMVd. Celui-ci est effectivement sujet à mutations parce que la séquence inoculée au pêcher après 6 mois d'infections n'a pas été retrouvée et que le nombre de mutations enregistrées varie de 2 à 51. Des deux librairies obtenues, nous avons répertorié 1125 et 1061 séquences pour un total de 2186 nouvelles séquences de PLMVd. Seules 300 séquences étaient connues à ce jour. Nous avons observé que les séquences possèdent, selon la librairie, en moyenne 4.6 et 6.3 mutations par rapport à la séquence inoculée. Certaines d'entre elles ont jusqu'à 20 % de dissimilarité par rapport à la séquence inoculée, ce qui est considérable. Grâce à DHCS, les différentes séquences ont pu être groupées en familles, au nombre de 7 et 8 selon la librairie

    Contribution à l'analyse des séquences de protéines similarité, clustering et alignement

    Get PDF
    La prédiction des fonctions biologiques des protéines est primordiale en biologie cellulaire. On peut comprendre facilement tout l'enjeu de pouvoir différencier efficacement les protéines par leurs fonctions, quand on sait que ceci peut rendre possible la réparation des protéines anormales causants des maladies, ou du moins corriger ou améliorer leurs fonctions. Les méthodes expérimentales, basées sur la structure tridimensionnelle des protéines sont les plus fiables pour la prédiction des fonctions biologiques des protéines. Néanmoins, elles sont souvent coûteuses en temps et en ressources, et ne permettent pas de traiter de grands nombres de protéines. Il existe toutefois des algorithmes qui permettent aux biologistes d'arriver à de bons résultats de prédictions en utilisant des moyens beaucoup moins coûteux. Le plus souvent, ces algorithmes sont basés sur la similarité, le clustering, et l'alignement. Cependant, les algorithmes qui sont basés sur la similarité et le clustering utilisent souvent l'alignement des séquences et ne sont donc pas efficaces sur les protéines non alignables. Et lorsqu'ils ne sont pas basés sur l 'alignement, ces algorithmes utilisent souvent des approches qui ne tiennent pas compte de l'aspect biologique des séquences de protéines. D'autre part, l'efficacité des algorithmes d'alignements dépend souvent de la nature structurelle des protéines, ce qui rend difficile le choix de l'algorithme à utiliser quand la structure est inconnue. Par ailleurs, les algorithmes d'alignement ignorent les divergences entre les séquences à aligner, ce qui contraint souvent les biologistes à traiter manuellement les séquences à aligner, une tâche qui n'est pas toujours possible en pratique. Dans cette thèse nous présentons un ensemble de nouveaux algorithmes que nous avons conçus pour l'analyse des séquences de protéines. Dans le premier chapitre, nous présentons CLUSS, le premier algorithme de clustering capable de traiter des séquences de protéines non-alignables. Dans le deuxième chapitre, nous présentons CLUSS2 une version améliorée de CLUSS, capable de traiter de plus grands ensembles de protéines avec plus de de fonctions biologiques. Dans le troisième chapitre, nous présentons SCS, une nouvelle mesure de similarité capable de traiter efficacement non seulement les séquences de protéines mais aussi plusieurs types de séquences catégoriques. Dans le dernier chapitre, nous présentons ALIGNER, un algorithme d'alignement, efficace sur les séquences de protéines indépendamment de leurs types de structures. De plus, ALIGNER est capable de détecter automatiquement, parmi les protéines à aligner, les groupes de protéines dont l'alignement peut révéler d'importantes propriétés biochimiques structurelles et fonctionnelles, et cela sans faire appel à l'utilisateur

    Méthodes bayésiennes pour l'analyse génétique

    Get PDF
    Ces dernières années, la génomique a connu un intérêt scientifique grandissant, notamment depuis la publication complète des cartes du génome humain au début des années 2000. A présent, les équipes médicales sont confrontées à un nouvel enjeu : l'exploitation des signaux délivrés par les puces ADN. Ces signaux, souvent de grande taille, permettent de connaître à un instant donné quel est le niveau d'expression des gênes dans un tissu considéré, sous des conditions particulières (phénotype, traitement, ...), pour un individu. Le but de cette recherche est d'identifier des séquences temporelles caractéristiques d'une pathologie, afin de détecter, voire de prévenir, une maladie chez un groupe de patients observés. Les solutions développées dans cette thèse consistent en la décomposition de ces signaux en facteurs élémentaires (ou signatures génétiques) selon un modèle bayésien de mélange linéaire, permettant une estimation conjointe de ces facteurs et de leur proportion dans chaque échantillon. L’utilisation de méthodes de Monte Carlo par chaînes de Markov sera tout particulièrement appropriée aux modèles bayésiens hiérarchiques proposés puisqu'elle permettra de surmonter les difficultés liées à leur complexité calculatoire. ABSTRACT : In the past few years, genomics has received growing scientic interest, particularly since the map of the human genome was completed and published in early 2000's. Currently, medical teams are facing a new challenge: processing the signals issued by DNA microarrays. These signals, often of voluminous size, allow one to discover the level of a gene expression in a given tissue at any time, under specic conditions (phenotype, treatment, ...). The aim of this research is to identify characteristic temporal gene expression proles of host response to a pathogen, in order to detect or even prevent a disease in a group of observed patients. The solutions developed in this thesis consist of the decomposition of these signals into elementary factors (genetic signatures) following a Bayesian linear mixing model, allowing for joint estimation of these factors and their relative contributions to each sample. The use of Markov chain Monte Carlo methods is particularly suitable for the proposed hierarchical Bayesian models. Indeed they allow one to overcome the diculties related to their computational complexity

    Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expression

    Full text link
    La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique.Microarrays remain an important tool for the measurement of gene expression, and a myriad of methods for their pre-processing or statistical testing of differential expression has been proposed in the past. However, insufficient and sometimes contradictory evidence has prevented the emergence of a strong consensus over a preferred methodology. This leaves microarray practitioners to somewhat arbitrarily decide which method should be used to analyze their data. Here we present a novel approach to the problem of comparing methods for the identification of differentially expressed genes. Over eight hundred analytic pipelines were applied to more than a hundred independent microarray experiments. The accuracy of each analytic pipeline was assessed by measuring the average level of co-regulation uncovered across all data sets. This analysis thus relies on a varied set of biologically relevant data, does not confound reproducibility for accuracy and can easily be extended to future analytic pipelines. This procedure identified FARMS summarization and the TREAT gene ordering statistic as algorithms significantly more accurate than other alternatives. Most interestingly, our results corroborate recent findings about the importance of taking the magnitude of change into account along with an assessment of statistical significance

    Génétique des populations de Beryx splendens de la zone économique de la Nouvelle-Calédonie : distribution des haplotypes du gène du cytochrome b de l'ADN mitochondrial et analyse phylogénétique de leurs séquences

    Get PDF
    La délimitation géographique des populations, établie sur les bases biologiques, est nécessaire à toute gestion rationnelle des pêcheries. Tel est le cas pour #Beryx splendens, ressource pour laquelle la mise en évidence de différentes populations dans la zone économique (ZE) de Nouvelle-Calédonie serait essentielle pour en éviter la surexploitation. L'ADN mitochondrial a été choisi comme marqueur génétique de la structure géographique de #B. splendens sur les monts sous-marins de la ZE de Nouvelle-Calédonie. (D'après résumé d'auteur

    Un réseau de neurones à décharges pour la reconnaissance de processus spatio-temporels

    Get PDF
    Traitement des processus dynamiques non stationnaires dans les réseaux de neurones -- Traitement de l'information dans les systèmes nerveux biologiques -- Modèle du réseau de neurones à décharges -- Modèle du neuronne -- Architecture et apprentissage -- Activité d'auto-organisation -- Application à la reconnaisance des chiffres bruités -- Réseau avec mécanisme de > avec récompense -- Traitement des séquences temporelles et détection de mouvement -- Traitement des séquences temporelles -- Détection de mouvement -- Prototype pour un système d'identification du locuteur à l'aide du réseau proposé -- Analyse de la parole par modulation d'amplitude dans le système auditif -- Système d'identification du locuteur -- Traitement des enveloppes par le réseau proposé -- Identification du locuteur basée sur les paramètres de sortie du réseau proposé

    Modélisation prédictive des interactions entre bactéries et virus bactériophages

    Get PDF
    Actuellement, il existe un grave problème de santé publique dû au fait que les bactéries développent des résistances aux antibiotiques, notamment à cause de la surconsommation d’antibiotiques. Achetés en pharmacie, consommé dans les hôpitaux ou indirectement via la nourriture que l’être humain consomme tous les jours, la consommation de ceux-ci ne cesse de s’accroitre. La phagothérapie, ou le traitement par bactériophages est une alternative prometteuse aux antibiotiques, qui consiste à utiliser des virus « mangeurs » de bactéries pour soigner diverses infections d’origine bactérienne. Cette technique de soins possède plusieurs des avantages des antibiotiques sans ses inconvénients, puisque les bactériophages sont très spécifiques et ne s’attaquent par conséquent qu’aux bactéries à l’origine de l’infection, évitant ainsi les effets secondaires dû à la consommation d’antibiotiques par exemple sur la flore intestinale. Le défi lié à cette technique consiste à identifier rapidement le ou les bactériophages capables d’attaquer une bactérie en particulier, une procédure actuellement réalisée en laboratoire en testant toutes les combinaisons possibles, ce qui est coûteux et nécessite plusieurs jours. La solution explorée dans ce projet consiste en l’utilisation de techniques computationnelles pour prédire in silico si une paire bactérie-bactériophage est capable d’interagir ou pas. Parti d’une base de données contenant plus de 1'000 paires bactérie-bactériophage positives et plus de 1'000 paires négatives pour lesquelles le génome de la bactérie et du bactériophage sont connus, la procédure suivante a été mise en place: 1. Extraction de variables pour créer 19 sets de données utilisés pour entraîner les modèles d’apprentissage automatique ; 2. Sélection et entrainement des algorithmes avec un grand nombre de configurations; 3. Recours à l’approche d’agrégation de modèle pour élaborer un système de votation ; 4. Analyse des résultats. Le modèle final qui a été développé a permis d’atteindre une performance de plus de 90% d’accuracy, de mesure F1, de sensibilité et de spécificité sur un set de validation (test set) qui n’avait jamais été utilisé ni pour l’entraînement ni pour la validation croisée. Les bons résultats permettent d’affirmer que l’utilisation de l’apprentissage automatique semble être une approche prometteuse pour répondre à ce problème.Currently, there is a serious public health problem because bacteria develop resistance to antibiotics, particularly because of the overuse of antibiotics. Purchased in pharmacies, consumed in hospitals or indirectly via the food that humans consume daily, the consumption of these continues to increase. Phage therapy, i.e. treatment with bacteriophages, is a promising alternative to antibiotics, which involves the use of viruses, which are literally "eaters" of bacteria, to treat various infections caused by bacteria. This treatment technique has several of the advantages of antibiotics, without their drawbacks. Indeed, bacteriophages are highly specific and therefore only attack bacteria causing the infection, avoiding side effects due to antibiotics consumption, e.g. on the intestinal flora. The challenge of this technique is to quickly identify the bacteriophages that attack a particular bacterium, a procedure currently performed in laboratories by testing all possible combinations, which is expensive and requires several days. The solution explored in this project is the use of computational techniques to predict whether a pair of bacteriophage-bacterium is able to interact or not in silico. For a database containing more than 1,000 positive pairs of bacteria-bacteriophage and over 1,000 negative pairs for which the genome of both the bacterium and the bacteriophage are known, the following procedure has been put in place: 1. Extraction of features to create 19 datasets used to train machine learning models; 2. Selection and training of the algorithms with a large number of configurations; 3. Use of ensemble-learning modeling approaches to develop a voting system; 4. Results analysis. The final model that was developed has achieved a performance of more than 90% accuracy, measurement F1, sensitivity and specificity on a validation set (test set) that had never been used for training nor for cross-validation. These good results let us conclude that the use of machine learning seems to be a promising approach to address this problem

    Denis BAURAIN – Portfolio pédagogique

    Full text link
    Ce portfolio reprend des considérations pédagogiques générales s’appliquent à l’ensemble de mes enseignements. Les parties plus réflexives sont centrées sur les cours où les populations étudiantes ne se comptent pas sur les doigts d’une seule main : Microbiologie (partim 1 : Algologie et mycologie), Bioinformatique et Méthodes de phylogénie. J’ai par ailleurs réservé une large place à mon cours de Compléments de microbiologie : Protistologie, puisque c’est celui pour lequel j’ai mené une « vraie » réflexion pédagogique avec l’aide de l’IFRES (séminaire de mise en œuvre personnalisé). Enfin, j’ai inclus une série de commentaires sur la nécessité de former les biologistes à la bioinformatique, ainsi que sur la mise en pratique de cette conviction : la finalité spécialisée en Bioinformatique et Modélisation et la formation FOREM sur les Outils de la Bioinformatique
    corecore