6 research outputs found

    KNN-MDR: a learning approach for improving interactions mapping performances in genome wide association studies

    Get PDF
    Background Finding epistatic interactions in large association studies like genome-wide association studies (GWAS) with the nowadays-available large volume of genomic data is a challenging and largely unsolved issue. Few previous studies could handle genome-wide data due to the intractable difficulties met in searching a combinatorial explosive search space and statistically evaluating epistatic interactions given a limited number of samples. Our work is a contribution to this field. We propose a novel approach combining K-Nearest Neighbors (KNN) and Multi Dimensional Reduction (MDR) methods for detecting gene-gene interactions as a possible alternative to existing algorithms, e especially in situations where the number of involved determinants is high. After describing the approach, a comparison of our method (KNN-MDR) to a set of the other most performing methods (i.e., MDR, BOOST, BHIT, MegaSNPHunter and AntEpiSeeker) is carried on to detect interactions using simulated data as well as real genome-wide data. Results Experimental results on both simulated data and real genome-wide data show that KNN-MDR has interesting properties in terms of accuracy and power, and that, in many cases, it significantly outperforms its recent competitors. Conclusions The presented methodology (KNN-MDR) is valuable in the context of loci and interactions mapping and can be seen as an interesting addition to the arsenal used in complex traits analyses

    CONTRIBUTION AUX METHODES DE CARTOGRAPHIE D’EPISTASIE UTILISANT LA STATISTIQUE NON-PARAMETRIQUE

    Full text link
    Introduction These last years have seen the emergence of a wealth of genetic information at the molecular level. Some of the main recent breakthroughs in biology originate from this new knowledge, allowing application of new strategies in many fields of the biological research. Although approaches targeting the association between phenotypic characteristics and DNA variations have been successful, many elements in the genetic landscape of the studied traits are still unknown and uncharacterized. A track to new findings, potentially useful for a better understanding of complex determinisms, is the detection of interactions between genomic regions affecting the traits of interest rather than single locus associations. While the detection of such interactions has been the focus of many methods, and despite some successes of these methods to solve difficult problems and to detect some of these genetic interactions, there is currently no gold standard method able to detect interactions in all situations, and the relative performances of these methods remain largely unclear. This thesis is a contribution to this field of interactions mapping:in the first study, we propose a novel approach combining K-Nearest Neighbors (KNN) and Multi Dimensional Reduction (MDR) methods for the detection of gene-gene interactions as a possible alternative to existing algorithms, especially in situations where the number of involved determinants is high. In the second study, we propose another strategy based on the principle of the aggregation of experts, where the experts would be a set of popular published methods. Results The results obtained in the first study on both simulated data and real genome-wide data demonstrate some of the features that make KNN-MDR interesting in terms of accuracy and power: in many cases, it significantly outperforms its recent competitors. More specifically, the analyses on a real large dataset demonstrate the feasibility of scans using a large number of markers, as opposed to MDR where the computer burden explodes with the number of markers (when it simply increases linearly with KNN-MDR). This might for example allow highlighting interactions between markers far apart on the genomic map (trans-interactions), while some strategies propose to restrict the scans to close-by markers (cis-interactions) or to markers with significant marginal effects to reduce the amount of computations. For the second study, we also show that aggregating methods results is a strategy with interesting features for detecting epistatic interactions. Experimental results, based again on simulated and real genome-wide data, show that the aggregated predictor can produce better performances, in terms of statistical power and false positive rates, than each individual predictor to detect genetic interactions. It is consequently a useful addition to the various methods available to tackle this complicated problem. Conclusion and Perspectives In this dissertation, we focused on investigating and developing non-parametric statistical methods aiming at the detection of genetic interactions. We have shown that our novel methods complement, and sometimes improve, existing approaches used to detect genetic interactions in simulated and real datasets. The presented methodologies (KNN-MDR and aggregation of experts) are valuable in the context of loci and interaction mapping and can enhance the understanding of the biological mechanism underlying traits of interest, including diseases. More precisely, the new knowledge gained using these methodologies can assist in the prediction of clinical diseases and can contribute to provide new therapeutic opportunities. To take further steps to these appealing perspectives, a first objective could be to implement a better version of the KNN-MDR software. The improvements could be on the overall performance of the software (optimization of the time-consuming parts of the program, parallelization), but also on the improvement of the “user-friendliness” of the program. This would involve an easier (and maybe automated) tuning of the parameters allowing an optimal detection power. These parameters include: the optimal sizes of the windows - which are dependent on the studied population, the markers density, the LD pattern, the optimal size of the neighborhoods to be considered, the pre-selection of markers in the early phase of large dataset analyses, the used distance measure or the adaptative selection scheme for the selection of markers in large studies, among others, the use of other types of genomic variants (microsatellites, copy number variations, sequencing data). Another potential track would be to use a priori information on the interactions: this could be by using the results of previous studies, or by exploiting the known information on gene networks.  Introduction Ces dernières années ont vu l'émergence de sources riches d'informations génétiques au niveau moléculaire. Certaines des principales percées récentes en biologie proviennent de ces nouvelles connaissances, permettant l'application de nouvelles stratégies dans de nombreux domaines de la recherche biologique. Bien que les approches ciblant l'association entre les caractéristiques phénotypiques et les variations de l'ADN aient été couronnées de succès, de nombreux éléments dans le paysage génétique des caractères étudiés sont encore inconnus et non caractérisés. Une piste potentielle vers de nouvelles découvertes, qui pourrait aider à mieux comprendre les déterminismes complexes, est de détecter les interactions entre les régions plutôt que les associations avec une région unique. Alors que de nombreuses méthodes ont été proposées pour détecter de telles interactions et malgré le succès de ces méthodes pour résoudre certains problèmes et détecter certaines de ces interactions génétiques, il n'existe actuellement aucune méthode de référence capable de détecter les interactions dans toutes les situations. De plus, les méthodes restent relativement peu efficaces. Cette thèse est une contribution au développement de méthodes dans ce domaine. Dans la première étude, nous proposons une nouvelle approche combinant les méthodes des K Plus Proches Voisins (KNN) et de Réduction Multidimensionnelle (MDR) pour détecter les interactions entre régions génomiques comme alternative possible aux algorithmes existants, notamment dans les situations où le nombre de déterminants impliqués est plus élevé que deux. Dans la deuxième étude, nous proposons une stratégie basée sur le principe de l'agrégation d'experts, où les experts seraient différentes méthodes de détection d’interactions validées et publiées dans des revues scientifiques. Résultats Les résultats obtenus dans la première étude à la fois sur des données générées par simulation et sur des données réelles à l'échelle du génome démontrent certaines des caractéristiques qui rendent l’application du modèle KNN-MDR potentiellement intéressante en matière de précision et de puissance : dans de nombreux cas, il surclasse nettement ses concurrents. De plus, des analyses sur un large ensemble de données réelles démontrent la faisabilité d'analyses utilisant un grand nombre de marqueurs, par opposition à la méthode MDR où la charge informatique explose avec le nombre de marqueurs (alors qu’elle augmente simplement linéairement avec KNN-MDR). Cela pourrait par exemple permettre de mettre en évidence des interactions entre des marqueurs éloignés sur la carte génomique alors que certaines stratégies proposent de limiter les scans aux marqueurs proches ou à un ensemble de marqueurs préalablement sélectionné pour réduire la quantité de calculs. Pour la seconde étude, nous montrons aussi que la méthode de l'agrégation des résultats est une stratégie avec des caractéristiques intéressantes pour détecter les interactions épistatiques. Les résultats expérimentaux, basés à nouveau sur des données simulées et réelles à l'échelle du génome, montrent que le prédicteur agrégé peut produire de meilleures performances que chaque prédicteur individuel pour détecter des interactions génétiques, et est donc un complément utile aux diverses méthodes disponibles pour résoudre ce problème compliqué. Conclusions et Perspectives Dans cette thèse, nous nous sommes concentrés sur l'étude et le développement de méthodes statistiques non paramétriques pour la détection des interactions génétiques. Les méthodes que nous proposons sont présentées pour compléter et améliorer les approches existantes utilisées pour détecter les interactions génétiques dans des ensembles de données réelles et simulées. Les méthodologies présentées (KNN-MDR et agrégation d'experts) sont utiles dans le contexte de la cartographie des interactions et peuvent améliorer la compréhension du mécanisme biologique sous-jacent à divers caractères d'intérêt, y compris des maladies. L’acquisition de cette nouvelle connaissance, outre la compréhension fondamentale qu’elle implique, peut par exemple contribuer à la prédiction pronostique ou diagnostique des maladies étudiées, peut offrir de nouvelles possibilités thérapeutiques ou peut conduire à l’amélioration de caractères ayant un intérêt médical, agronomique, zootechnique ou autre. Pour aller plus loin par rapport à ces perspectives attrayantes, un premier objectif pourrait être de mettre en œuvre une meilleure version du logiciel KNN-MDR. Les améliorations pourraient porter sur la performance globale du logiciel (optimisation des parties chronophages du programme, parallélisation), mais aussi sur l'amélioration de la "convivialité" du programme. Cela impliquerait un réglage plus facile (et peut-être automatisé) des paramètres permettant une puissance de détection optimale. Ces paramètres comprennent: les tailles optimales des fenêtres - qui dépendent de la population étudiée, la densité des marqueurs, le modèle de LD, la taille optimale des voisins à considérer, la présélection des marqueurs dans la première phase des analyses de grands ensemble de données, la mesure de la distance utilisée ou le schéma de sélection adaptatif pour la sélection des marqueurs dans les grandes études, entre autres, l'utilisation d'autres types de variantes génomiques (microsatellites, variations du nombre de copies, données de séquençage). Une autre piste potentielle serait d'utiliser des informations sur les interactions: cela pourrait être possible en utilisant les résultats d'études antérieures, ou en exploitant les informations connues sur les réseaux de gènes.

    L'aggrégation d'experts: une application en interactomique (détection d'interactions sur base de données génomiques)

    Full text link
    Abstract Background Despite the successful mapping of genes involved in the determinism of numerous traits, a large part of the genetic variation remains unexplained. A possible explanation is that the simple models used in many studies might not properly fit the actual underlying situations. Consequently, various methods have attempted to deal with the simultaneous mapping of genomic regions, assuming that these regions might interact, leading to a complex determinism for various traits. Despite some successes, no gold standard methodology has emerged. Actually, combining several interaction mapping methods might be a better strategy, leading to positive results over a larger set of situations. Our work is a step in that direction. Results We first have demonstrated why aggregating results from several distinct methods might increase the statistical power while controlling the type I error. We have illustrated the approach using 6 existing methods (namely: MDR, Boost, BHIT, KNN-MDR, MegaSNPHunter and AntEpiSeeker) on simulated and real data sets. We have used a very simple aggregation strategy: a majority vote across the best loci combinations identified by the individual methods. In order to assess the performances of our aggregation approach in problems where most individual methods tend to fail, we have simulated difficult situations where no marginal effects of individual genes exist and where genetic heterogeneity is present. we have also demonstrated the use of the strategy on real data, using a WTCCC dataset on rheumatoid arthritis. Since we have been using simplistic assumptions to infer the expected power of the aggregation method, the actual power we estimated from our simulations has turned out to be a bit smaller than theoretically expected. Results nevertheless have shown that grouping the results of several methods is advantageous in terms of power, accuracy and type I error control. Furthermore, as more methods should become available in the future, using a grouping strategy will become more advantageous since adding more methods seems to improve the performances of the aggregated method. Conclusions The aggregation of methods as a tool to detect genetic interactions is a potentially useful addition to the arsenal used in complex traits analyses
    corecore