3 research outputs found

    Taux d’erreurs des méthodes phylogénétiques et des méthodes statistiques de classification pour le Barcode ADN

    No full text
    Le Barcode ADN a pour but d’assigner des individus à des espèces données à partir de leur séquence ADN situé à un locus (en général une partie du gène mitochondrial COI). Dans ce contexte, nous avons d’abord étudié deux types d’approches : (i) des méthodes phylogénétiques (Neighbour Joining et PhyML) qui, pour assigner, reconstruisent les généalogies à partir de l’évolution de l’ADN ; (ii) des méthodes statistiques de classification supervisée qui, à partir de la variabilité observée dans la famille étudiée, construisent un algorithme d’assignation à des espèces de la famille (k-Nearest Neighbour, CART, Random Forest, méthodes à noyaux ou SVM). Nous avons étudié la capacité de ces méthodes à classer correctement des séquences tirées au hasard parmi un ensemble d’espèces voisines. Les jeux de données utilisés ont été obtenus par simulations ou proviennent de données réelles issues du domaine public (Astraptes, Cowries, Papillons d’Amazonie). Les autres données ont été obtenues en simulant des arbres de coalescence où nous avons fait varier l’histoire généalogique, les paramètres de mutation, le nombre d’individus échantillonnés par espèce et le nombre total d’espèces. Partant du constat que la méthode k-NN était relativement satisfaisante, nous étudions des méthodes bayésiennes qui, tout en gardant la simplicité de l'algorithme,k-NN améliorent ses performances. Parallèlement, à partir de méthodes statistiques pour les graphes et les réseaux, nous avons étudié les liaisons entre des populations géographiquement réparties (données Praomys, IFORA). Les méthodes précédentes supposent connue l’assignation d’un certain nombre de séquences. Un troisième axe de notre travail est de ne plus supposer cette connaissance préalable. Nous développons des algorithmes de classifications non supervisées par réseaux de neurones qui sont adaptés aux données du Barcode et permettent d’obtenir simultanément une représentation de la proximité des espèces
    corecore