3 research outputs found

    Analyses bioinformatiques et classements consensus pour les données biologiques à haut débit

    Get PDF
    It is thought to be more and more important to solve biological questions using Bioinformatics approaches in the post-genomic era. This thesis focuses on two problems related to high troughput data: bioinformatics analysis at a large scale, and development of algorithms of consensus ranking. In molecular biology and genetics, RNA splicing is a modification of the nascent pre-messenger RNA (pre-mRNA) transcript in which introns are removed and exons are joined. The U2AF heterodimer has been well studied for its role in defining functional 3’ splice sites in pre-mRNA splicing, but multiple critical problems are still outstanding, including the functional impact of their cancer-associated mutations. Through genome-wide analysis of U2AF-RNA interactions, we report that U2AF has the capacity to define ~88% of functional 3’ splice sites in the human genome. Numerous U2AF binding events also occur in other genomic locations, and metagene and minigene analysis suggests that upstream intronic binding events interfere with the immediate downstream 3’ splice site associated with either the alternative exon to cause exon skipping or competing constitutive exon to induce inclusion of the alternative exon. We further build up a U2AF65 scoring scheme for predicting its target sites based on the high throughput sequencing data using a Maximum Entropy machine learning method, and the scores on the up and down regulated cases are consistent with our regulation model. These findings reveal the genomic function and regulatory mechanism of U2AF, which facilitates us understanding those associated diseases.Ranking biological data is a crucial need. Instead of developing new ranking methods, Cohen-Boulakia and her colleagues proposed to generate a consensus ranking to highlight the common points of a set of rankings while minimizing their disagreements to combat the noise and error for biological data. However, it is a NP-hard questioneven for only four rankings based on the Kendall-tau distance. In this thesis, we propose a new variant of pivot algorithms named as Consistent-Pivot. It uses a new strategy of pivot selection and other elements assignment, which performs better both on computation time and accuracy than previous pivot algorithms.Cette thèse aborde deux problèmes relatifs à l’analyse et au traitement des données biologiques à haut débit: le premier touche l’analyse bioinformatique des génomes à grande échelle, le deuxième est consacré au développement d’algorithmes pour le problème de la recherche d’un classement consensus de plusieurs classements.L’épissage des ARN est un processus cellulaire qui modifie un ARN pré-messager en en supprimant les introns et en raboutant les exons. L’hétérodimère U2AF a été très étudié pour son rôle dans processus d’épissage lorsqu’il se fixe sur des sites d’épissage fonctionnels. Cependant beaucoup de problèmes critiques restent en suspens, notamment l’impact fonctionnel des mutations de ces sites associées à des cancers. Par une analyse des interactions U2AF-ARN à l’échelle génomique, nous avons déterminé qu’U2AF a la capacité de reconnaître environ 88% des sites d’épissage fonctionnels dans le génome humain. Cependant on trouve de très nombreux autres sites de fixation d’U2AF dans le génome. Nos analyses suggèrent que certains de ces sites sont impliqués dans un processus de régulation de l’épissage alternatif. En utilisant une approche d’apprentissage automatique, nous avons développé une méthode de prédiction des sites de fixation d’UA2F, dont les résultats sont en accord avec notre modèle de régulation. Ces résultats permettent de mieux comprendre la fonction d’U2AF et les mécanismes de régulation dans lesquels elle intervient.Le classement des données biologiques est une nécessité cruciale. Nous nous sommes intéressés au problème du calcul d’un classement consensus de plusieurs classements de données, dans lesquels des égalités (ex-aequo) peuvent être présentes. Plus précisément, il s’agit de trouver un classement dont la somme des distances aux classements donnés en entrée est minimale. La mesure de distance utilisée le plus fréquemment pour ce problème est la distance de Kendall-tau généralisée. Or, il a été montré que, pour cette distance, le problème du consensus est NP-difficile dès lors qu’il y a plus de quatre classements en entrée. Nous proposons pour le résoudre une heuristique qui est une nouvelle variante d’algorithme à pivot. Cette heuristique, appelée Consistent-pivot, s’avère à la fois plus précise et plus rapide que les algorithmes à pivot qui avaient été proposés auparavant

    Étude algorithmique et combinatoire de la méthode de Kemeny-Young et du consensus de classements

    Full text link
    Une permutation est une liste qui ordonne des objets ou des candidats en fonction d’une préférence ou d’un critère. Des exemples sont les résultats d’un moteur de recherche sur l’internet, des classements d’athlètes, des listes de gènes liés à une maladie données par des méthodes de prédiction ou simplement des préférences d’activités à faire pour la pro- chaine fin de semaine. On peut être intéressé à agréger plusieurs permutations pour en obtenir une permutation consensus. Ce problème est bien connu en science politique et plusieurs méthodes existent pour agréger des permutations, chacune ayant ses propriétés mathématiques. Parmi ces méthodes, la méthode de Kemeny-Young, aussi nommée la médiane de permutations, permet de trouver un consensus qui minimise la somme des distances entre ce consensus et l’ensemble de permutations. Cette méthode détient plu- sieurs propriétés désirables. Par contre, elle est difficile à calculer, ouvrant par ce fait, la voie à de nombreux travaux de recherche. Une généralisation de ce problème permet de considérer les classements qui contiennent des égalités entre les objets classés et qui peuvent être incomplets en ne considérant qu’un sous-ensemble d’objets. Dans cette thèse nous étudions la méthode de Kemeny-Young sous différents aspects : — Premièrement, une réduction d’espace de recherche est proposée. Elle permet d’améliorer les temps de calcul d’approches exactes pour le problème. — Deuxièmement, une heuristique bien paramétrée est développée et sert par le gui- dage d’un algorithme exact branch-and-bound. Cet algorithme utilise aussi une nouvelle réduction d’espace. — Troisièmement, le cas particulier du problème sur trois permutations est investigué. Une réduction d’espace de recherche basée sur les graphes est proposée pour ce cas, suivi d’une borne inférieure très stricte. Deux conjectures sont émises et font le lien entre ce cas et le problème du 3-Hitting Set. — Finalement, une généralisation du problème est proposée et permet d’étendre nos travaux de réduction d’espace de recherche à l’agrégation de classements.A permutation is a list that orders objects or candidates with a preference function or a criterion. Some examples include results from a search engine on the internet, athlete rankings, lists of genes related to a disease given by prediction methods or simply the preference of activities for the next weekend. One might be interested to aggregate a set of permutations to get a consensus permutation. This problem is well known in political science and many methods exists that can aggregate permutations, each one having its mathematical properties. Among those methods, the Kemeny-Young method, also known as the median of permutations, finds a consensus that minimise the sum of distances between that consensus and the set of permutations. This method holds many desirable properties. On the other end, this method is difficult to calculate, thus opening the way for research works. A generalization of this problem considers rankings containing ties between the ranked objects and rankings that might be incomplete by considering only a subset of objects. In this thesis, we study the Kemeny-Young method under different aspects : — Firstly, a search space reduction technique is proposed. It improves the time com- plexity of exact algorithms for the problem. — Secondly, a well parameterized heuristic is developed and is used as guidance in a branch-and-bound exact algorithm. This algorithm also uses a new search space reduction technique. — Thirdly, the special case of the problem on three permutations is investigated. A search space reduction technique based on graphs is presented for this case, followed by a very tight lower bound. Two conjectures are stated and are linking this case with the 3-Hitting Set problem. — Finally, a generalization of the problem is proposed and allows us to extend our work on search space reduction techniques to the rank aggregation problem

    Data Science: Measuring Uncertainties

    Get PDF
    With the increase in data processing and storage capacity, a large amount of data is available. Data without analysis does not have much value. Thus, the demand for data analysis is increasing daily, and the consequence is the appearance of a large number of jobs and published articles. Data science has emerged as a multidisciplinary field to support data-driven activities, integrating and developing ideas, methods, and processes to extract information from data. This includes methods built from different knowledge areas: Statistics, Computer Science, Mathematics, Physics, Information Science, and Engineering. This mixture of areas has given rise to what we call Data Science. New solutions to the new problems are reproducing rapidly to generate large volumes of data. Current and future challenges require greater care in creating new solutions that satisfy the rationality for each type of problem. Labels such as Big Data, Data Science, Machine Learning, Statistical Learning, and Artificial Intelligence are demanding more sophistication in the foundations and how they are being applied. This point highlights the importance of building the foundations of Data Science. This book is dedicated to solutions and discussions of measuring uncertainties in data analysis problems
    corecore