'Centre pour la Communication Scientifique Directe (CCSD)'
Abstract
Drug discovery is a long and costly process. Drug repositioning is a promising alternative which involves finding new indications for existing drugs. By comparing large quantities of information on drugs that have failed in the final phases of clinical trials, or that have been granted marketing authorization and are now on the market, it is possible to find candidate repositioning drugs capable of treating a condition for which they were not initially developed. To compare all these drugs, computational methods, based on large databases, are favored for their efficiency, speed and ability to analyze large quantities of information. Knowledge graphs are ideal structures for integrating this heterogeneous information. A knowledge graph organizes its information into triplets consisting of a subject, an object and a predicate explaining the relationship between the subject and the object. This graph, combined with embedding techniques (machine learning), can be used to predict new relationships between subjects and objects (which are nodes in the graph). It is therefore possible to transform the problem of repositioning into a problem of discovering new links in a graph. This thesis addresses these issues in the context of the OREGANO project, which aims to build a large knowledge graph on drugs and apply node-plotting techniques for drug repositioning. These techniques “project” the graph into a vector space where each entity is represented by a vector. One of OREGANO’s innovations is also to include data on natural compounds whose medicinal properties are exploited in many countries, and whose repositioning potential has been little explored. First, we present the way in which we designed the OREGANO knowledge graph, considering two distinct integration approaches. We then describe the evolutions that have been made to the graph over the years. Thirdly, we demonstrate the ability of the OREGANO knowledge graph to predict new links using embedding techniques. Predictions are evaluated with the usual metrics and empirically in the context of drug repositioning. The OREGANO graph as well as the algorithm and code developments are made available to the community at https://gitub.u-bordeaux.fr/erias/oregano.La découverte de médicaments est un processus long et coûteux. Le repositionnement de médicaments est une alternative prometteuse qui consiste à trouver de nouvelles indications pour des médicaments existants. En comparant de grandes quantités d’informations sur les médicaments qui ont échoué aux dernières phases des essais cliniques ou qui ont obtenu une autorisation de mise sur le marché, et donc commercialisés, il est possible de trouver des médicaments candidats au repositionnement capables de traiter une affection pour laquelle ils n’ont pas été développés initialement. Pour comparer tous ces médicaments, les méthodes computationnelles s’appuyant sur de grandes bases de données sont privilégiées pour leur efficacité, leur rapidité et leur capacité à croiser de grandes quantités d’informations. Les graphes de connaissances sont des structures appropriées pour intégrer ces informations de nature hétérogène. Un graphe de connaissances organise ces informations en triplets composés d’un sujet, d’un objet et d’un prédicat explicitant la relation entre le sujet et l’objet. Ce graphe, combiné à des techniques de plongement de nœuds (apprentissage automatique), permet de prédire de nouvelles relations entre sujets et objets (qui sont des nœuds du graphe). Il est donc possible de transformer le problème de repositionnement en un problème de découverte de nouveaux liens dans un graphe. Cette thèse s’intéresse à ces problématiques dans le cadre du projet OREGANO visant à construire un large graphe de connaissances sur les médicaments et à appliquer des techniques de plongement de nœuds pour le repositionnement de médicaments. Ces techniques "projettent" le graphe dans un espace vectoriel où chaque entité est représentée par un vecteur. Une des innovations apportées par OREGANO est également d’inclure des données sur des composés naturels dont les propriétés médicinales sont exploitées dans de nombreux pays et dont les potentialités de repositionnement ont été peu explorées. Dans un premier temps, nous présentons la manière dont nous avons conçu le graphe de connaissances OREGANO, en considérant deux approches d’intégration distinctes. Nous exposons ensuite les évolutions qui ont été apportées au graphe au fil des versions. Dans un troisième temps, nous exposons la capacité du graphe de connaissances OREGANO à prédire de nouveaux liens grâce à des techniques de plongement de nœuds. Les prédictions sont évaluées avec les métriques habituelles et empiriquement dans le cadre du repositionnement de médicaments. Le graphe OREGANO ainsi que les développements des algorithmes et du code sont disponibles pour la communauté scientifique à l’adresse suivante : https://gitub.u-bordeaux.fr/erias/oregano
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.