unknown

Development of Computational Methods to Predict Protein Pocket Druggability and Profile Ligands using Structural Data

Abstract

This thesis presents the development of computational methods and tools using as input three-dimensional structures data of protein-ligand complexes. The tools are useful to mine, profile and predict data from protein-ligand complexes to improve the modeling and the understanding of the protein-ligand recognition. This thesis is divided into five sub-projects. In addition, unpublished results about positioning water molecules in binding pockets are also presented. I developed a statistical model, PockDrug, which combines three properties (hydrophobicity, geometry and aromaticity) to predict the druggability of protein pockets, with results that are not dependent on the pocket estimation methods. The performance of pockets estimated on apo or holo proteins is better than that previously reported in the literature (Publication I). PockDrug is made available through a web server, PockDrug-Server (http://pockdrug.rpbs.univ-paris-diderot.fr), which additionally includes many tools for protein pocket analysis and characterization (Publication II). I developed a customizable computational workflow based on the superimposition of homologous proteins to mine the structural replacements of functional groups in the Protein Data Bank (PDB). Applied to phosphate groups, we identified a surprisingly high number of phosphate non-polar replacements as well as some mechanisms allowing positively charged replacements. In addition, we observed that ligands adopted a U-shape conformation at nucleotide binding pockets across phylogenetically unrelated proteins (Publication III). I investigated the prevalence of salt bridges at protein-ligand complexes in the PDB for five basic functional groups. The prevalence ranges from around 70% for guanidinium to 16% for tertiary ammonium cations, in this latter case appearing to be connected to a smaller volume available for interacting groups. In the absence of strong carboxylate-mediated salt bridges, the environment around the basic functional groups studied appeared enriched in functional groups with acidic properties such as hydroxyl, phenol groups or water molecules (Publication IV). I developed a tool that allows the analysis of binding poses obtained by docking. The tool compares a set of docked ligands to a reference bound ligand (may be different molecule) and provides a graphic output that plots the shape overlap and a Jaccard score based on comparison of molecular interaction fingerprints. The tool was applied to analyse the docking poses of active ligands at the orexin-1 and orexin-2 receptors found as a result of a combined virtual and experimental screen (Publication V). The review of literature focusses on protein-ligand recognition, presenting different concepts and current challenges in drug discovery.Tässä väitöskirjassa esitetään tietokoneavusteisia menetelmiä ja työkaluja, jotka perustuvat proteiini-ligandikompleksien kolmiulotteisiin rakenteisiin. Ne soveltuvat proteiini-ligandikompleksien rakennetiedon louhimiseen, optimointiin ja ennustamiseen. Tavoitteena on parantaa sekä mallinnusta että käsitystä proteiini-liganditunnistuksesta. Väitöskirjassa työkalut kuvataan viitenä eri alahankkeena. Lisäksi esitetään toistaiseksi julkaisemattomia tuloksia vesimolekyylien asemoinnista proteiinien sitoutumistaskuihin. Kehitin PockDrugiksi kutsumani tilastollisen mallin, joka yhdistää kolme ominaisuutta – hydrofobisuuden, geometrian ja aromaattisuuden – proteiinitaskujen lääkekehityskohteeksi soveltuvuuden ennustamista varten siten, että tulokset ovat riippumattomia sitoutumistaskun sijoitusmenetelmästä. Apo- ja holoproteiinien taskujen ennustaminen toimii paremmin kuin alan kirjallisuudessa on aiemmin kuvattu (Julkaisu I). PockDrug on vapaasti käyttäjien saatavilla PockDrug-verkkopalvelimelta (http://pockdrug.rpbs.univ-paris-diderot.fr), jossa on lisäksi useita työkaluja proteiinin sitoutumiskohdan analyysiin ja karakterisointiin (Julkaisu II). Kehitin myös muokattavissa olevan tietokoneavusteisen prosessin, joka perustuu samankaltaisten proteiinien päällekkäin asetteluun, louhiakseni Protein Data Bankista (PDB) toiminnallisten ryhmien rakenteellisia korvikkeita. Tätä fosfaattiryhmiin soveltaessani tunnistin yllättävän paljon poolittomia fosfaattiryhmän korvikkeita ja joitakin positiivisesti varautuneita korvikkeita mahdollistavia mekanismeja. Lisäksi havaitsin, että ligandit omaksuivat U muotoisen konformaation fylogeneettisesti riippumattomien proteiinien nukleotidien sitoutumistaskuissa (Julkaisu III). Tutkin PDB:n proteiini-ligandikompleksien suolasiltojen yleisyyttä viidelle emäksiselle toiminnalliselle ryhmälle. Suolasiltojen yleisyys vaihteli guanidinium-ionin 70 prosentista tertiääristen ammoniumkationien 16 prosenttiin. Jälkimmäisessä tapauksessa suolasiltojen vähäisyys vaikuttaa riippuvan siitä, että vuorovaikuttaville ryhmille on vähemmän tilaa. Mikäli tarkastellut emäksiset ryhmät eivät osallistuneet vahvoihin karboksylaattivälitteisiin suolasiltoihin, niiden ympäristössä vaikutti olevan runsaasti happamia toiminnallisia ryhmiä, kuten hydroksi- ja fenoliryhmiä sekä vesimolekyylejä (Julkaisu IV). Lopuksi kehitin työkalun, joka mahdollistaa telakoinnista saatujen sitoutumisasentojen analyysin. Työkalu vertaa telakoitua ligandisarjaa sitoutuneeseen vertailuligandiin, joka voi olla eri molekyyli. Graafisena tulosteena saadaan diagrammi ligandien muotojen samankaltaisuudesta ja molekyylivuorovaikutusten sormenjälkiin perustuvasta Jaccard-pistemäärästä. Työkalua sovellettiin oreksiini-1- ja oreksiini-2-reseptoreille yhdistetyllä virtuaalisella ja kokeellisella seulonnalla löydettyjen aktiivisten ligandien sitoutumisasentojen analyysiin (Julkaisu V).Cette thèse présente le développement de méthodes et d’outils informatiques basés sur la structure tridimensionnelle des complexes protéine-ligand. Ces différentes méthodes sont utilisées pour extraire, optimiser et prédire des données à partir de la structure des complexes afin d’améliorer la modélisation et la compréhension de la reconnaissance entre une protéine et un ligand. Ce travail de thèse est divisé en cinq projets. En complément, une étude sur le positionnement des molécules d’eau dans les sites de liaisons a aussi été développée et est présentée. Dans une première partie un modèle statistique, PockDrug, a été mis en place. Il combine trois propriétés de poches protéiques (l’hydrophobicité, la géométrie et l’aromaticité) pour prédire la druggabilité des poches protéiques, si une poche protéique peut lier une molécule drug-like. Le modèle est optimisé pour s’affranchir des différentes méthodes d’estimation de poches protéiques. La qualité des prédictions, est meilleure à la fois sur des poches estimées à partir de protéines apo et holo et est supérieure aux autres modèles de la littérature (Publication I). Le modèle PockDrug est disponible sur un serveur web, PockDrug-Server (http://pockdrug.rpbs.univ-paris-diderot.fr) qui inclus d’autres outils pour l’analyse et la caractérisation des poches protéiques. Dans un second temps un protocole, basé sur la superposition de protéines homologues a été développé pour extraire des replacements structuraux de groupements chimiques fonctionnels à partir de la Protein Data Bank (PDB). Appliqué aux phosphates, un grand nombre de remplacements non-polaires ont été identifié pouvant notamment être chargés positivement. Quelques mécanismes de remplacements ont ainsi pu être analysé. Nous avons, par exemple, observé que le ligand adopte une configuration en forme U dans les sites de liaison des nucléotides indépendamment de la phylogénétique des protéines (Publication III). Dans une quatrième partie, la prévalence des ponts salins de cinq groupements chimiques basiques a été étudié dans les complexes protéine-ligand. Ainsi le pourcentage de pont salin fluctue de 70% pour le guanidinium à 16% pour l’amine tertiaire qui a le plus faible volume disponible autour de lui pour accueillir un group pouvant interagir. L’absence d’acide fort comme l’acide carboxylique pour former un pont salin est remplacé par un milieu enrichis en groupement chimiques fonctionnels avec des propriétés acides comme l’hydroxyle, le phénol ou encore les molécules d’eau (Publication IV). Dans un dernier temps un outil permettant l’analyse des poses de ligand obtenues par une méthode d’ancrage moléculaire a été développé. Cet outil compare ces poses à un ligand de référence, qui peut être une molécule différente en combinant l’information du chevauchement de forme de la pose et du ligand de référence et un score de Jaccard basé sur une comparaison des empreintes d’interaction moléculaires du ligand de référence et de la pose. Cette méthode a été utilisé dans l’analyse des résultats d’ancrage moléculaires pour des ligands actifs pour les récepteurs aux orexine 1 et 2. Ces ligands actifs ont été trouvés à partir de résultats combinant un criblage virtuel et expérimental. La revue de la littérature associée est focalisée sur la reconnaissance moléculaire d’un ligand pour une protéine et présente diffèrent concepts et challenges pour la recherche de nouveaux médicaments

    Similar works