22 research outputs found

    Docking rigid macrocycles using Convex-PL, AutoDock Vina, and RDKit in the D3R Grand Challenge 4

    Get PDF
    International audienceThe D3R Grand Challenge 4 provided a brilliant opportunity to test macrocyclic docking protocols on a diverse high-quality experimental data. We participated in both pose and affinity prediction exercises. Overall, we aimed to use an automated structure-based docking pipeline built around a set of tools developed in our team. This exercise again demonstrated a crucial importance of the correct local ligand geometry for the overall success of docking. Starting from the second part of the pose prediction stage, we developed a stable pipeline for sampling macrocycle conformers. This resulted in the subangstrom average precision of our pose predictions. In the affinity prediction exercise we obtained average results. However, we could improve these when using docking poses submitted by the best predictors. Our docking tools including the Convex-PL scoring function are available at https://team.inria.fr/nano-d/software/

    Predicting binding poses and affinities for protein-ligand complexes in the 2015 D3R Grand Challenge using a physical model with a statistical parameter estimation

    Get PDF
    International audienceThe 2015 D3R Grand Challenge provided an opportunity to test our new model for the binding free energy of small molecules, as well as to assess our protocol to predict binding poses for protein-ligand complexes. Our pose predictions were ranked 3-9 for the HSP90 dataset, depending on the assessment metric. For the MAP4K dataset the ranks are very dispersed and equal to 2-35, depending on the assessment metric, which does not provide any insight into the accuracy of the method. The main success of our pose prediction protocol was the re-scoring stage using the recently developed Convex-PL potential. We make a thorough analysis of our docking predictions made with AutoDock Vina and discuss the effect of the choice of rigid receptor templates, the number of flexible residues in the binding pocket, the binding pocket size, and the benefits of re-scoring. However, the main challenge was to predict experimentally determined binding affinities for two blind test sets. Our affinity prediction model consisted of two terms, a pairwise-additive enthalpy, and a non pairwise-additive entropy. We trained the free parameters of the model with a regularized regression using affinity and structural data from the PDBBind database. Our model performed very well on the training set, however, failed on the two test sets. We explain the drawback and pitfalls of our model, in particular in terms of relative coverage of the test set by the training set and missed dynamical properties from crystal structures, and discuss different routes to improve it

    Développement de nouveaux modèles, basés sur les données, pour prédire les interactions entre protéines et petites molécules

    No full text
    Drug discovery is a very expensive process consisting of multiple phases. Computer simulations provide an opportunity to scale and speed up its early stages by performing the initial screening of drug candidates and modeling their interactions with the target receptors. Such modeling is generally performed with molecular docking methods. 3D models of the drug candidates are superposed with 3D receptor models by specific algorithms that are able to estimate the binding free energy change and detect the best configuration of the molecular complex. The binding free energy can be approximately evaluated with the so-called scoring functions. This thesis presents the development and assessment of several protein-ligand scoring functions with the associated docking and screening protocols.Research carried out in the scope of this thesis resulted in the development of three novel scoring functions, namely Convex-PL, Convex-PL-R, and KORP-PL. Convex-PL is a knowledge-based pairwise distance-dependent scoring function for protein-ligand interactions, which is deduced by solving a quadratic optimization problem. Our motivation for its development was to prove that a knowledge-based scoring function can be derived by solving a classification convex optimization problem and also to demonstrate that the non-native ligand poses for the classification can be obtained with rigid constant-RMSD transformations of the native ones. Convex-PL is validated on several benchmarks and integrated into AutoDock Vina.Although a great variety of scoring functions have been designed throughout the years of the field development, a number of challenges in scoring functions creation remain unsolved. Many of the all-purpose scoring functions demonstrate worse performance in the virtual screening tests, compared to the precision with which they are able to predict co-crystal binding poses. After an analysis of the publicly available results of the virtual screening test of the CASF benchmarks, we have discovered that many of the scoring functions are biased towards favouring bigger protein-ligand interfaces. One of the reasons for such preference is insufficient consideration of the interactions with the solvent and also mistreating the entropic contributions. To address this problem, we have developed Convex-PL-R -- a machine learning-based scoring function that incorporates additional solvent and entropic terms. It demonstrates better affinity prediction and virtual screening performance if compared to Convex-PL.Finally, we have developed KORP-PL -- the first coarse-grained orientation-dependent knowledge-based scoring function. KORP-PL proves the concept that a scoring function with a coarse-grained representation of the receptor is suitable for protein-ligand interactions prediction. We believe that its sidechain-free nature will pave the way for novel molecular docking algorithms that will be able to overcome the receptor flexibility problem. Despite being a coarse-grained scoring function, KORP-PL is very successful in pose prediction tests and also on the virtual screening benchmarks.From a practical point of view, the thesis author has participated in several docking challenges that resulted in publications containing various docking protocols evaluation. This thesis comprises the description of participation in the D3R Grand Challenges 2, 3, and 4, and in the CAPRI round 41.La découverte de médicaments est un processus très coûteux composé de plusieurs phases. Les simulations informatiques offrent la possibilité de passer à l'échelle et d'accélérer les premières phases, en effectuant le criblage initial des candidats médicaments et en modélisant leurs interactions avec les récepteurs cibles. Une telle modélisation est généralement réalisée avec des méthodes d'amarrage moléculaire (« docking »). Les modèles 3D des candidats médicaments sont superposés aux modèles de récepteurs 3D par des algorithmes spécifiques capables d'estimer le changement d'énergie libre de liaison et de détecter la meilleure configuration du complexe moléculaire. L'énergie libre de liaison peut être évaluée approximativement avec des fonctions « de score ». Cette thèse présente le développement et l'évaluation de plusieurs fonctions de score protéine-ligand, avec les protocoles d'amarrage et de criblage associés.Les recherches menées dans le cadre de cette thèse ont abouti au développement de trois nouvelles fonctions de score, à savoir Convex-PL, Convex-PL-R et KORP-PL. Convex-PL est une fonction de score dédiée aux interactions protéine-ligand, qui dépend des distances entre paires d’atomes et se base sur la connaissance (« knowledge-based »). Nous l’avons dérivée de la résolution d’un problème d'optimisation quadratique. Notre motivation était de prouver qu'une fonction de score basée sur la connaissance peut être dérivée en résolvant un problème d'optimisation convexe de classification, et également de démontrer que les « poses » non natives du ligand utiles pour la classification peuvent être obtenues avec des transformations rigides à déviation (RMSD) constante de la pose native. Convex-PL a été validée sur plusieurs benchmarks et intégrée à AutoDock Vina.Bien qu'une grande variété de fonctions de score ait été conçue au cours des années de développement du domaine, un certain nombre de défis dans la création de ces fonctions restent à relever. De nombreuses fonctions de score polyvalentes démontrent des performances moins bonnes dans les tests de criblage virtuels, relativement t à la précision avec laquelle elles sont capables de prédire les poses de liaison co-cristallisées. Après une analyse des résultats du test de criblage virtuel des benchmarks CASF, nous avons découvert que de nombreuses fonctions de score favorisent les interfaces les plus grandes. L'une des raisons de cette préférence est une prise en compte insuffisante des interactions avec le solvant et également une mauvaise utilisation des contributions entropiques. Pour résoudre ce problème, nous avons développé Convex-PL-R - une fonction de score basée sur l'apprentissage automatique (« machine learning ») qui incorpore des termes de solvatation et entropiques supplémentaires. Elle fournit de meilleures prédictions d'affinité et de meilleures performances de criblage virtuel par rapport à Convex-PL.Enfin, nous avons développé KORP-PL - la première fonction de score guidée par les données et dépendante de l'orientation des particules en résolution gros-grain. KORP-PL prouve le concept selon lequel une fonction de score basée sur une représentation gros-grain du récepteur convient pour la prédiction des interactions protéine-ligand. Nous pensons que sa nature sans chaînes latérales ouvrira la voie à de nouveaux algorithmes d'amarrage moléculaire capables de surmonter le problème de flexibilité des récepteurs. Bien qu'il s'agisse d'une fonction de score à gros grains, KORP-PL est très efficace dans les tests de prédiction de pose et également dans les criblages virtuels.D'un point de vue pratique, l'auteur de la thèse a participé à plusieurs défis d'amarrage qui ont abouti à des publications présentant l'évaluation de divers protocoles d'amarrage. Cette thèse comprend la description de la participation aux Grands Défis D3R 2, 3 et 4 et au round 41 de CAPRI

    Développement de nouveaux modèles, basés sur les données, pour prédire les interactions entre protéines et petites molécules

    No full text
    Drug discovery is a very expensive process consisting of multiple phases. Computer simulations provide an opportunity to scale and speed up its early stages by performing the initial screening of drug candidates and modeling their interactions with the target receptors. Such modeling is generally performed with molecular docking methods. 3D models of the drug candidates are superposed with 3D receptor models by specific algorithms that are able to estimate the binding free energy change and detect the best configuration of the molecular complex. The binding free energy can be approximately evaluated with the so-called scoring functions. This thesis presents the development and assessment of several protein-ligand scoring functions with the associated docking and screening protocols.Research carried out in the scope of this thesis resulted in the development of three novel scoring functions, namely Convex-PL, Convex-PL-R, and KORP-PL. Convex-PL is a knowledge-based pairwise distance-dependent scoring function for protein-ligand interactions, which is deduced by solving a quadratic optimization problem. Our motivation for its development was to prove that a knowledge-based scoring function can be derived by solving a classification convex optimization problem and also to demonstrate that the non-native ligand poses for the classification can be obtained with rigid constant-RMSD transformations of the native ones. Convex-PL is validated on several benchmarks and integrated into AutoDock Vina.Although a great variety of scoring functions have been designed throughout the years of the field development, a number of challenges in scoring functions creation remain unsolved. Many of the all-purpose scoring functions demonstrate worse performance in the virtual screening tests, compared to the precision with which they are able to predict co-crystal binding poses. After an analysis of the publicly available results of the virtual screening test of the CASF benchmarks, we have discovered that many of the scoring functions are biased towards favouring bigger protein-ligand interfaces. One of the reasons for such preference is insufficient consideration of the interactions with the solvent and also mistreating the entropic contributions. To address this problem, we have developed Convex-PL-R -- a machine learning-based scoring function that incorporates additional solvent and entropic terms. It demonstrates better affinity prediction and virtual screening performance if compared to Convex-PL.Finally, we have developed KORP-PL -- the first coarse-grained orientation-dependent knowledge-based scoring function. KORP-PL proves the concept that a scoring function with a coarse-grained representation of the receptor is suitable for protein-ligand interactions prediction. We believe that its sidechain-free nature will pave the way for novel molecular docking algorithms that will be able to overcome the receptor flexibility problem. Despite being a coarse-grained scoring function, KORP-PL is very successful in pose prediction tests and also on the virtual screening benchmarks.From a practical point of view, the thesis author has participated in several docking challenges that resulted in publications containing various docking protocols evaluation. This thesis comprises the description of participation in the D3R Grand Challenges 2, 3, and 4, and in the CAPRI round 41.La découverte de médicaments est un processus très coûteux composé de plusieurs phases. Les simulations informatiques offrent la possibilité de passer à l'échelle et d'accélérer les premières phases, en effectuant le criblage initial des candidats médicaments et en modélisant leurs interactions avec les récepteurs cibles. Une telle modélisation est généralement réalisée avec des méthodes d'amarrage moléculaire (« docking »). Les modèles 3D des candidats médicaments sont superposés aux modèles de récepteurs 3D par des algorithmes spécifiques capables d'estimer le changement d'énergie libre de liaison et de détecter la meilleure configuration du complexe moléculaire. L'énergie libre de liaison peut être évaluée approximativement avec des fonctions « de score ». Cette thèse présente le développement et l'évaluation de plusieurs fonctions de score protéine-ligand, avec les protocoles d'amarrage et de criblage associés.Les recherches menées dans le cadre de cette thèse ont abouti au développement de trois nouvelles fonctions de score, à savoir Convex-PL, Convex-PL-R et KORP-PL. Convex-PL est une fonction de score dédiée aux interactions protéine-ligand, qui dépend des distances entre paires d’atomes et se base sur la connaissance (« knowledge-based »). Nous l’avons dérivée de la résolution d’un problème d'optimisation quadratique. Notre motivation était de prouver qu'une fonction de score basée sur la connaissance peut être dérivée en résolvant un problème d'optimisation convexe de classification, et également de démontrer que les « poses » non natives du ligand utiles pour la classification peuvent être obtenues avec des transformations rigides à déviation (RMSD) constante de la pose native. Convex-PL a été validée sur plusieurs benchmarks et intégrée à AutoDock Vina.Bien qu'une grande variété de fonctions de score ait été conçue au cours des années de développement du domaine, un certain nombre de défis dans la création de ces fonctions restent à relever. De nombreuses fonctions de score polyvalentes démontrent des performances moins bonnes dans les tests de criblage virtuels, relativement t à la précision avec laquelle elles sont capables de prédire les poses de liaison co-cristallisées. Après une analyse des résultats du test de criblage virtuel des benchmarks CASF, nous avons découvert que de nombreuses fonctions de score favorisent les interfaces les plus grandes. L'une des raisons de cette préférence est une prise en compte insuffisante des interactions avec le solvant et également une mauvaise utilisation des contributions entropiques. Pour résoudre ce problème, nous avons développé Convex-PL-R - une fonction de score basée sur l'apprentissage automatique (« machine learning ») qui incorpore des termes de solvatation et entropiques supplémentaires. Elle fournit de meilleures prédictions d'affinité et de meilleures performances de criblage virtuel par rapport à Convex-PL.Enfin, nous avons développé KORP-PL - la première fonction de score guidée par les données et dépendante de l'orientation des particules en résolution gros-grain. KORP-PL prouve le concept selon lequel une fonction de score basée sur une représentation gros-grain du récepteur convient pour la prédiction des interactions protéine-ligand. Nous pensons que sa nature sans chaînes latérales ouvrira la voie à de nouveaux algorithmes d'amarrage moléculaire capables de surmonter le problème de flexibilité des récepteurs. Bien qu'il s'agisse d'une fonction de score à gros grains, KORP-PL est très efficace dans les tests de prédiction de pose et également dans les criblages virtuels.D'un point de vue pratique, l'auteur de la thèse a participé à plusieurs défis d'amarrage qui ont abouti à des publications présentant l'évaluation de divers protocoles d'amarrage. Cette thèse comprend la description de la participation aux Grands Défis D3R 2, 3 et 4 et au round 41 de CAPRI

    Development of novel algorithms for data-driven prediction of interactions between proteins and small molecules

    No full text
    La découverte de médicaments est un processus très coûteux composé de plusieurs phases. Les simulations informatiques offrent la possibilité de passer à l'échelle et d'accélérer les premières phases, en effectuant le criblage initial des candidats médicaments et en modélisant leurs interactions avec les récepteurs cibles. Une telle modélisation est généralement réalisée avec des méthodes d'amarrage moléculaire (« docking »). Les modèles 3D des candidats médicaments sont superposés aux modèles de récepteurs 3D par des algorithmes spécifiques capables d'estimer le changement d'énergie libre de liaison et de détecter la meilleure configuration du complexe moléculaire. L'énergie libre de liaison peut être évaluée approximativement avec des fonctions « de score ». Cette thèse présente le développement et l'évaluation de plusieurs fonctions de score protéine-ligand, avec les protocoles d'amarrage et de criblage associés.Les recherches menées dans le cadre de cette thèse ont abouti au développement de trois nouvelles fonctions de score, à savoir Convex-PL, Convex-PL-R et KORP-PL. Convex-PL est une fonction de score dédiée aux interactions protéine-ligand, qui dépend des distances entre paires d’atomes et se base sur la connaissance (« knowledge-based »). Nous l’avons dérivée de la résolution d’un problème d'optimisation quadratique. Notre motivation était de prouver qu'une fonction de score basée sur la connaissance peut être dérivée en résolvant un problème d'optimisation convexe de classification, et également de démontrer que les « poses » non natives du ligand utiles pour la classification peuvent être obtenues avec des transformations rigides à déviation (RMSD) constante de la pose native. Convex-PL a été validée sur plusieurs benchmarks et intégrée à AutoDock Vina.Bien qu'une grande variété de fonctions de score ait été conçue au cours des années de développement du domaine, un certain nombre de défis dans la création de ces fonctions restent à relever. De nombreuses fonctions de score polyvalentes démontrent des performances moins bonnes dans les tests de criblage virtuels, relativement t à la précision avec laquelle elles sont capables de prédire les poses de liaison co-cristallisées. Après une analyse des résultats du test de criblage virtuel des benchmarks CASF, nous avons découvert que de nombreuses fonctions de score favorisent les interfaces les plus grandes. L'une des raisons de cette préférence est une prise en compte insuffisante des interactions avec le solvant et également une mauvaise utilisation des contributions entropiques. Pour résoudre ce problème, nous avons développé Convex-PL-R - une fonction de score basée sur l'apprentissage automatique (« machine learning ») qui incorpore des termes de solvatation et entropiques supplémentaires. Elle fournit de meilleures prédictions d'affinité et de meilleures performances de criblage virtuel par rapport à Convex-PL.Enfin, nous avons développé KORP-PL - la première fonction de score guidée par les données et dépendante de l'orientation des particules en résolution gros-grain. KORP-PL prouve le concept selon lequel une fonction de score basée sur une représentation gros-grain du récepteur convient pour la prédiction des interactions protéine-ligand. Nous pensons que sa nature sans chaînes latérales ouvrira la voie à de nouveaux algorithmes d'amarrage moléculaire capables de surmonter le problème de flexibilité des récepteurs. Bien qu'il s'agisse d'une fonction de score à gros grains, KORP-PL est très efficace dans les tests de prédiction de pose et également dans les criblages virtuels.D'un point de vue pratique, l'auteur de la thèse a participé à plusieurs défis d'amarrage qui ont abouti à des publications présentant l'évaluation de divers protocoles d'amarrage. Cette thèse comprend la description de la participation aux Grands Défis D3R 2, 3 et 4 et au round 41 de CAPRI.Drug discovery is a very expensive process consisting of multiple phases. Computer simulations provide an opportunity to scale and speed up its early stages by performing the initial screening of drug candidates and modeling their interactions with the target receptors. Such modeling is generally performed with molecular docking methods. 3D models of the drug candidates are superposed with 3D receptor models by specific algorithms that are able to estimate the binding free energy change and detect the best configuration of the molecular complex. The binding free energy can be approximately evaluated with the so-called scoring functions. This thesis presents the development and assessment of several protein-ligand scoring functions with the associated docking and screening protocols.Research carried out in the scope of this thesis resulted in the development of three novel scoring functions, namely Convex-PL, Convex-PL-R, and KORP-PL. Convex-PL is a knowledge-based pairwise distance-dependent scoring function for protein-ligand interactions, which is deduced by solving a quadratic optimization problem. Our motivation for its development was to prove that a knowledge-based scoring function can be derived by solving a classification convex optimization problem and also to demonstrate that the non-native ligand poses for the classification can be obtained with rigid constant-RMSD transformations of the native ones. Convex-PL is validated on several benchmarks and integrated into AutoDock Vina.Although a great variety of scoring functions have been designed throughout the years of the field development, a number of challenges in scoring functions creation remain unsolved. Many of the all-purpose scoring functions demonstrate worse performance in the virtual screening tests, compared to the precision with which they are able to predict co-crystal binding poses. After an analysis of the publicly available results of the virtual screening test of the CASF benchmarks, we have discovered that many of the scoring functions are biased towards favouring bigger protein-ligand interfaces. One of the reasons for such preference is insufficient consideration of the interactions with the solvent and also mistreating the entropic contributions. To address this problem, we have developed Convex-PL-R -- a machine learning-based scoring function that incorporates additional solvent and entropic terms. It demonstrates better affinity prediction and virtual screening performance if compared to Convex-PL.Finally, we have developed KORP-PL -- the first coarse-grained orientation-dependent knowledge-based scoring function. KORP-PL proves the concept that a scoring function with a coarse-grained representation of the receptor is suitable for protein-ligand interactions prediction. We believe that its sidechain-free nature will pave the way for novel molecular docking algorithms that will be able to overcome the receptor flexibility problem. Despite being a coarse-grained scoring function, KORP-PL is very successful in pose prediction tests and also on the virtual screening benchmarks.From a practical point of view, the thesis author has participated in several docking challenges that resulted in publications containing various docking protocols evaluation. This thesis comprises the description of participation in the D3R Grand Challenges 2, 3, and 4, and in the CAPRI round 41

    Développement de nouveaux modèles, basés sur les données, pour prédire les interactions entre protéines et petites molécules

    No full text
    Drug discovery is a very expensive process consisting of multiple phases. Computer simulations provide an opportunity to scale and speed up its early stages by performing the initial screening of drug candidates and modeling their interactions with the target receptors. Such modeling is generally performed with molecular docking methods. 3D models of the drug candidates are superposed with 3D receptor models by specific algorithms that are able to estimate the binding free energy change and detect the best configuration of the molecular complex. The binding free energy can be approximately evaluated with the so-called scoring functions. This thesis presents the development and assessment of several protein-ligand scoring functions with the associated docking and screening protocols.Research carried out in the scope of this thesis resulted in the development of three novel scoring functions, namely Convex-PL, Convex-PL-R, and KORP-PL. Convex-PL is a knowledge-based pairwise distance-dependent scoring function for protein-ligand interactions, which is deduced by solving a quadratic optimization problem. Our motivation for its development was to prove that a knowledge-based scoring function can be derived by solving a classification convex optimization problem and also to demonstrate that the non-native ligand poses for the classification can be obtained with rigid constant-RMSD transformations of the native ones. Convex-PL is validated on several benchmarks and integrated into AutoDock Vina.Although a great variety of scoring functions have been designed throughout the years of the field development, a number of challenges in scoring functions creation remain unsolved. Many of the all-purpose scoring functions demonstrate worse performance in the virtual screening tests, compared to the precision with which they are able to predict co-crystal binding poses. After an analysis of the publicly available results of the virtual screening test of the CASF benchmarks, we have discovered that many of the scoring functions are biased towards favouring bigger protein-ligand interfaces. One of the reasons for such preference is insufficient consideration of the interactions with the solvent and also mistreating the entropic contributions. To address this problem, we have developed Convex-PL-R -- a machine learning-based scoring function that incorporates additional solvent and entropic terms. It demonstrates better affinity prediction and virtual screening performance if compared to Convex-PL.Finally, we have developed KORP-PL -- the first coarse-grained orientation-dependent knowledge-based scoring function. KORP-PL proves the concept that a scoring function with a coarse-grained representation of the receptor is suitable for protein-ligand interactions prediction. We believe that its sidechain-free nature will pave the way for novel molecular docking algorithms that will be able to overcome the receptor flexibility problem. Despite being a coarse-grained scoring function, KORP-PL is very successful in pose prediction tests and also on the virtual screening benchmarks.From a practical point of view, the thesis author has participated in several docking challenges that resulted in publications containing various docking protocols evaluation. This thesis comprises the description of participation in the D3R Grand Challenges 2, 3, and 4, and in the CAPRI round 41.La découverte de médicaments est un processus très coûteux composé de plusieurs phases. Les simulations informatiques offrent la possibilité de passer à l'échelle et d'accélérer les premières phases, en effectuant le criblage initial des candidats médicaments et en modélisant leurs interactions avec les récepteurs cibles. Une telle modélisation est généralement réalisée avec des méthodes d'amarrage moléculaire (« docking »). Les modèles 3D des candidats médicaments sont superposés aux modèles de récepteurs 3D par des algorithmes spécifiques capables d'estimer le changement d'énergie libre de liaison et de détecter la meilleure configuration du complexe moléculaire. L'énergie libre de liaison peut être évaluée approximativement avec des fonctions « de score ». Cette thèse présente le développement et l'évaluation de plusieurs fonctions de score protéine-ligand, avec les protocoles d'amarrage et de criblage associés.Les recherches menées dans le cadre de cette thèse ont abouti au développement de trois nouvelles fonctions de score, à savoir Convex-PL, Convex-PL-R et KORP-PL. Convex-PL est une fonction de score dédiée aux interactions protéine-ligand, qui dépend des distances entre paires d’atomes et se base sur la connaissance (« knowledge-based »). Nous l’avons dérivée de la résolution d’un problème d'optimisation quadratique. Notre motivation était de prouver qu'une fonction de score basée sur la connaissance peut être dérivée en résolvant un problème d'optimisation convexe de classification, et également de démontrer que les « poses » non natives du ligand utiles pour la classification peuvent être obtenues avec des transformations rigides à déviation (RMSD) constante de la pose native. Convex-PL a été validée sur plusieurs benchmarks et intégrée à AutoDock Vina.Bien qu'une grande variété de fonctions de score ait été conçue au cours des années de développement du domaine, un certain nombre de défis dans la création de ces fonctions restent à relever. De nombreuses fonctions de score polyvalentes démontrent des performances moins bonnes dans les tests de criblage virtuels, relativement t à la précision avec laquelle elles sont capables de prédire les poses de liaison co-cristallisées. Après une analyse des résultats du test de criblage virtuel des benchmarks CASF, nous avons découvert que de nombreuses fonctions de score favorisent les interfaces les plus grandes. L'une des raisons de cette préférence est une prise en compte insuffisante des interactions avec le solvant et également une mauvaise utilisation des contributions entropiques. Pour résoudre ce problème, nous avons développé Convex-PL-R - une fonction de score basée sur l'apprentissage automatique (« machine learning ») qui incorpore des termes de solvatation et entropiques supplémentaires. Elle fournit de meilleures prédictions d'affinité et de meilleures performances de criblage virtuel par rapport à Convex-PL.Enfin, nous avons développé KORP-PL - la première fonction de score guidée par les données et dépendante de l'orientation des particules en résolution gros-grain. KORP-PL prouve le concept selon lequel une fonction de score basée sur une représentation gros-grain du récepteur convient pour la prédiction des interactions protéine-ligand. Nous pensons que sa nature sans chaînes latérales ouvrira la voie à de nouveaux algorithmes d'amarrage moléculaire capables de surmonter le problème de flexibilité des récepteurs. Bien qu'il s'agisse d'une fonction de score à gros grains, KORP-PL est très efficace dans les tests de prédiction de pose et également dans les criblages virtuels.D'un point de vue pratique, l'auteur de la thèse a participé à plusieurs défis d'amarrage qui ont abouti à des publications présentant l'évaluation de divers protocoles d'amarrage. Cette thèse comprend la description de la participation aux Grands Défis D3R 2, 3 et 4 et au round 41 de CAPRI

    Convex-PL: a novel knowledge-based potential for protein-ligand interactions deduced from structural databases using convex optimization

    Get PDF
    International audienceWe present a novel optimization approach to train a free-shape distance-dependent protein-ligand scoring function called Convex-PL. We do not impose any functional form of the scoring function. Instead, we decompose it into a polynomial basis and deduce the expansion coefficients from the structural knowledge base using a convex formulation of the optimization problem. Also, for the training set we do not generate false poses with molecular docking packages, but use constant RMSD rigid-body deformations of the ligands inside the binding pockets. This allows the obtained scoring function to be generally applicable to scoring of structural ensembles generated with different docking methods. We assess the Convex-PL scoring function using data from D3R Grand Challenge 2 submissions and the docking test of the CASF 2013 study. We demonstrate that our results outperform the other 20 methods previously assessed in CASF 2013. The method is available at http://team.inria.fr/nano-d/ software/Convex-PL/

    Knodle: A Support Vector Machines-Based Automatic Perception of Organic Molecules from 3D Coordinates

    Get PDF
    International audienceHere we address the problem of the assignment of atom types and bond orders in low molecular weight compounds. For this purpose, we have developed a prediction model based on nonlinear Support Vector Machines (SVM), implemented in a KNOwledge-Driven Ligand Extractor called Knodle, a software library for the recognition of atomic types, hybridization states, and bond orders in the structures of small molecules. We trained the model using an excessive amount of structural data collected from the PDBbindCN database. Accuracy of the results and the running time of our method is comparable with other popular methods, such as NAOMI, fconv, and I-interpret. On the popular Labute’s benchmark set consisting of 179 protein–ligand complexes, Knodle makes five to six perception errors, NAOMI makes seven errors, I-interpret makes nine errors, and fconv makes 13 errors. On a larger set of 3,000 protein–ligand structures collected from the PDBBindCN general data set (v2014), Knodle and NAOMI have a comparable accuracy of approximately 3.9% and 4.7% of errors, I-interpret made 6.0% of errors, while fconv produced approximately 12.8% of errors. On a more general set of 332,974 entries collected from the Ligand Expo database, Knodle made 4.5% of errors. Overall, our study demonstrates the efficiency and robustness of nonlinear SVM in structure perception tasks. Knodle is available at https://team.inria.fr/nano-d/software/Knodle

    Docking of small molecules to farnesoid X receptors using AutoDock Vina with the Convex-PL potential: lessons learned from D3R Grand Challenge 2

    Get PDF
    International audienceThe 2016 D3R Grand Challenge 2 provided an opportunity to test multiple protein-ligand docking protocols on a set of ligands bound to farnesoid X receptor that has many available experimental structures. We participated in the Stage 1 of the Challenge devoted to the docking pose predictions, with the mean RMSD value of our submission poses of 2.9 Å. Here we present a thorough analysis of our docking predictions made with AutoDock Vina and the Convex-PL rescoring potential by reproducing our submission protocol and running a series of additional molecular docking experiments. We conclude that a correct receptor structure, or more precisely, the structure of the binding pocket, plays the crucial role in the success of our docking studies. We have also noticed the important role of a local ligand geometry, which seems to be not well discussed in literature. We succeed to improve our results up to the mean RMSD value of 2.15 – 2.33 Å dependent on the models of the ligands, if docking these to all available homologous receptors. Overall, for docking of ligands of diverse chemical series we suggest to perform docking of each of the ligands to a set of multiple receptors that are homologous to the target

    Convex-PL-R - Revisiting affinity predictions and virtual screening using physics-informed machine learning

    No full text
    Virtual screening is an essential part of the modern drug design pipeline, which significantly accelerates the discovery of new drug candidates. Structure-based virtual screening involves ligand conformational sampling, which is often followed by re-scoring of docking poses. A great variety of scoring functions have been designed for this purpose. The advent of structural and affinity databases and the progress in machinelearning methods have recently boosted scoring function performance. Nonetheless, the most successful scoring functions are typically designed for specific tasks or systems. All-purpose scoring functions still perform poorly on the virtual screening tests, compared to precision with which they are able to predict co-crystal binding poses. Another limitation is the low interpretability of the heuristics being used. We analyzed scoring functions' performance in the CASF benchmarks and discovered that the vast majority of them have a strong bias towards predicting larger binding interfaces. This motivated us to develop a physical model with additional entropic terms with the aim of penalizing such a preference. We parameterized the new model using affinity and structural data, solving a classification problem followed by regression. The new model, called Convex-PL-R , demonstrated high-quality results on multiple tests and a substantial improvement over its predecessor Convex-PL. Convex-PL-R can be used for molecular docking together with VinaCPL, our version of AutoDock Vina, with Convex-PL integrated as a scoring function. Convex-PL-R , Convex-PL, and VinaCPL are available at https://team.inria.fr/nano-d/convex-pl/
    corecore