17 research outputs found

    Prediction of blood-brain barrier permeability of compounds by machine learning algorithms

    Get PDF
    In the drug development for the Central Nervous System (CNS), the discovery of the compounds that can pass through the brain across the Blood-Brain Barrier (BBB) is the most challenging assessment. Almost 98% of small molecules are unable to permeate BBB, reducing the pharmacokinetics of the drugs in the CNS by affecting its absorption, distribution, metabolism, and excretion (ADME) mechanisms. Since the CNS is often inaccessible to many complex procedures and performing in-vitro permeability studies for thousands of compounds can be laborious, attempts were made to predict the permeation of compounds through BBB by implementing the Machine Learning (ML) approach. In this work, using the KNIME Analytics platform, 4 predictive models were developed with 4 ML algorithms followed by a ten-fold cross-validation approach to predict the external validation set. Among 4 ML algorithms, Extreme Gradient Boosting (XGBoost) overperformed in BBB permeability prediction and was chosen as the prediction model for deployment. Data pre-processing and feature selection enhanced the prediction of the model. Overall, the model achieved 86.7% and 88.5% of accuracy and 0.843 and 0.927 AUC, respectively in the training set and external validation set, proving that the model with high stability in prediction

    Does GNN Pretraining Help Molecular Representation?

    Full text link
    Extracting informative representations of molecules using Graph neural networks (GNNs) is crucial in AI-driven drug discovery. Recently, the graph research community has been trying to replicate the success of self-supervised pretraining in natural language processing, with several successes claimed. However, we find the benefit brought by self-supervised pretraining on small molecular data can be negligible in many cases. We conduct thorough ablation studies on the key components of GNN pretraining, including pretraining objectives, data splitting methods, input features, pretraining dataset scales, and GNN architectures, to see how they affect the accuracy of the downstream tasks. Our first important finding is, self-supervised graph pretraining do not always have statistically significant advantages over non-pretraining methods in many settings. Secondly, although noticeable improvement can be observed with additional supervised pretraining, the improvement may diminish with richer features or more balanced data splits. Thirdly, hyper-parameters could have larger impacts on accuracy of downstream tasks than the choice of pretraining tasks, especially when the scales of downstream tasks are small. Finally, we provide our conjectures where the complexity of some pretraining methods on small molecules might be insufficient, followed by empirical evidences on different pretraining datasets

    ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction

    Full text link
    Effective molecular representation learning is of great importance to facilitate molecular property prediction, which is a fundamental task for the drug and material industry. Recent advances in graph neural networks (GNNs) have shown great promise in applying GNNs for molecular representation learning. Moreover, a few recent studies have also demonstrated successful applications of self-supervised learning methods to pre-train the GNNs to overcome the problem of insufficient labeled molecules. However, existing GNNs and pre-training strategies usually treat molecules as topological graph data without fully utilizing the molecular geometry information. Whereas, the three-dimensional (3D) spatial structure of a molecule, a.k.a molecular geometry, is one of the most critical factors for determining molecular physical, chemical, and biological properties. To this end, we propose a novel Geometry Enhanced Molecular representation learning method (GEM) for Chemical Representation Learning (ChemRL). At first, we design a geometry-based GNN architecture that simultaneously models atoms, bonds, and bond angles in a molecule. To be specific, we devised double graphs for a molecule: The first one encodes the atom-bond relations; The second one encodes bond-angle relations. Moreover, on top of the devised GNN architecture, we propose several novel geometry-level self-supervised learning strategies to learn spatial knowledge by utilizing the local and global molecular 3D structures. We compare ChemRL-GEM with various state-of-the-art (SOTA) baselines on different molecular benchmarks and exhibit that ChemRL-GEM can significantly outperform all baselines in both regression and classification tasks. For example, the experimental results show an overall improvement of 8.8% on average compared to SOTA baselines on the regression tasks, demonstrating the superiority of the proposed method

    Characterisation of data resources for in silico modelling: benchmark datasets for ADME properties.

    Get PDF
    Introduction: The cost of in vivo and in vitro screening of ADME properties of compounds has motivated efforts to develop a range of in silico models. At the heart of the development of any computational model are the data; high quality data are essential for developing robust and accurate models. The characteristics of a dataset, such as its availability, size, format and type of chemical identifiers used, influence the modelability of the data. Areas covered: This review explores the usefulness of publicly available ADME datasets for researchers to use in the development of predictive models. More than 140 ADME datasets were collated from publicly available resources and the modelability of 31selected datasets were assessed using specific criteria derived in this study. Expert opinion: Publicly available datasets differ significantly in information content and presentation. From a modelling perspective, datasets should be of adequate size, available in a user-friendly format with all chemical structures associated with one or more chemical identifiers suitable for automated processing (e.g. CAS number, SMILES string or InChIKey). Recommendations for assessing dataset suitability for modelling and publishing data in an appropriate format are discussed

    Frustratingly Easy Transferability Estimation

    Full text link
    Transferability estimation has been an essential tool in selecting a pre-trained model and the layers of it to transfer, so as to maximize the performance on a target task and prevent negative transfer. Existing estimation algorithms either require intensive training on target tasks or have difficulties in evaluating the transferability between layers. We propose a simple, efficient, and effective transferability measure named TransRate. With single pass through the target data, TransRate measures the transferability as the mutual information between the features of target examples extracted by a pre-trained model and labels of them. We overcome the challenge of efficient mutual information estimation by resorting to coding rate that serves as an effective alternative to entropy. TransRate is theoretically analyzed to be closely related to the performance after transfer learning. Despite its extraordinary simplicity in 10 lines of codes, TransRate performs remarkably well in extensive evaluations on 22 pre-trained models and 16 downstream tasks

    Inference of binding affinity from neuronal receptors in humans

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2016Only some compounds (e.g. ligands) act as neurotransmitters in the brain, binding to specific neuroreceptors. Understanding the criteria behind why a ligand binds to a particular target in the brain can help design drugs which are more effective. With the help of data-mining techniques, quantitative structure–activity/propriety relationship (QSAR/QSPR(Q (SAR)) models and machine learning methods, a supervised model can be built which can predict binding affinities for any molecule, provided sufficient experimental data is available. Models which can predict binding affinities for specific neuroreceptors were built using three machine learning methods (Random Forests, Support Vector Machines and Least Absolute Shrinkage and Selection Operator) and two sets of molecular descriptors from different chemical toolboxes (Open Babel and CDK). Experimental data was collected to create the database and curated by removing inconsistencies and duplicates. The final dataset had 43901 binding affinity values for 53 human neuroreceptors. In the model building phase, 75% of the dataset was used for training and 25% for validation. The modelling consisted of choosing the most important variables (descriptors) for each neuroreceptor and validating using statistical measures. Random Forests and SVM were the best methods. Random Forests was used to select the most important variables and SVM for the statistical measure. The value of root mean squared error (RMSE) was below 0.214, more than half of the receptors had the percentage of variance explained (PVE) above 50% and Pearson's correlation coefficient was above 0.50, confirming the model had a good fit. Small dataset (below 112 entries) resulted in some models having poor results. RMSE values from validation and modelling parts were similar for the best model resulting in a good therefore can predict the strength of binding between neuroreceptor and neurotransmitter. The values of RMSE for the best models were between 0.087 and 0.201 where the PVE is above 50% and correlation above 0.50. Some molecular descriptors were selected frequently; 46 descriptors appeared in more than 20 neuroreceptors, however only 6 descriptors appeared in all neuroreceptors. The same descriptors are used to identify the same family of neuroreceptors.É importante perceber o critério que determina a ligação entre uma molécula e um recetor específico, em particular no cérebro, onde só alguns compostos atuam como neurotransmissores e ligam-se a neurorecetores especifícos. Os neurotransmissores, dependem da sua estrutura para estabelecerem uma ligação com os neurorecetores. Essa ligação pode ser medida através de valores de binding affinity. É possivel, com ajuda de técnicas de data-mining, métodos de machine learning e de relação quantitativa estrutura-propriedade/atividade (QSAR/QSPR), construir um modelo que consiga prever esses valores de binding affinity, desde que tenhamos toda a informação necessária (propriedades/estrutura da molécula e do neurorecetor e valores de binding affinity). Métodos de QSAR/QSPR foram desenvolvidos para compreender as propriedades das moléculas, prever a sua estrutura, e a relação entre os descritores moleculares da sua estrutura com as suas propriedades. De modo a prever valores de binding affinity entre neurotransmissores e neurorecetores, neste trabalho foi criada uma base de dados , com seis dimensões referentes a espécies de animais (dimspecie), a referências bibliográficas (dimref) , a diferentes fontes de dados utilizadas para fazer a base de dados (dimsource), a recetores (dimrec) , a moléculas que vão ligar aos recetores (dimlig) e à localização do recetor (dimlocal).Os valores binding affinity foram expressos em pKi. A base de dados foi curada, os duplicados foram removidos, assim como e valores inconsistentes, como por exemplo, todos as entradas sem estrutura do composto (SMILES). A base de dados tinha 198169 valores de binding affinity. Após a construção da base de dados, procedeu-se à escolha específica de dados para construção do modelo QSAR/QSPR, de modo a ter um bom conjunto de dados. Os critérios de escolha, foram os seguintes: os recetores tinham que estar localizados no cérebro (neurorecetores humano), e tinham que se ligar a mais de 50 ligandos. No final, o conjunto de dados tinha 43901 valores de binding affinity entre 0 e 1 para 53 neurorecetores. O conjunto de dados obtido foi dividido em 75% para o conjunto de treino e 25% para conjunto de teste, isto de forma aleatória para cada neurorecetor. Os descritores moleculares para os compostos do conjunto de dados foram desenvolvidos com a ajuda de duas ferramentas OpenBabel e CDK que foram desenvolvidas para perceber a linguagem dos dados químicos. Essas ferramentas permitem procurar, converter, analisar e armazenar dados de modelação molecular e as caraterísticas bioquímicas. Uma molécula pode ser codificada através de fingerprints que possibilita a determinação da similaridade entre duas moléculas. Existem mais de 5000 descritores, como por exemplo, a massa molecular, o número de átomos, entre outros. Para a construção do modelo, foram usados três métodos combinados de machine learning (Random Forests, Support Vector Machines (SVM) e Least Absolute Shrinkage and Selection Operator (LASSO)), na escolha das variáveis mais importantes, ou seja, as que descrevem melhor a ligação entre os ligandos e os neurorecetores. Os métodos usados foram Random Forests e LASSO e depois posteriormente procedeu-se à validação com obtenção de valores de RMSE , do coeficiente de correlação de Pearson e da percentagem da variação explicada (PVE) com a ajuda do SVM e LASSO. O método de SVM reconhece padrões e baseia-se em encontrar, nos dados , instâncias que são capazes de maximizar a separação entre dois pontos. O método Random Forests, reduz a variância da função da predição estimada, usando para esse feito, árvores de regressão e faz média do resultado. O número de árvores usadas foram 500,enquanto LASSO é um método de regressão que envolve uma penalização do tamanho absoluto dos coeficientes de regressão, em que alguns casos serão zero. Em relação à escolha do conjunto de dados, foi usado o método de cross-validation, em que cada combinação de métodos foram corridos cinco vezes e por cada corrida o conjunto de treino foi divido em 75%, para o conjunto de treino e 25% para o conjunto de teste de forma aleatória, para cada neurorecetor. Os resultados obtidos demonstraram que em todos os métodos, com poucas variáveis, os valores de RMSE são elevados, mas chega a um patamar em que quantas mais variáveis são usadas, maior é o valor de RMSE. No entanto, esses valores variam consoante o recetor, pois existem recetores com um baixo valor de RMSE com 4 variáveis, no entanto, temos outros que são necessários 100 variáveis para se obter um valor baixo de RMSE. O número de variáveis mais importantes para o modelo varia entre 4 e 100. A melhor combinação de métodos em que foram obtidos os melhores resultados para os modelos foram o Random Forests e SVM, apesar de haver três modelos que obtiveram melhores resultados com outro método (LASSO e SVM) . Para validação do modelo foi usado o conjunto de teste que tem 25% dos dados do conjunto de dados iniciais. O RMSE é um bom indicador da qualidade do modelo, mede a distância entre os dados observados e os dados que fazem o modelo. O maior valor de RMSE para o conjunto de treino foi de 0.214. Em geral estamos na presença de bons modelos, no entanto, alguns modelos apresentaram resultados fracos, em que os valores de RMSE são elevados, os valores de PVE e de correlação são baixos e os resultados entre os dados de treino e os dados de testes são muito diferentes, isso acontece na maior partes das vezes quando o número de dados no conjunto de dados é inferior a 112. Para ter um bom modelo, o conjunto de dados precisa de ter mais de 112 entradas, ou seja, é preciso mais de 112 valores de binding affinity para poder construir um bom modelo para esse neurorecetor de modo a prever corretamente valores de binding affinity com outros neurotransmissores . Em relação à correlação que nos indica a força e direção da relação linear entre variáveis, o valor menor é 0, o que indica um fraca correlação, mas em média os valores da correlação são acima de 0.50, o que indica uma forte correlação. A outra medida usada para medir a qualidade do modelo obtido foi a percentagem de variação explicada (PVE) , que em geral está acima do 50%. Os resultados do conjunto de teste foram próximos aos obtidos com o conjunto de treino. Como por exemplo, no caso do modelo para o transportador de seratonina (5-HT transporter), em que o valor de RMSE é 0.216 e a percentagem de variação explicada de 51.1 e para a correlação 0.711, que em comparação com o conjunto de treino que foram 0.196, 57.3 e 0.759 respetivamente são próximos. Os melhores modelos têm os valores de RMSE entre 0.087 e 0.201, em que o PVE está acima de 50% e a correlação está acima de 0.50. Relativamente à selecão dos descritores moleculares mais importantes para a construção do modelo, verificou-se que cerca de 46 descritores moleculares foram escolhidos em pelo menos 20 recetores, isso demonstra que esses descritores são necessários para construir um bom modelo. No entanto, constatou-se que 6 descritores foram selecionados em todos os recetores, a massa molecular, a refratividade molar, o logaritmo do coeficiente partição da água/octanol, o número de ligações simples e aromáticas, demonstrando que estes descritores são os mais importantes para termos um bom modelo. Verificou-se também que os mesmos descritores servem para identificar as mesmas famílias de recetores. Futuramente este modelo pode ser usado na fase inicial da descoberta e produção de novas drogas, pois este modelo consegue verificar a viabilidade dessa droga antes de se proceder a ensaio experimental , através da previsão de valores de binding affinity entre a droga e o seu alvo. O desenvolvimento de uma aplicação online onde se coloca o composto e essa aplicação verifica se o composto se vai ligar a algum neurorecetor
    corecore