256 research outputs found

    Learning with multiple pairwise kernels for drug bioactivity prediction

    Get PDF
    Motivation: Many inference problems in bioinformatics, including drug bioactivity prediction, can be formulated as pairwise learning problems, in which one is interested in making predictions for pairs of objects, e.g. drugs and their targets. Kernel-based approaches have emerged as powerful tools for solving problems of that kind, and especially multiple kernel learning (MKL) offers promising benefits as it enables integrating various types of complex biomedical information sources in the form of kernels, along with learning their importance for the prediction task. However, the immense size of pairwise kernel spaces remains a major bottleneck, making the existing MKL algorithms computationally infeasible even for small number of input pairs. Results: We introduce pairwiseMKL, the first method for time- and memory-efficient learning with multiple pairwise kernels. pairwiseMKL first determines the mixture weights of the input pairwise kernels, and then learns the pairwise prediction function. Both steps are performed efficiently without explicit computation of the massive pairwise matrices, therefore making the method applicable to solving large pairwise learning problems. We demonstrate the performance of pairwiseMKL in two related tasks of quantitative drug bioactivity prediction using up to 167 995 bioactivity measurements and 3120 pairwise kernels: (i) prediction of anticancer efficacy of drug compounds across a large panel of cancer cell lines; and (ii) prediction of target profiles of anticancer compounds across their kinome-wide target spaces. We show that pairwiseMKL provides accurate predictions using sparse solutions in terms of selected kernels, and therefore it automatically identifies also data sources relevant for the prediction problem.Peer reviewe

    Learning with multiple pairwise kernels for drug bioactivity prediction

    Get PDF
    Motivation: Many inference problems in bioinformatics, including drug bioactivity prediction, can be formulated as pairwise learning problems, in which one is interested in making predictions for pairs of objects, e.g. drugs and their targets. Kernel-based approaches have emerged as powerful tools for solving problems of that kind, and especially multiple kernel learning (MKL) offers promising benefits as it enables integrating various types of complex biomedical information sources in the form of kernels, along with learning their importance for the prediction task. However, the immense size of pairwise kernel spaces remains a major bottleneck, making the existing MKL algorithms computationally infeasible even for small number of input pairs.Results: We introduce pairwiseMKL, the first method for time- and memory-efficient learning with multiple pairwise kernels. pairwiseMKL first determines the mixture weights of the input pairwise kernels, and then learns the pairwise prediction function. Both steps are performed efficiently without explicit computation of the massive pairwise matrices, therefore making the method applicable to solving large pairwise learning problems. We demonstrate the performance of pairwiseMKL in two related tasks of quantitative drug bioactivity prediction using up to 167 995 bioactivity measurements and 3120 pairwise kernels: (i) prediction of anticancer efficacy of drug compounds across a large panel of cancer cell lines; and (ii) prediction of target profiles of anticancer compounds across their kinome-wide target spaces. We show that pairwiseMKL provides accurate predictions using sparse solutions in terms of selected kernels, and therefore it automatically identifies also data sources relevant for the prediction problem

    VB-MK-LMF: Fusion of drugs, targets and interactions using Variational Bayesian Multiple Kernel Logistic Matrix Factorization

    Get PDF
    Background Computational fusion approaches to drug-target interaction (DTI) prediction, capable of utilizing multiple sources of background knowledge, were reported to achieve superior predictive performance in multiple studies. Other studies showed that specificities of the DTI task, such as weighting the observations and focusing the side information are also vital for reaching top performance. Method We present Variational Bayesian Multiple Kernel Logistic Matrix Factorization (VB-MK-LMF), which unifies the advantages of (1) multiple kernel learning, (2) weighted observations, (3) graph Laplacian regularization, and (4) explicit modeling of probabilities of binary drug-target interactions. Results VB-MK-LMF achieves significantly better predictive performance in standard benchmarks compared to state-of-the-art methods, which can be traced back to multiple factors. The systematic evaluation of the effect of multiple kernels confirm their benefits, but also highlights the limitations of linear kernel combinations, already recognized in other fields. The analysis of the effect of prior kernels using varying sample sizes sheds light on the balance of data and knowledge in DTI tasks and on the rate at which the effect of priors vanishes. This also shows the existence of ``small sample size'' regions where using side information offers significant gains. Alongside favorable predictive performance, a notable property of MF methods is that they provide a unified space for drugs and targets using latent representations. Compared to earlier studies, the dimensionality of this space proved to be surprisingly low, which makes the latent representations constructed by VB-ML-LMF especially well-suited for visual analytics. The probabilistic nature of the predictions allows the calculation of the expected values of hits in functionally relevant sets, which we demonstrate by predicting drug promiscuity. The variational Bayesian approximation is also implemented for general purpose graphics processing units yielding significantly improved computational time. Conclusion In standard benchmarks, VB-MK-LMF shows significantly improved predictive performance in a wide range of settings. Beyond these benchmarks, another contribution of our work is highlighting and providing estimates for further pharmaceutically relevant quantities, such as promiscuity, druggability and total number of interactions. Availability Data and code are available at http://bioinformatics.mit.bme.hu

    Modeling CNS receptor binding profiles of small molecules

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Biologia Computacional), Universidade de Lisboa, Faculdade de Ciências 2015A identificação de novos compostos ativos, passíveis de serem aplicados no tratamento de doenças, é a principal preocupação da indústria farmacêutica, que se foca em encontrar compostos de atuação altamente específica, evitando assim a existência de efeitos secundários. Contudo, este processo nem sempre é fácil, pois tem sido comprovado que muitas moléculas têm como alvo mais do que um recetor. Estas são moléculas promiscuas que ao se ligarem a diferentes recetores podem levar ao surgimento de efeitos inesperados. Este problema recebe o nome de polifarmacologia e muitos estudos têm sido desenvolvidos no seu âmbito. Na primeira parte deste trabalho, tentou-se estabelecer uma relação entre os perfis de ligação de moléculas a diferentes recetores e a sua relação com a semelhança entre as sequências proteicas dos mesmos. Verificou-se que não existe um padrão constante e que, na maioria dos casos, as moléculas apresentam perfis de ligação diferentes, mesmo para recetores muito semelhantes. Este resultado mostrou que a polifarmacologia é, de facto, um problema complexo e que é necessário investir em diferentes tipos de informação para prever perfis de ligação e evitar o surgimento de efeitos secundários indesejados. Para prever todos os efeitos resultantes da atuação de uma molécula, é necessário ter um conhecimento prévio acerca das interações entre esta e os recetores, conhecer os tipos de ligações e também as suas forças. Uma forma de obter este conhecimento passa por experiências laboratoriais, no entanto, estes são processos muito dispendiosos e que consomem muito tempo. Uma forma mais acessível de abordar esta questão foi criando modelos computacionais capazes de prever possíveis interações entre moléculas e recetores com o objetivo de identificar moléculas alvo para a realização dos ensaios experimentais, aumentando assim a probabilidade de sucesso. Muitos destes modelos computacionais são baseados em métodos de aprendizagem automática, abordagens muito comuns em informática. Estes métodos baseiam-se num processo de aprendizagem de entidades, tendo como fundamento as suas caraterísticas já conhecidas, para criar um modelo capaz de classificar novas entidades. O sucesso destas técnicas tem sido comprovado em vários contextos da bioinformática e são uma aposta promissora na predição de interações entre moléculas e recetores. Com este trabalho, pretendeu-se utilizar uma abordagem de aprendizagem automática para desenvolver um modelo de predição de interações entre moléculas e recetores, tendo por base as semelhanças estruturais entre as moléculas e os seus respetivos níveis de atividade, já conhecidos, para recetores de serotonina e dopamina. O interesse nestas duas famílias de recetores recai no facto de fazerem parte da superfamília de recetores acoplados à proteína G, uma das mais importantes presentes no Sistema Nervoso Central. Para além disso, é conhecido o envolvimento de recetores de serotonina e dopamina em doenças neurológicas, como a doença de Parkinson e o Distúrbio de Défice de Atenção e Hiperatividade. Assim, surge a necessidade de identificar, para estes recetores, moléculas candidatas a serem utilizadas como ponto de partida para o desenvolvimento de novos fármacos, a serem aplicados no tratamento de algumas destas doenças neurológicas. Como técnica de aprendizagem automática, optou-se pela utilização de um classificador de Naive Bayes, um método de aprendizagem supervisionada baseado no Teorema de Bayes e que tem como pressuposto a independência entre as características que classificam uma entidade. Para obter a semelhança estrutural entre as moléculas foi utilizado o NAMS (Non-contiguous Atom Matching Structural Similarity), um método que identifica o alinhamento ótimo entre os átomos de duas moléculas tendo em conta, não só os seus perfis topológicos, mas também os próprios átomos e as características das ligações entre os mesmos. Para a concretização deste trabalho foi obtida informação acerca de moléculas com ligações, já identificadas, a recetores de serotonina e dopamina, tendo estes dados sido recolhidos com base em informação presente no ChEMBL. Adicionalmente, foram também recolhidos os valores de bioatividade de cada molécula para cada recetor, sobre a forma de Kis, as constantes de inibição que quantificam as forças de interação entre as moléculas e os recetores em estudo. No decorrer deste trabalho, foram construídos três modelos de predição de interações molécula-recetor. Estes incluíram informação relativa a semelhanças estruturais entre moléculas e os seus níveis de bioatividade, perfis de ligação de moléculas para com diferentes recetores e uma combinação de toda a informação anterior. O primeiro modelo de predição foi construído tendo em conta apenas a informação relativa a semelhanças estruturais entre as moléculas e os seus níveis de atividade. Para isso, foram identificadas, para cada recetor, moléculas kernel, isto é, moléculas muito ativas e estruturalmente distintas das restantes, com as quais as moléculas em teste são comparadas. Tendo por base as suas semelhanças estruturais a cada molécula kernel, as probabilidades de ligação a cada recetor são então calculadas. Apesar deste modelo ter demonstrado resultados promissores durante o processo de validação, uma elevada taxa de falsos negativos mostrou que se trata de um modelo conservador e que deve ser aplicado quando se pretendem resultados mais precisos. O segundo modelo foi construído de modo a verificar se a informação relativa ao comportamento de ligação de uma molécula para com outros recetores pode ser relevante na predição da sua interação com novos recetores. Para isso, foram tidas em conta apenas as moléculas comuns entre recetores e os seus níveis de bioatividade. Com esta informação, foram construídas duas bases de dados contendo as probabilidades usadas aquando do cálculo das probabilidades de interação entre as moléculas em teste e os recetores. Durante o processo de validação, este modelo evidenciou melhores resultados do que o primeiro modelo. Contudo, estes foram considerados como devidos a uma sobrerrepresentação de moléculas ativas nos dados recolhidos. No entanto, não querendo descartar a informação proveniente de outros recetores, os dois modelos foram integrados para construir o terceiro modelo. O terceiro modelo, integrando informação relativa a semelhanças estruturais entre moléculas, os seus níveis de bioatividade e informação relativa a outros recetores, foi o que demostrou melhores resultados, atingindo o maior nível de acuidade. Para além disso, foi também o modelo que mostrou um maior equilíbrio entre as proporções de falsos positivos e falsos negativos. Consequentemente, este modelo mostrou ser a melhor opção na identificação de potenciais interações entre um conjunto de moléculas e recetores de serotonina e dopamina. Numa tentativa de aumentar o desempenho dos modelos propostos, tentou-se identificar, para cada recetor, um valor de probabilidade mais preciso a partir do qual uma molécula deveria ser classificada como ativa. No entanto, apesar de aumentar a especificidade e precisão dos modelos propostos, este ajustamento não conduziu a um melhor desempenho. Em conjunto, os resultados obtidos mostraram que o classificador de Naive Bayes é um método passível de ser utilizado na construção de modelos de predição de interações entre moléculas e recetores. Também a ferramenta NAMS demostrou um bom desempenho durante a comparação estrutural de moléculas, o que se tornou evidente pelos resultados obtidos durante o processo de validação dos modelos. Adicionalmente, verificou-se que a utilização da semelhança estrutural entre moléculas em conjunto com os seus níveis de bioatividade é uma abordagem promissora na identificação de moléculas candidatas a validação experimental. A nível global, verificámos que a integração de informação de diferentes tipos continua a ser a melhor alternativa na previsão de perfis de ligação entre moléculas e recetores. Para além disso, comprovámos, mais uma vez, que os métodos de aprendizagem automática são uma forma eficiente e pouco dispendiosa de selecionar novos compostos candidatos para validação in vitro.Pharmaceutical industry has been focused on finding highly selective single target drugs. However, different studies have been showing that this is not always possible since many molecules can bind to more than one receptor. These molecules are described as promiscuous compounds and their polypharmacological behavior has been case of many studies. In the first part of our work, we have investigated the relationship between molecules binding profiles and the sequence similarity of their target receptors. We have found different patterns but no evident relationship was identified since many molecules present different binding patterns for different receptors, even when they are very closed. These results show the level of complexity inherent to pharmacology and the importance of finding new methods to predict molecules binding profiles. When binding to different receptors, a drug can led to unpredictable side-effects which is a limitation in case of disease treatment. To avoid side-effects it is import to get knowledge on molecules’ binding profiles. With this purpose, different approaches have been developed to predict interactions between molecules and receptors. Many of these approaches rely on the use of machine learning techniques to predict drug-target interactions. These techniques have been widely used in informatics and have already shown their contribute to bioinformatics. In this work, we have used a machine learning method to predict interactions between molecules and serotonin and dopamine receptors, two of the most important families of receptors present in the Central Nervous System. To construct our model, we have used the Naïve Bayes classifier, which is a supervised learning method based on applying Bayes’ Theorem with the assumption of conditional independence between features. We have developed three different models that include co-activity data between receptors, molecular similarity and a combination of these two. Despite the three models have presented promising results, the model integrating all the data has shown to be the one with the best performance. Our results have demonstrated that Naïve Bayes is an efficient method to drug target interactions prediction. Moreover, it was demonstrated that structural similarity between compounds together with their bioactivity levels is a promising approach to identify candidate molecules for further in vitro validation

    Unifying Bioinformatics and Chemoinformatics for Drug Design

    Get PDF

    Artificial intelligence, machine learning, and drug repurposing in cancer

    Get PDF
    Introduction: Drug repurposing provides a cost-effective strategy to re-use approved drugs for new medical indications. Several machine learning (ML) and artificial intelligence (AI) approaches have been developed for systematic identification of drug repurposing leads based on big data resources, hence further accelerating and de-risking the drug development process by computational means. Areas covered: The authors focus on supervised ML and AI methods that make use of publicly available databases and information resources. While most of the example applications are in the field of anticancer drug therapies, the methods and resources reviewed are widely applicable also to other indications including COVID-19 treatment. A particular emphasis is placed on the use of comprehensive target activity profiles that enable a systematic repurposing process by extending the target profile of drugs to include potent off-targets with therapeutic potential for a new indication. Expert opinion: The scarcity of clinical patient data and the current focus on genetic aberrations as primary drug targets may limit the performance of anticancer drug repurposing approaches that rely solely on genomics-based information. Functional testing of cancer patient cells exposed to a large number of targeted therapies and their combinations provides an additional source of repurposing information for tissue-aware AI approaches.Peer reviewe

    Computational-experimental approach to drug-target interaction mapping: A case study on kinase inhibitors

    Get PDF
    Due to relatively high costs and labor required for experimental profiling of the full target space of chemical compounds, various machine learning models have been proposed as cost-effective means to advance this process in terms of predicting the most potent compound-target interactions for subsequent verification. However, most of the model predictions lack direct experimental validation in the laboratory, making their practical benefits for drug discovery or repurposing applications largely unknown. Here, we therefore introduce and carefully test a systematic computational-experimental framework for the prediction and pre-clinical verification of drug-target interactions using a well-established kernel-based regression algorithm as the prediction model. To evaluate its performance, we first predicted unmeasured binding affinities in a large-scale kinase inhibitor profiling study, and then experimentally tested 100 compound-kinase pairs. The relatively high correlation of 0.77 (p < 0.0001) between the predicted and measured bioactivities supports the potential of the model for filling the experimental gaps in existing compound-target interaction maps. Further, we subjected the model to a more challenging task of predicting target interactions for such a new candidate drug compound that lacks prior binding profile information. As a specific case study, we used tivozanib, an investigational VEGF receptor inhibitor with currently unknown off-target profile. Among 7 kinases with high predicted affinity, we experimentally validated 4 new off-targets of tivozanib, namely the Src-family kinases FRK and FYN A, the non-receptor tyrosine kinase ABL1, and the serine/threonine kinase SLK. Our sub-sequent experimental validation protocol effectively avoids any possible information leakage between the training and validation data, and therefore enables rigorous model validation for practical applications. These results demonstrate that the kernel-based modeling approach offers practical benefits for probing novel insights into the mode of action of investigational compounds, and for the identification of new target selectivities for drug repurposing applications
    corecore