11 research outputs found

    QUANTITATIVE STRUCTURE–PHARMACOKINETICS RELATIONSHIP FOR PLASMA PROTEIN BINDING OF NEUTRAL DRUGS

    Get PDF
    Objective: Plasma protein binding (PPB) of drugs is important pharmacokinetic (PK) phenomena controlling the free drug concentration in plasma and the overall PK and pharmacodynamic profile. Prediction of PPB at the very early stages of drug development process is of paramount importance for the success of new drug candidates. The study presents a quantitative structure–pharmacokinetics relationship (QSPkR) modelling of PPB for neutral drugs.Methods: The dataset consists of 117 compounds, described by 138 molecular descriptors. Genetic algorithm and stepwise multiple linear regression are used for variable selection and QSPkR models development. The QSPkRs are evaluated by internal and external validation procedures.Results: A robust, significant and predictive QSPkR with explained variance r2 0.768, cross-validated q2LOO-CV 0.731,and geometric mean fold error of prediction (GMFEP) 1.79 is generated, which is able to predict the extent of PPB for 67.6% of the drugs in the dataset within the 2-fold error of experimental values. A simple empiric rule is proposed for distinguishing between drugs with different binding affinity, which allowed correct classification of 78% of the high binders and 87.5% of the low binders.Conclusions: PPB of neutral drugs is favored by lipophilicity, dipole moment, the presence of substituted aromatic and fused rings and a nine-member ring system, and is disfavored by the presence of aromatic N-atoms. Keywords: Plasma protein binding (PPB), Quantitative structure–pharmacokinetics relationship (QSPkR), In silico prediction, Human serum albumin (HSA), Alpha-1-acid glycoprotein (AGP)

    Good's Buffer Ionic Liquids as Relevant Phase-Forming Components of Self-Buffered Aqueous Biphasic Systems

    Get PDF
    A series of new self-buffering ionic liquids (ILs) based on Good's buffers (GBs) anions and the tetrabutylphosphonium cation ([P4444]+) was here synthesized and characterized. The self-buffering behaviour of the GB-ILs was confirmed by measuring their protonation constants by potentiometry. Further, their ability to form aqueous biphasic systems with the biodegradable potassium citrate salt was evaluated, and further investigated for the extraction of proteins, using bovine serum albumin (BSA) as a model protein. If these ionic structures display self-buffering characteristics as well as a low toxicity towards the luminescent bacteria Vibrio fischeri, they were additionally found to be highly effective in the formation of ABS and in the extraction of BSA - extraction efficiencies of 100% to the IL-rich phase obtained in a single-step. The BSA secondary structure in the aqueous IL-rich solutions was evaluated through infrared spectroscopic studies revealing the protein-friendly nature of the synthesized ILs. Dynamic light scattering (DLS), "COnductor-like Screening MOdel for Real Solvents" (COSMO-RS), and molecular docking studies were finally carried out to better understand the main driving forces of the extraction process. The results suggest that van der Waals and hydrogen-bonding interactions are important driving forces of the protein migration towards the GB-IL-rich phase, while the molecular docking investigations demonstrated a stabilizing effect of the studied ILs over the protein.publishe

    Predicting Proteome-Early Drug Induced Cardiac Toxicity Relationships (Pro-EDICToRs) with Node Overlapping Parameters (NOPs) of a new class of Blood Mass-Spectra graphs

    Get PDF
    The 11th International Electronic Conference on Synthetic Organic Chemistry session Computational ChemistryBlood Serum Proteome-Mass Spectra (SP-MS) may allow detecting Proteome-Early Drug Induced Cardiac Toxicity Relationships (called here Pro-EDICToRs). However, due to the thousands of proteins in the SP identifying general Pro-EDICToRs patterns instead of a single protein marker may represents a more realistic alternative. In this sense, first we introduced a novel Cartesian 2D spectrum graph for SP-MS. Next, we introduced the graph node-overlapping parameters (nopk) to numerically characterize SP-MS using them as inputs to seek a Quantitative Proteome-Toxicity Relationship (QPTR) classifier for Pro-EDICToRs with accuracy higher than 80%. Principal Component Analysis (PCA) on the nopk values present in the QPTR model explains with one factor (F1) the 82.7% of variance. Next, these nopk values were used to construct by the first time a Pro-EDICToRs Complex Network having nodes (samples) linked by edges (similarity between two samples). We compared the topology of two sub-networks (cardiac toxicity and control samples); finding extreme relative differences for the re-linking (P) and Zagreb (M2) indices (9.5 and 54.2 % respectively) out of 11 parameters. We also compared subnetworks with well known ideal random networks including Barabasi-Albert, Kleinberg Small World, Erdos-Renyi, and Epsstein Power Law models. Finally, we proposed Partial Order (PO) schemes of the 115 samples based on LDA-probabilities, F1-scores and/or network node degrees. PCA-CN and LDA-PCA based POs with Tanimoto’s coefficients equal or higher than 0.75 are promising for the study of Pro-EDICToRs. These results shows that simple QPTRs models based on MS graph numerical parameters are an interesting tool for proteome researchThe authors thank projects funded by the Xunta de Galicia (PXIB20304PR and BTF20302PR) and the Ministerio de Sanidad y Consumo (PI061457). González-Díaz H. acknowledges tenure track research position funded by the Program Isidro Parga Pondal, Xunta de Galici

    Inference of binding affinity from neuronal receptors in humans

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2016Only some compounds (e.g. ligands) act as neurotransmitters in the brain, binding to specific neuroreceptors. Understanding the criteria behind why a ligand binds to a particular target in the brain can help design drugs which are more effective. With the help of data-mining techniques, quantitative structure–activity/propriety relationship (QSAR/QSPR(Q (SAR)) models and machine learning methods, a supervised model can be built which can predict binding affinities for any molecule, provided sufficient experimental data is available. Models which can predict binding affinities for specific neuroreceptors were built using three machine learning methods (Random Forests, Support Vector Machines and Least Absolute Shrinkage and Selection Operator) and two sets of molecular descriptors from different chemical toolboxes (Open Babel and CDK). Experimental data was collected to create the database and curated by removing inconsistencies and duplicates. The final dataset had 43901 binding affinity values for 53 human neuroreceptors. In the model building phase, 75% of the dataset was used for training and 25% for validation. The modelling consisted of choosing the most important variables (descriptors) for each neuroreceptor and validating using statistical measures. Random Forests and SVM were the best methods. Random Forests was used to select the most important variables and SVM for the statistical measure. The value of root mean squared error (RMSE) was below 0.214, more than half of the receptors had the percentage of variance explained (PVE) above 50% and Pearson's correlation coefficient was above 0.50, confirming the model had a good fit. Small dataset (below 112 entries) resulted in some models having poor results. RMSE values from validation and modelling parts were similar for the best model resulting in a good therefore can predict the strength of binding between neuroreceptor and neurotransmitter. The values of RMSE for the best models were between 0.087 and 0.201 where the PVE is above 50% and correlation above 0.50. Some molecular descriptors were selected frequently; 46 descriptors appeared in more than 20 neuroreceptors, however only 6 descriptors appeared in all neuroreceptors. The same descriptors are used to identify the same family of neuroreceptors.É importante perceber o critério que determina a ligação entre uma molécula e um recetor específico, em particular no cérebro, onde só alguns compostos atuam como neurotransmissores e ligam-se a neurorecetores especifícos. Os neurotransmissores, dependem da sua estrutura para estabelecerem uma ligação com os neurorecetores. Essa ligação pode ser medida através de valores de binding affinity. É possivel, com ajuda de técnicas de data-mining, métodos de machine learning e de relação quantitativa estrutura-propriedade/atividade (QSAR/QSPR), construir um modelo que consiga prever esses valores de binding affinity, desde que tenhamos toda a informação necessária (propriedades/estrutura da molécula e do neurorecetor e valores de binding affinity). Métodos de QSAR/QSPR foram desenvolvidos para compreender as propriedades das moléculas, prever a sua estrutura, e a relação entre os descritores moleculares da sua estrutura com as suas propriedades. De modo a prever valores de binding affinity entre neurotransmissores e neurorecetores, neste trabalho foi criada uma base de dados , com seis dimensões referentes a espécies de animais (dimspecie), a referências bibliográficas (dimref) , a diferentes fontes de dados utilizadas para fazer a base de dados (dimsource), a recetores (dimrec) , a moléculas que vão ligar aos recetores (dimlig) e à localização do recetor (dimlocal).Os valores binding affinity foram expressos em pKi. A base de dados foi curada, os duplicados foram removidos, assim como e valores inconsistentes, como por exemplo, todos as entradas sem estrutura do composto (SMILES). A base de dados tinha 198169 valores de binding affinity. Após a construção da base de dados, procedeu-se à escolha específica de dados para construção do modelo QSAR/QSPR, de modo a ter um bom conjunto de dados. Os critérios de escolha, foram os seguintes: os recetores tinham que estar localizados no cérebro (neurorecetores humano), e tinham que se ligar a mais de 50 ligandos. No final, o conjunto de dados tinha 43901 valores de binding affinity entre 0 e 1 para 53 neurorecetores. O conjunto de dados obtido foi dividido em 75% para o conjunto de treino e 25% para conjunto de teste, isto de forma aleatória para cada neurorecetor. Os descritores moleculares para os compostos do conjunto de dados foram desenvolvidos com a ajuda de duas ferramentas OpenBabel e CDK que foram desenvolvidas para perceber a linguagem dos dados químicos. Essas ferramentas permitem procurar, converter, analisar e armazenar dados de modelação molecular e as caraterísticas bioquímicas. Uma molécula pode ser codificada através de fingerprints que possibilita a determinação da similaridade entre duas moléculas. Existem mais de 5000 descritores, como por exemplo, a massa molecular, o número de átomos, entre outros. Para a construção do modelo, foram usados três métodos combinados de machine learning (Random Forests, Support Vector Machines (SVM) e Least Absolute Shrinkage and Selection Operator (LASSO)), na escolha das variáveis mais importantes, ou seja, as que descrevem melhor a ligação entre os ligandos e os neurorecetores. Os métodos usados foram Random Forests e LASSO e depois posteriormente procedeu-se à validação com obtenção de valores de RMSE , do coeficiente de correlação de Pearson e da percentagem da variação explicada (PVE) com a ajuda do SVM e LASSO. O método de SVM reconhece padrões e baseia-se em encontrar, nos dados , instâncias que são capazes de maximizar a separação entre dois pontos. O método Random Forests, reduz a variância da função da predição estimada, usando para esse feito, árvores de regressão e faz média do resultado. O número de árvores usadas foram 500,enquanto LASSO é um método de regressão que envolve uma penalização do tamanho absoluto dos coeficientes de regressão, em que alguns casos serão zero. Em relação à escolha do conjunto de dados, foi usado o método de cross-validation, em que cada combinação de métodos foram corridos cinco vezes e por cada corrida o conjunto de treino foi divido em 75%, para o conjunto de treino e 25% para o conjunto de teste de forma aleatória, para cada neurorecetor. Os resultados obtidos demonstraram que em todos os métodos, com poucas variáveis, os valores de RMSE são elevados, mas chega a um patamar em que quantas mais variáveis são usadas, maior é o valor de RMSE. No entanto, esses valores variam consoante o recetor, pois existem recetores com um baixo valor de RMSE com 4 variáveis, no entanto, temos outros que são necessários 100 variáveis para se obter um valor baixo de RMSE. O número de variáveis mais importantes para o modelo varia entre 4 e 100. A melhor combinação de métodos em que foram obtidos os melhores resultados para os modelos foram o Random Forests e SVM, apesar de haver três modelos que obtiveram melhores resultados com outro método (LASSO e SVM) . Para validação do modelo foi usado o conjunto de teste que tem 25% dos dados do conjunto de dados iniciais. O RMSE é um bom indicador da qualidade do modelo, mede a distância entre os dados observados e os dados que fazem o modelo. O maior valor de RMSE para o conjunto de treino foi de 0.214. Em geral estamos na presença de bons modelos, no entanto, alguns modelos apresentaram resultados fracos, em que os valores de RMSE são elevados, os valores de PVE e de correlação são baixos e os resultados entre os dados de treino e os dados de testes são muito diferentes, isso acontece na maior partes das vezes quando o número de dados no conjunto de dados é inferior a 112. Para ter um bom modelo, o conjunto de dados precisa de ter mais de 112 entradas, ou seja, é preciso mais de 112 valores de binding affinity para poder construir um bom modelo para esse neurorecetor de modo a prever corretamente valores de binding affinity com outros neurotransmissores . Em relação à correlação que nos indica a força e direção da relação linear entre variáveis, o valor menor é 0, o que indica um fraca correlação, mas em média os valores da correlação são acima de 0.50, o que indica uma forte correlação. A outra medida usada para medir a qualidade do modelo obtido foi a percentagem de variação explicada (PVE) , que em geral está acima do 50%. Os resultados do conjunto de teste foram próximos aos obtidos com o conjunto de treino. Como por exemplo, no caso do modelo para o transportador de seratonina (5-HT transporter), em que o valor de RMSE é 0.216 e a percentagem de variação explicada de 51.1 e para a correlação 0.711, que em comparação com o conjunto de treino que foram 0.196, 57.3 e 0.759 respetivamente são próximos. Os melhores modelos têm os valores de RMSE entre 0.087 e 0.201, em que o PVE está acima de 50% e a correlação está acima de 0.50. Relativamente à selecão dos descritores moleculares mais importantes para a construção do modelo, verificou-se que cerca de 46 descritores moleculares foram escolhidos em pelo menos 20 recetores, isso demonstra que esses descritores são necessários para construir um bom modelo. No entanto, constatou-se que 6 descritores foram selecionados em todos os recetores, a massa molecular, a refratividade molar, o logaritmo do coeficiente partição da água/octanol, o número de ligações simples e aromáticas, demonstrando que estes descritores são os mais importantes para termos um bom modelo. Verificou-se também que os mesmos descritores servem para identificar as mesmas famílias de recetores. Futuramente este modelo pode ser usado na fase inicial da descoberta e produção de novas drogas, pois este modelo consegue verificar a viabilidade dessa droga antes de se proceder a ensaio experimental , através da previsão de valores de binding affinity entre a droga e o seu alvo. O desenvolvimento de uma aplicação online onde se coloca o composto e essa aplicação verifica se o composto se vai ligar a algum neurorecetor

    Review of QSAR Models and Software Tools for predicting Biokinetic Properties

    Get PDF
    In the assessment of industrial chemicals, cosmetic ingredients, and active substances in pesticides and biocides, metabolites and degradates are rarely tested for their toxicologcal effects in mammals. In the interests of animal welfare and cost-effectiveness, alternatives to animal testing are needed in the evaluation of these types of chemicals. In this report we review the current status of various types of in silico estimation methods for Absorption, Distribution, Metabolism and Excretion (ADME) properties, which are often important in discriminating between the toxicological profiles of parent compounds and their metabolites/degradation products. The review was performed in a broad sense, with emphasis on QSARs and rule-based approaches and their applicability to estimation of oral bioavailability, human intestinal absorption, blood-brain barrier penetration, plasma protein binding, metabolism and. This revealed a vast and rapidly growing literature and a range of software tools. While it is difficult to give firm conclusions on the applicability of such tools, it is clear that many have been developed with pharmaceutical applications in mind, and as such may not be applicable to other types of chemicals (this would require further research investigation). On the other hand, a range of predictive methodologies have been explored and found promising, so there is merit in pursuing their applicability in the assessment of other types of chemicals and products. Many of the software tools are not transparent in terms of their predictive algorithms or underlying datasets. However, the literature identifies a set of commonly used descriptors that have been found useful in ADME prediction, so further research and model development activities could be based on such studies.JRC.DG.I.6-Systems toxicolog

    Methods for the Analysis of Matched Molecular Pairs and Chemical Space Representations

    Get PDF
    Compound optimization is a complex process where different properties are optimized to increase the biological activity and therapeutic effects of a molecule. Frequently, the structure of molecules is modified in order to improve their property values. Therefore, computational analysis of the effects of structure modifications on property values is of great importance for the drug discovery process. It is also essential to analyze chemical space, i.e., the set of all chemically feasible molecules, in order to find subsets of molecules that display favorable property values. This thesis aims to expand the computational repertoire to analyze the effect of structure alterations and visualize chemical space. Matched molecular pairs are defined as pairs of compounds that share a large common substructure and only differ by a small chemical transformation. They have been frequently used to study property changes caused by structure modifications. These analyses are expanded in this thesis by studying the effect of chemical transformations on the ionization state and ligand efficiency, both measures of great importance in drug design. Additionally, novel matched molecular pairs based on retrosynthetic rules are developed to increase their utility for prospective use of chemical transformations in compound optimization. Further, new methods based on matched molecular pairs are described to obtain preliminary SAR information of screening hit compounds and predict the potency change caused by a chemical transformation. Visualizations of chemical space are introduced to aid compound optimization efforts. First, principal component plots are used to rationalize a matched molecular pair based multi-objective compound optimization procedure. Then, star coordinate and parallel coordinate plots are introduced to analyze drug-like subspaces, where compounds with favorable property values can be found. Finally, a novel network-based visualization of high-dimensional property space is developed. Concluding, the applications developed in this thesis expand the methodological spectrum of computer-aided compound optimization

    Statistical learning approaches for predicting pharmacological properties of pharmaceutical agents

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH
    corecore