84 research outputs found

    Machine learning methods for quantitative structure-property relationship modeling

    Get PDF
    Tese de doutoramento, Informática (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2014Due to the high rate of new compounds discovered each day and the morosity/cost of experimental measurements there will always be a significant gap between the number of known chemical compounds and the amount of chemical compounds for which experimental properties are available. This research work is motivated by the fact that the development of new methods for predicting properties and organize huge collections of molecules to reveal certain chemical categories/patterns and select diverse/representative samples for exploratory experiments are becoming essential. This work aims to increase the capability to predict physical, chemical and biological properties, using data mining methods applied to complex non-homogeneous data (chemical structures), for large information repositories. In the first phase of this work, current methodologies in quantitative structure-property modelling were studied. These methodologies attempt to relate a set of selected structure-derived features of a compound to its property using model-based learning. This work focused on solving major issues identified when predicting properties of chemical compounds and on the solutions explored using different molecular representations, feature selection techniques and data mining approaches. In this context, an innovative hybrid approach was proposed in order to improve the prediction power and comprehensibility of QSPR/QSAR problems using Random Forests for feature selection. It is acknowledged that, in general, similar molecules tend to have similar properties; therefore, on the second phase of this work, an instance-based machine learning methodology for predicting properties of compounds using the similarity-based molecular space was developed. However, this type of methodology requires the quantification of structural similarity between molecules, which is often subjective, ambiguous and relies upon comparative judgements, and consequently, there is currently no absolute standard of molecular similarity. In this context, a new similarity method was developed, the non-contiguous atom matching (NAMS), based on the optimal atom alignment using pairwise matching algorithms that take into account both topological profiles and atoms/bonds characteristics. NAMS can then be used for property inference over the molecular metric space using ordinary kriging in order to obtain robust and interpretable predictive results, providing a better understanding of the underlying relationship structure-property.Devido ao crescimento exponencial do número de compostos químicos descobertos diariamente e à morosidade/custo de medições experimentais, existe uma diferença significativa entre o número de compostos químicos conhecidos e a quantidade de compostos para os quais estão disponíveis propriedades experimentais. O desenvolvimento de novos métodos para a previsão de propriedades e organização de grandes coleções de moléculas que permitam revelar certas categorias/padrões químicos e selecionar amostras diversas/representativas para estudos exploratórios estão a tornar-se essenciais. Este trabalho tem como objetivo melhorar a capacidade de prever propriedades físicas, químicas e biológicas, através de métodos de aprendizagem automática aplicados a dados complexos não homogeneos (estruturas químicas), para grandes repositórios de informação. Numa primeira fase deste trabalho, foi feito o estudo de metodologias atualmente aplicadas para a modelação quantitativa entre estruturapropriedades. Estas metodologias tentam relacionar um conjunto seleccionado de descritores estruturais de uma molécula com as suas propriedades, utilizando uma abordagem baseada em modelos. Este trabalho centrou-se em solucionar as principais dificuldades identificadas na previsão de propriedades de compostos químicos e nas soluções exploradas utilizando diferentes representações moleculares, técnicas de seleção de descritores e abordagens de aprendizagem automática. Neste contexto, foi proposta uma abordagem híbrida inovadora para melhorar o capacidade de previsão e compreensão de problemas QSPR/QSAR utilizando o algoritmo "Random Forests" (Florestas Aleatórias) para seleção de descritores. É reconhecido que, em geral, moléculas semelhantes tendem a ter propriedades semelhantes; assim, numa segunda fase deste trabalho foi desenvolvida uma metodologia de aprendizagem automática baseada em instâncias para a previsão de propriedades de compostos químicos utilizando o espaço métrico construído a partir da semelhança estrutural entre moléculas. No entanto, este tipo de metodologia requer a quantificação de semelhança estrutural entre moléculas, o que é muitas vezes uma tarefa subjetiva, ambígua e dependente de julgamentos comparativos e, consequentemente, não existe atualmente nenhum padrão absoluto para definir semelhança molecular. Neste âmbito, foi desenvolvido um novo método de semelhança molecular, o “Non-Contiguous Atom Matching Structural Similarity” (NAMS), que se baseia no alinhamento de átomos utilizando algoritmos de emparelhamento que têm em conta os perfis topológicos das ligações e as características dos átomos e ligações. O espaço métrico molecular construído utilizando o NAMS pode ser aplicado à inferência de propriedades usando uma técnica de interpolação espacial, a "krigagem", que tem em conta a relação espacial entre as instâncias, com o objetivo de se obter uma previsão consistente e interpretável, proporcionando uma melhor compreensão da relação entre estrutura-propriedades.Fundação para a Ciência e a Tecnologia (FCT

    Predicting Skin Permeability by means of Computational Approaches : Reliability and Caveats in Pharmaceutical Studies

    Get PDF
    © 2019 American Chemical Society.The skin is the main barrier between the internal body environment and the external one. The characteristics of this barrier and its properties are able to modify and affect drug delivery and chemical toxicity parameters. Therefore, it is not surprising that permeability of many different compounds has been measured through several in vitro and in vivo techniques. Moreover, many different in silico approaches have been used to identify the correlation between the structure of the permeants and their permeability, to reproduce the skin behavior, and to predict the ability of specific chemicals to permeate this barrier. A significant number of issues, like interlaboratory variability, experimental conditions, data set building rationales, and skin site of origin and hydration, still prevent us from obtaining a definitive predictive skin permeability model. This review wants to show the main advances and the principal approaches in computational methods used to predict this property, to enlighten the main issues that have arisen, and to address the challenges to develop in future research.Peer reviewedFinal Accepted Versio

    Visual analytics in cheminformatics: user-supervised descriptor selection for QSAR methods

    Get PDF
    The design of QSAR/QSPR models is a challenging problem, where the selection of the most relevant descriptors constitutes a key step of the process. Several feature selection methods that address this step are concentrated on statistical associations among descriptors and target properties, whereas the chemical knowledge is left out of the analysis. For this reason, the interpretability and generality of the QSAR/QSPR models obtained by these feature selection methods are drastically affected. Therefore, an approach for integrating domain expert?s knowledge in the selection process is needed for increase the confidence in the final set of descriptors.Fil: Martínez, María Jimena. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Ponzoni, Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Diaz, Monica Fatima. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; ArgentinaFil: Vazquez, Gustavo Esteban. Universidad Católica del Uruguay. Facultad de Ingeniería y Tecnologías; Uruguay. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Soto, Axel Juan. Dalhousie University. Faculty of Computer Science; Canadá. Consejo Nacional de Investigaciones Científicas y Técnicas; Argentin

    Decrypting strong and weak single-walled carbon nanotubes interactions with mitochondrial voltage-dependent anion channels using molecular docking and perturbation theory

    Get PDF
    [Abstract] The current molecular docking study provided the Free Energy of Binding (FEB) for the interaction (nanotoxicity) between VDAC mitochondrial channels of three species (VDAC1-Mus musculus, VDAC1-Homo sapiens, VDAC2-Danio rerio) with SWCNT-H, SWCNT-OH, SWCNT-COOH carbon nanotubes. The general results showed that the FEB values were statistically more negative (p  (SWCNT-VDAC1-Mus musculus) > (SWCNT-VDAC1-Homo sapiens) > (ATP-VDAC). More negative FEB values for SWCNT-COOH and OH were found in VDAC2-Danio rerio when compared with VDAC1-Mus musculus and VDAC1-Homo sapiens (p  r2 > 0.97) was observed between n-Hamada index and VDAC nanotoxicity (or FEB) for the zigzag topologies of SWCNT-COOH and SWCNT-OH. Predictive Nanoparticles-Quantitative-Structure Binding-Relationship models (nano-QSBR) for strong and weak SWCNT-VDAC docking interactions were performed using Perturbation Theory, regression and classification models. Thus, 405 SWCNT-VDAC interactions were predicted using a nano-PT-QSBR classifications model with high accuracy, specificity, and sensitivity (73–98%) in training and validation series, and a maximum AUROC value of 0.978. In addition, the best regression model was obtained with Random Forest (R2 of 0.833, RMSE of 0.0844), suggesting an excellent potential to predict SWCNT-VDAC channel nanotoxicity.Brasil. Conselho Nacional de Desenvolvimento Científico e Tecnológico; 552131/2011-3Brasil. Conselho Nacional de Desenvolvimento Científico e Tecnológico; 454332/2014-9Galicia. Consellería de Cultura, Educación e Ordenación Universitaria; R2014/03

    Computational approaches to virtual screening in human central nervous system therapeutic targets

    Get PDF
    In the past several years of drug design, advanced high-throughput synthetic and analytical chemical technologies are continuously producing a large number of compounds. These large collections of chemical structures have resulted in many public and commercial molecular databases. Thus, the availability of larger data sets provided the opportunity for developing new knowledge mining or virtual screening (VS) methods. Therefore, this research work is motivated by the fact that one of the main interests in the modern drug discovery process is the development of new methods to predict compounds with large therapeutic profiles (multi-targeting activity), which is essential for the discovery of novel drug candidates against complex multifactorial diseases like central nervous system (CNS) disorders. This work aims to advance VS approaches by providing a deeper understanding of the relationship between chemical structure and pharmacological properties and design new fast and robust tools for drug designing against different targets/pathways. To accomplish the defined goals, the first challenge is dealing with big data set of diverse molecular structures to derive a correlation between structures and activity. However, an extendable and a customizable fully automated in-silico Quantitative-Structure Activity Relationship (QSAR) modeling framework was developed in the first phase of this work. QSAR models are computationally fast and powerful tool to screen huge databases of compounds to determine the biological properties of chemical molecules based on their chemical structure. The generated framework reliably implemented a full QSAR modeling pipeline from data preparation to model building and validation. The main distinctive features of the designed framework include a)efficient data curation b) prior estimation of data modelability and, c)an-optimized variable selection methodology that was able to identify the most biologically relevant features responsible for compound activity. Since the underlying principle in QSAR modeling is the assumption that the structures of molecules are mainly responsible for their pharmacological activity, the accuracy of different structural representation approaches to decode molecular structural information largely influence model predictability. However, to find the best approach in QSAR modeling, a comparative analysis of two main categories of molecular representations that included descriptor-based (vector space) and distance-based (metric space) methods was carried out. Results obtained from five QSAR data sets showed that distance-based method was superior to capture the more relevant structural elements for the accurate characterization of molecular properties in highly diverse data sets (remote chemical space regions). This finding further assisted to the development of a novel tool for molecular space visualization to increase the understanding of structure-activity relationships (SAR) in drug discovery projects by exploring the diversity of large heterogeneous chemical data. In the proposed visual approach, four nonlinear DR methods were tested to represent molecules lower dimensionality (2D projected space) on which a non-parametric 2D kernel density estimation (KDE) was applied to map the most likely activity regions (activity surfaces). The analysis of the produced probabilistic surface of molecular activities (PSMAs) from the four datasets showed that these maps have both descriptive and predictive power, thus can be used as a spatial classification model, a tool to perform VS using only structural similarity of molecules. The above QSAR modeling approach was complemented with molecular docking, an approach that predicts the best mode of drug-target interaction. Both approaches were integrated to develop a rational and re-usable polypharmacology-based VS pipeline with improved hits identification rate. For the validation of the developed pipeline, a dual-targeting drug designing model against Parkinson’s disease (PD) was derived to identify novel inhibitors for improving the motor functions of PD patients by enhancing the bioavailability of dopamine and avoiding neurotoxicity. The proposed approach can easily be extended to more complex multi-targeting disease models containing several targets and anti/offtargets to achieve increased efficacy and reduced toxicity in multifactorial diseases like CNS disorders and cancer. This thesis addresses several issues of cheminformatics methods (e.g., molecular structures representation, machine learning, and molecular similarity analysis) to improve and design new computational approaches used in chemical data mining. Moreover, an integrative drug-designing pipeline is designed to improve polypharmacology-based VS approach. This presented methodology can identify the most promising multi-targeting candidates for experimental validation of drug-targets network at the systems biology level in the drug discovery process

    Inference of binding affinity from neuronal receptors in humans

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2016Only some compounds (e.g. ligands) act as neurotransmitters in the brain, binding to specific neuroreceptors. Understanding the criteria behind why a ligand binds to a particular target in the brain can help design drugs which are more effective. With the help of data-mining techniques, quantitative structure–activity/propriety relationship (QSAR/QSPR(Q (SAR)) models and machine learning methods, a supervised model can be built which can predict binding affinities for any molecule, provided sufficient experimental data is available. Models which can predict binding affinities for specific neuroreceptors were built using three machine learning methods (Random Forests, Support Vector Machines and Least Absolute Shrinkage and Selection Operator) and two sets of molecular descriptors from different chemical toolboxes (Open Babel and CDK). Experimental data was collected to create the database and curated by removing inconsistencies and duplicates. The final dataset had 43901 binding affinity values for 53 human neuroreceptors. In the model building phase, 75% of the dataset was used for training and 25% for validation. The modelling consisted of choosing the most important variables (descriptors) for each neuroreceptor and validating using statistical measures. Random Forests and SVM were the best methods. Random Forests was used to select the most important variables and SVM for the statistical measure. The value of root mean squared error (RMSE) was below 0.214, more than half of the receptors had the percentage of variance explained (PVE) above 50% and Pearson's correlation coefficient was above 0.50, confirming the model had a good fit. Small dataset (below 112 entries) resulted in some models having poor results. RMSE values from validation and modelling parts were similar for the best model resulting in a good therefore can predict the strength of binding between neuroreceptor and neurotransmitter. The values of RMSE for the best models were between 0.087 and 0.201 where the PVE is above 50% and correlation above 0.50. Some molecular descriptors were selected frequently; 46 descriptors appeared in more than 20 neuroreceptors, however only 6 descriptors appeared in all neuroreceptors. The same descriptors are used to identify the same family of neuroreceptors.É importante perceber o critério que determina a ligação entre uma molécula e um recetor específico, em particular no cérebro, onde só alguns compostos atuam como neurotransmissores e ligam-se a neurorecetores especifícos. Os neurotransmissores, dependem da sua estrutura para estabelecerem uma ligação com os neurorecetores. Essa ligação pode ser medida através de valores de binding affinity. É possivel, com ajuda de técnicas de data-mining, métodos de machine learning e de relação quantitativa estrutura-propriedade/atividade (QSAR/QSPR), construir um modelo que consiga prever esses valores de binding affinity, desde que tenhamos toda a informação necessária (propriedades/estrutura da molécula e do neurorecetor e valores de binding affinity). Métodos de QSAR/QSPR foram desenvolvidos para compreender as propriedades das moléculas, prever a sua estrutura, e a relação entre os descritores moleculares da sua estrutura com as suas propriedades. De modo a prever valores de binding affinity entre neurotransmissores e neurorecetores, neste trabalho foi criada uma base de dados , com seis dimensões referentes a espécies de animais (dimspecie), a referências bibliográficas (dimref) , a diferentes fontes de dados utilizadas para fazer a base de dados (dimsource), a recetores (dimrec) , a moléculas que vão ligar aos recetores (dimlig) e à localização do recetor (dimlocal).Os valores binding affinity foram expressos em pKi. A base de dados foi curada, os duplicados foram removidos, assim como e valores inconsistentes, como por exemplo, todos as entradas sem estrutura do composto (SMILES). A base de dados tinha 198169 valores de binding affinity. Após a construção da base de dados, procedeu-se à escolha específica de dados para construção do modelo QSAR/QSPR, de modo a ter um bom conjunto de dados. Os critérios de escolha, foram os seguintes: os recetores tinham que estar localizados no cérebro (neurorecetores humano), e tinham que se ligar a mais de 50 ligandos. No final, o conjunto de dados tinha 43901 valores de binding affinity entre 0 e 1 para 53 neurorecetores. O conjunto de dados obtido foi dividido em 75% para o conjunto de treino e 25% para conjunto de teste, isto de forma aleatória para cada neurorecetor. Os descritores moleculares para os compostos do conjunto de dados foram desenvolvidos com a ajuda de duas ferramentas OpenBabel e CDK que foram desenvolvidas para perceber a linguagem dos dados químicos. Essas ferramentas permitem procurar, converter, analisar e armazenar dados de modelação molecular e as caraterísticas bioquímicas. Uma molécula pode ser codificada através de fingerprints que possibilita a determinação da similaridade entre duas moléculas. Existem mais de 5000 descritores, como por exemplo, a massa molecular, o número de átomos, entre outros. Para a construção do modelo, foram usados três métodos combinados de machine learning (Random Forests, Support Vector Machines (SVM) e Least Absolute Shrinkage and Selection Operator (LASSO)), na escolha das variáveis mais importantes, ou seja, as que descrevem melhor a ligação entre os ligandos e os neurorecetores. Os métodos usados foram Random Forests e LASSO e depois posteriormente procedeu-se à validação com obtenção de valores de RMSE , do coeficiente de correlação de Pearson e da percentagem da variação explicada (PVE) com a ajuda do SVM e LASSO. O método de SVM reconhece padrões e baseia-se em encontrar, nos dados , instâncias que são capazes de maximizar a separação entre dois pontos. O método Random Forests, reduz a variância da função da predição estimada, usando para esse feito, árvores de regressão e faz média do resultado. O número de árvores usadas foram 500,enquanto LASSO é um método de regressão que envolve uma penalização do tamanho absoluto dos coeficientes de regressão, em que alguns casos serão zero. Em relação à escolha do conjunto de dados, foi usado o método de cross-validation, em que cada combinação de métodos foram corridos cinco vezes e por cada corrida o conjunto de treino foi divido em 75%, para o conjunto de treino e 25% para o conjunto de teste de forma aleatória, para cada neurorecetor. Os resultados obtidos demonstraram que em todos os métodos, com poucas variáveis, os valores de RMSE são elevados, mas chega a um patamar em que quantas mais variáveis são usadas, maior é o valor de RMSE. No entanto, esses valores variam consoante o recetor, pois existem recetores com um baixo valor de RMSE com 4 variáveis, no entanto, temos outros que são necessários 100 variáveis para se obter um valor baixo de RMSE. O número de variáveis mais importantes para o modelo varia entre 4 e 100. A melhor combinação de métodos em que foram obtidos os melhores resultados para os modelos foram o Random Forests e SVM, apesar de haver três modelos que obtiveram melhores resultados com outro método (LASSO e SVM) . Para validação do modelo foi usado o conjunto de teste que tem 25% dos dados do conjunto de dados iniciais. O RMSE é um bom indicador da qualidade do modelo, mede a distância entre os dados observados e os dados que fazem o modelo. O maior valor de RMSE para o conjunto de treino foi de 0.214. Em geral estamos na presença de bons modelos, no entanto, alguns modelos apresentaram resultados fracos, em que os valores de RMSE são elevados, os valores de PVE e de correlação são baixos e os resultados entre os dados de treino e os dados de testes são muito diferentes, isso acontece na maior partes das vezes quando o número de dados no conjunto de dados é inferior a 112. Para ter um bom modelo, o conjunto de dados precisa de ter mais de 112 entradas, ou seja, é preciso mais de 112 valores de binding affinity para poder construir um bom modelo para esse neurorecetor de modo a prever corretamente valores de binding affinity com outros neurotransmissores . Em relação à correlação que nos indica a força e direção da relação linear entre variáveis, o valor menor é 0, o que indica um fraca correlação, mas em média os valores da correlação são acima de 0.50, o que indica uma forte correlação. A outra medida usada para medir a qualidade do modelo obtido foi a percentagem de variação explicada (PVE) , que em geral está acima do 50%. Os resultados do conjunto de teste foram próximos aos obtidos com o conjunto de treino. Como por exemplo, no caso do modelo para o transportador de seratonina (5-HT transporter), em que o valor de RMSE é 0.216 e a percentagem de variação explicada de 51.1 e para a correlação 0.711, que em comparação com o conjunto de treino que foram 0.196, 57.3 e 0.759 respetivamente são próximos. Os melhores modelos têm os valores de RMSE entre 0.087 e 0.201, em que o PVE está acima de 50% e a correlação está acima de 0.50. Relativamente à selecão dos descritores moleculares mais importantes para a construção do modelo, verificou-se que cerca de 46 descritores moleculares foram escolhidos em pelo menos 20 recetores, isso demonstra que esses descritores são necessários para construir um bom modelo. No entanto, constatou-se que 6 descritores foram selecionados em todos os recetores, a massa molecular, a refratividade molar, o logaritmo do coeficiente partição da água/octanol, o número de ligações simples e aromáticas, demonstrando que estes descritores são os mais importantes para termos um bom modelo. Verificou-se também que os mesmos descritores servem para identificar as mesmas famílias de recetores. Futuramente este modelo pode ser usado na fase inicial da descoberta e produção de novas drogas, pois este modelo consegue verificar a viabilidade dessa droga antes de se proceder a ensaio experimental , através da previsão de valores de binding affinity entre a droga e o seu alvo. O desenvolvimento de uma aplicação online onde se coloca o composto e essa aplicação verifica se o composto se vai ligar a algum neurorecetor

    (Q)SAR Modelling of Nanomaterial Toxicity - A Critical Review

    Get PDF
    There is an increasing recognition that nanomaterials pose a risk to human health, and that the novel engineered nanomaterials (ENMs) in the nanotechnology industry and their increasing industrial usage poses the most immediate problem for hazard assessment, as many of them remain untested. The large number of materials and their variants (different sizes and coatings for instance) that require testing and ethical pressure towards non-animal testing means that expensive animal bioassay is precluded, and the use of (quantitative) structure activity relationships ((Q)SAR) models as an alternative source of hazard information should be explored. (Q)SAR modelling can be applied to fill the critical knowledge gaps by making the best use of existing data, prioritize physicochemical parameters driving toxicity, and provide practical solutions to the risk assessment problems caused by the diversity of ENMs. This paper covers the core components required for successful application of (Q)SAR technologies to ENMs toxicity prediction, and summarizes the published nano-(Q)SAR studies and outlines the challenges ahead for nano-(Q)SAR modelling. It provides a critical review of (1) the present status of the availability of ENMs characterization/toxicity data, (2) the characterization of nanostructures that meets the need of (Q)SAR analysis, (3) the summary of published nano-(Q)SAR studies and their limitations, (4) the in silico tools for (Q)SAR screening of nanotoxicity and (5) the prospective directions for the development of nano-(Q)SAR models

    Partial Inerting and Minimum Ignition Energy (Mie) Prediction of Combustible Dusts

    Get PDF
    Minimum Ignition Energy (MIE) is a critical dust hazard parameter guiding elimination of ignition sources in solids handling facilities. Partial inerting is an important but underutilized mitigation technique in which MIE of a dust cloud is increased through inerting, reducing the risk of an accidental dust explosion or more accurately, a dust deflagration. This dissertation has reported advances in MIE testing and prediction to prevent and mitigate dust explosions. In this work, a novel purge add-on device to the standard MIE test apparatus was designed which facilitated purging the Hartmann tube before MIE testing. Through experimentation and CFD modeling, this dissertation has attempted to refine the existing MIE testing standard for partial inerting applications by introducing purge time as an essential parameter. The effective experimental purge time required for partial inerting testing in the MIE apparatus was determined to be > 40 s and validated through the ANSYS Fluent CFD purging model. In addition, this work has demonstrated that purging the MIE apparatus Hartmann tube before experimentation significantly affected the measured values in partially inerted atmospheres (O2 < 21 vol. %). It is recommended through this research that purging should be an essential step while MIE testing and reporting. Using this improved methodology, an accurate MIE with changing oxygen concentrations for the combustible dusts Niacin, Anthraquinone, Lycopodium clavatum and Calcium Stearate was obtained and a mathematical equation for MIE-O2 was proposed. Furthermore, Quantitative-Structure Property (QSPR) models for MIE prediction using machine learning algorithms such as Random Forests (RF) and Decision Trees (DT) were developed. A binary classification model was developed for predicting the MIE category of the combustible dusts. The results indicated good MIE predictability through the RF algorithm indicated by the Receiver Operating Characteristic – Area Under Curve (ROC-AUC) of 0.95. Additionally, RF algorithm was used to identify the molecular descriptors which most significantly affected the MIE prediction accuracy. Thus, through experimentation and modeling, this study aims to provide a scientific foundation for a partial inerting MIE test method to supplement existing testing standards (such as ASTM E2019-03) and provides a solid framework for MIE prediction of combustible dusts

    Combining metric and vector space data mining methods for screening CFTR rescuers in cystic fibrosis

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017O objetivo principal desta dissertação é desenvolver modelos para propor moléculas de interesse que podem se tornar em princípios ativos no tratamento da fibrose quística. Neste projeto apresenta-se uma abordagem in silico para a seleção de moléculas que possivelmente têm capacidades terapêuticas em relação à fibrose quística. Este processo é efetuado computacionalmente com a utilização de ferramentas de prospeção de dados e os objetivos primordiais deste processo são a identificação e seleção de moléculas que podem ajudar no combate à doença para posterior teste em laboratório. Para este efeito foram desenvolvidos previsões para a capacidade terapêutica das moléculas em dois espaços: i) espaço vetorial; ii) espaço métrico. No espaço vetorial as previsões foram realizadas tendo em conta os descritores moleculares das moléculas, com recurso ao método estatístico e computacional random forest. As moléculas foram também representadas num espaço métrico construído com a dissemelhança molecular entre as mesmas, onde ocorreu uma redução de dimensões tornando possível a representação das instâncias num plano bidimensional – este espaço métrico foi subsequentemente analisado por uma ferramenta estatística denominada kriging. Para comprovar os métodos escolhidos, usaram-se dois conjuntos de dados; potenciadores e ativadores de anoctaminas (moléculas de possível interesse para o tratamento da fibrose quística) e corretores da proteína causadora da fibrose quística (CFTR - Cystic fibrosis transmembrane conductance regulator ). No âmbito desta dissertação, foram identificadas 10 moléculas provenientes do estudo com potenciadores de anoctaminas e 18 moléculas provenientes do estudo com corretores da CFTR, para serem testadas em laboratório. Adicionalmente, foram recolhidos dados de repositórios de informação biológica para validar os métodos utilizados. Este passo adicional permite concluir que algumas das moléculas escolhidas têm ligações diretas e indiretas à fibrose quística, dando credibilidade ao método desenvolvido. É importante referir que a forma como este projeto foi desenvolvido permite a utilização de diferentes conjuntos de dados de ligandos para proteínas alvo, o que torna este método flexível e adaptável à doença que seja objeto de estudo.The main goal of this dissertation is to develop models in order to identify and propose lead chemical molecules that can possibly become principal actives against the cystic fibrosis disease. In this project it is presented an in silico approach to perform a molecular screening on possible therapeutic candidates for the cystic fibrosis disease. This process is done computationally with data mining tools and the main objectives are the identification and selection of molecules to further testing in the laboratory. To achieve this goal the data mining exercise was developed on two spaces: i) vectorial space, ii) metric space. On the vectorial space, molecular descriptors were selected to implement a random forest algorithm (a supervised machine learning method) in order to realize forecasts on the molecule ability to treat the disease. The studied molecules were also represented in a metric space that was developed using molecular dissimilarity between all molecules. This dissimilarity values were modelled to fit in a 2 dimensional representation - In this metric space the statistical tool chosen was kriging. To prove the chosen methodology, two main datasets were used: A dataset with Anoctamin activators or potentiators (molecules of interest to treat the cystic fibrosis disease) and a dataset with correctors of the protein which causes cystic fibrosis (CFTR - Cystic fibrosis transmembrane conductance regulator). Based on these datasets, 10 and 18 molecules were selected respectively to be further tested in a lab environment. To conclude the work and validate the workflow results, an additional analysis was performed using selected information repositories. This additional step has confirmed that some of the chosen molecules are directly and indirectly related to cystic fibrosis, giving some credibility to the proposed method. Finally, the way this project was developed enables the use of different datasets with ligands of the target proteins as input, making the method flexible and adaptable to any disease in study
    corecore