32 research outputs found

    A treatment of stereochemistry in computer aided organic synthesis

    Get PDF
    This thesis describes the author’s contributions to a new stereochemical processing module constructed for the ARChem retrosynthesis program. The purpose of the module is to add the ability to perform enantioselective and diastereoselective retrosynthetic disconnections and generate appropriate precursor molecules. The module uses evidence based rules generated from a large database of literature reactions. Chapter 1 provides an introduction and critical review of the published body of work for computer aided synthesis design. The role of computer perception of key structural features (rings, functions groups etc.) and the construction and use of reaction transforms for generating precursors is discussed. Emphasis is also given to the application of strategies in retrosynthetic analysis. The availability of large reaction databases has enabled a new generation of retrosynthesis design programs to be developed that use automatically generated transforms assembled from published reactions. A brief description of the transform generation method employed by ARChem is given. Chapter 2 describes the algorithms devised by the author for handling the computer recognition and representation of the stereochemical features found in molecule and reaction scheme diagrams. The approach is generalised and uses flexible recognition patterns to transform information found in chemical diagrams into concise stereo descriptors for computer processing. An algorithm for efficiently comparing and classifying pairs of stereo descriptors is described. This algorithm is central for solving the stereochemical constraints in a variety of substructure matching problems addressed in chapter 3. The concise representation of reactions and transform rules as hyperstructure graphs is described. Chapter 3 is concerned with the efficient and reliable detection of stereochemical symmetry in both molecules, reactions and rules. A novel symmetry perception algorithm, based on a constraints satisfaction problem (CSP) solver, is described. The use of a CSP solver to implement an isomorph‐free matching algorithm for stereochemical substructure matching is detailed. The prime function of this algorithm is to seek out unique retron locations in target molecules and then to generate precursor molecules without duplications due to symmetry. Novel algorithms for classifying asymmetric, pseudo‐asymmetric and symmetric stereocentres; meso, centro, and C2 symmetric molecules; and the stereotopicity of trigonal (sp2) centres are described. Chapter 4 introduces and formalises the annotated structural language used to create both retrosynthetic rules and the patterns used for functional group recognition. A novel functional group recognition package is described along with its use to detect important electronic features such as electron‐withdrawing or donating groups and leaving groups. The functional groups and electronic features are used as constraints in retron rules to improve transform relevance. Chapter 5 details the approach taken to design detailed stereoselective and substrate controlled transforms from organised hierarchies of rules. The rules employ a rich set of constraints annotations that concisely describe the keying retrons. The application of the transforms for collating evidence based scoring parameters from published reaction examples is described. A survey of available reaction databases and the techniques for mining stereoselective reactions is demonstrated. A data mining tool was developed for finding the best reputable stereoselective reaction types for coding as transforms. For various reasons it was not possible during the research period to fully integrate this work with the ARChem program. Instead, Chapter 6 introduces a novel one‐step retrosynthesis module to test the developed transforms. The retrosynthesis algorithms use the organisation of the transform rule hierarchy to efficiently locate the best retron matches using all applicable stereoselective transforms. This module was tested using a small set of selected target molecules and the generated routes were ranked using a series of measured parameters including: stereocentre clearance and bond cleavage; example reputation; estimated stereoselectivity with reliability; and evidence of tolerated functional groups. In addition a method for detecting regioselectivity issues is presented. This work presents a number of algorithms using common set and graph theory operations and notations. Appendix A lists the set theory symbols and meanings. Appendix B summarises and defines the common graph theory terminology used throughout this thesis

    The octet rule in chemical space: Generating virtual molecules

    Full text link
    We present a generator of virtual molecules that selects valid chemistry on the basis of the octet rule. Also, we introduce a mesomer group key that allows a fast detection of duplicates in the generated structures. Compared to existing approaches, our model is simpler and faster, generates new chemistry and avoids invalid chemistry. Its versatility is illustrated by the correct generation of molecules containing third-row elements and a surprisingly adept handling of complex boron chemistry. Without any empirical parameters, our model is designed to be valid also in unexplored regions of chemical space. One first unexpected finding is the high prevalence of dipolar structures among generated molecules.Comment: 24 pages, 10 figure

    Kinetic model construction using chemoinformatics

    Get PDF
    Kinetic models of chemical processes not only provide an alternative to costly experiments; they also have the potential to accelerate the pace of innovation in developing new chemical processes or in improving existing ones. Kinetic models are most powerful when they reflect the underlying chemistry by incorporating elementary pathways between individual molecules. The downside of this high level of detail is that the complexity and size of the models also steadily increase, such that the models eventually become too difficult to be manually constructed. Instead, computers are programmed to automate the construction of these models, and make use of graph theory to translate chemical entities such as molecules and reactions into computer-understandable representations. This work studies the use of automated methods to construct kinetic models. More particularly, the need to account for the three-dimensional arrangement of atoms in molecules and reactions of kinetic models is investigated and illustrated by two case studies. First of all, the thermal rearrangement of two monoterpenoids, cis- and trans-2-pinanol, is studied. A kinetic model that accounts for the differences in reactivity and selectivity of both pinanol diastereomers is proposed. Secondly, a kinetic model for the pyrolysis of the fuel “JP-10” is constructed and highlights the use of state-of-the-art techniques for the automated estimation of thermochemistry of polycyclic molecules. A new code is developed for the automated construction of kinetic models and takes advantage of the advances made in the field of chemo-informatics to tackle fundamental issues of previous approaches. Novel algorithms are developed for three important aspects of automated construction of kinetic models: the estimation of symmetry of molecules and reactions, the incorporation of stereochemistry in kinetic models, and the estimation of thermochemical and kinetic data using scalable structure-property methods. Finally, the application of the code is illustrated by the automated construction of a kinetic model for alkylsulfide pyrolysis

    Conformator: A Novel Method for the Generation of Conformer Ensembles

    Get PDF
    Computer-aided drug design methods such as docking, pharmacophore searching, 3D database searching, and the creation of 3D-QSAR models need conformational ensembles to handle the flexibility of small molecules. Here, we present Conformator, an accurate and effective knowledge-based algorithm for generating conformer ensembles. With 99.9% of all test molecules processed, Conformator stands out by its robustness with respect to input formats, molecular geometries, and the handling of macrocycles. With an extended set of rules for sampling torsion angles, a novel algorithm for macrocycle conformer generation, and a new clustering algorithm for the assembly of conformer ensembles, Conformator reaches a median minimum root-mean-square deviation (measured between protein-bound ligand conformations and ensembles of a maximum of 250 conformers) of 0.47 Å with no significant difference to the highest-ranked commercial algorithm OMEGA and significantly higher accuracy than seven free algorithms, including the RDKit DG algorithm. Conformator is freely available for noncommercial use and academic research.acceptedVersio

    Generation of a virtual library of terpenes using graph theory, and its application in exploration of the mechanisms of terpene biosynthesis

    Get PDF
    Terpenes form a large group of organic compounds which have proven to be of use to many living organisms being used by plants for metabolism (Pichersky and Gershenzon, 1934; McGarvey and Croteau, 1995; Gershenzon and Dudareva, 2007), defence or as a means to attract pollinators and also used by humans in medical, pharmaceutical and food industry (Bicas, Dionísio and Pastore, 2009; Marmulla and Harder, 2014; Kandi et al., 2015). Following on literature methods to generate chemical libraries using graph theoretic techniques, complete libraries of all possible terpene isomers have been constructed with the goal of construction of derivative libraries of possible carbocation intermediates which are important in the elucidation of mechanisms in the biosynthesis of terpenes. Virtual library generation of monoterpenes was first achieved by generating graphs of order 7, 8, 9 and 10 using the Nauty and Traces suite. These were screened and processed with a set of collated Python scripts written to recognize the graphs in text format and translate them to molecules, minimizing through Tinker whilst discarding graphs that violate chemistry laws. As a result of the computational time required only order 7 and order 10 graphs were processed. Out of the 873 graphs generated from order seven, 353 were converted to molecules and from the 11,7 million produced from order 10 half were processed resulting in the production of 442928 compounds (repeats included). For screening, 55 366 compounds were docked in the active site of limonene synthase; of these 2355 ligands had a good Vina docking score with a binding energy of between -7.0 and -7.4 kcal.mol-1. When these best docked molecules were overlaid in the active site a map of possible ligand positions within the active site of limonene synthase was traced out

    定量的構造物性相関/定量的構造活性相関モデルの逆解析を利用した化学構造創出に関する研究

    Get PDF
    学位の種別: 課程博士審査委員会委員 : (主査)東京大学教授 船津 公人, 東京大学教授 酒井 康行, 東京大学准教授 杉山 弘和, 東京大学准教授 伊藤 大知, 京都大学特任教授 奧野 恭史, スイス連邦工科大学教授 Gisbert SchneiderUniversity of Tokyo(東京大学

    【研究分野別】シーズ集 [英語版]

    Get PDF
    [英語版

    Binary similarity measures and mass-difference network analysis as effective tools in metabolomics data analysis

    Get PDF
    Tese de mestrado em Bioquímica (Bioquímica Médica), Universidade de Lisboa, Faculdade de Ciências, 2020A metabolómica é um campo emergente na biologia de sistemas que visa realizar uma análise global do metaboloma de um sistema biológico ao identificar e quantificar todos os seus metabolitos. Devido à alta diversidade na concentração, estrutura e caraterísticas químicas dos metabolitos, esta é uma tarefa complexa que requer a utilização de metodologias de alta resolução como espetrometria de massa (MS, Mass Spectrometry) ou ressonância magnética nuclear (NMR, Nuclear Magnetic Resonance). Apesar destes métodos não identificarem todos os metabolitos presentes num sistema (devido a limitações na gama dinâmica dos instrumentos utilizados e a preferência de cada abordagem para certos tipos de metabolitos), estes oferecem uma visão aproximada do metaboloma completo. A complexidade dos dados obtidos requerem primeiro um pré-processamento e depois um pré tratamento adequados para extrair a informação presente. Assim, ambas estas etapas são cruciais no fluxo normal de trabalho em metabolómica e, como tal, devem ser ponderados e escolhidos cuidadosamente. Sendo que muitos factores afectam significativamente o metaboloma de um sistema biológico, dados de metabolómica têm sido usados com sucesso na discriminação de amostras de diferentes sistemas e para a identificação de metabolitos chave que suportam esta discriminação, através de variados métodos estatísticos. O pré-processamento gera um conjunto de dados 2D com caraterísticas (normalmente picos m/z em análise MS) num eixo e amostras no outro. Na formação destes dados surgem valores em falta – amostras que não têm caraterísticas presentes noutras amostras. Sendo que diversos métodos estatísticos não suportam a existência de valores em falta, são aplicados métodos de filtração de picos para reduzir o número destes; seguidos da aplicação de um método de imputação dos valores em falta que restam após filtração. A análise de dados procede com a aplicação de pré-tratamentos que podem ser divididos em três sub-categorias – normalizações (incluído às vezes no pré-processamento), transformações e scaling. Uma combinação de métodos destas categorias é utilizado para extrair e destacar a variação biológica significativa entre as amostras. Contudo, todos estes métodos tradicionais destacam os padrões de intensidades entre as caraterísticas em detrimento de outras informações importantes no contexto da metabolómica como a presença e ausência destas nas amostras. Um possível problema desta utilização para a análise de dados de metabolómica é a intensidade ter uma variabilidade elevada mesmo entre amostras do mesmo grupo. Esta variabilidade aumenta ainda mais quando analisadas em lotes experimentais diferentes, instrumentos diferentes com preparação de amostras diferentes, métodos ou parâmetros de pré processamento diferentes, entre outros, originando uma baixa reprodutibilidade dos dados. A dificuldade da identificação estrutural inequívoca dos metabolitos chave na discriminação de grupos coloca-se como outro problema na análise de dados. O objetivo deste trabalho foi desenvolver duas novas abordagens para a análise computacional de dados de metabolómica, no contexto da caraterização e discriminação de amostras biológicas. Estes tratamentos descartam a informação de sinais da intensidade predominantemente utilizada pelos métodos de tratamento estabelecidos, de forma a evitar a elevada variabilidade desta, concentrando-se noutros aspectos dos dados, o que deve oferecer uma nova perspetiva sobre estes. Como parte deste desenvolvimento, uma avaliação sistemática da performance destes tratamentos para um set seleccionado de conjuntos de dados de MS de alta resolução foi outro objetivo principal do trabalho. Três combinações de métodos de pré-tratamento tradicionais foram comparadas na análise de resultados: 1) Pareto scaling; 2) Normalização por uma caraterística de referência e Pareto scaling; 3) Normalização, transformação logarítmica generalizada e Pareto scaling. Foram utilizados dois conjuntos de dados metabolómica de videira (Vitis) contendo 3 réplicas de 11 variedades cada – um obtido por electrospray em modo negativo de ionização (ESI- ) e outro em modo positivo de ionização (ESI+ ) – e um conjunto de dados de 3 réplicas de 5 estirpes de leveduras, utilizando ou a lista de picos m/z ou fórmulas atribuídas aos picos (quando possível) como caraterísticas. Semelhança binária (BinSim, Binary Similarity) é a primeira abordagem desenvolvida, sendo baseada no conceito de considerar exclusivamente a ocorrência de características espectrais. A ideia é que o conjunto de metabolitos identificados por métodos de alta resolução é caraterístico dos diferentes sistemas e pode ser utilizado para os discriminar, conseguindo obter resultados mais consistentes devido à menor variabilidade da identificação de metabolitos em relação à informação dos sinais de intensidade (descartada). Este método consiste na construção de um vector binário para cada amostra que codifica a presença de uma caraterística como 1 e ausência como 0 que pode ser usado para transformar os dados antes da aplicação de métodos estatísticos para caraterizar e classificar amostras. A simplicidade deste método encontra-se no facto de que necessita (e até prefere) pouca filtração de picos e de que salta a escolha dos métodos de imputação de valores em falta e combinação de normalizações, transformações e scaling a usar, acelerando a análise de dados. Utilizando métodos de agrupamento de amostras (não supervisionados) e modelos de classificação (supervisionados), a qualidade da discriminação das amostras nos seus respetivos grupos em dados transformados com BinSim foi consistentemente semelhante ou ligeiramente melhor do que quando tratados com tratamentos baseados em intensidade, levando, quase sempre, à melhor ou segunda melhor discriminação (dos 4 tratamentos comparados). Uma discriminação perfeita foi atingida nos dados da levedura em todos os métodos estatísticos usados; nos dados da videira, métodos não supervisionados agruparam corretamente cerca de metade dos grupos e os métodos de classificação supervisionados (Random Forest e Partial Least Squares - Discrimination Analysis, PLS-DA) previram com cerca de 80% de precisão os grupos das amostras. Para observar se esta discriminação era obtida por informação menos usada pelos métodos tradicionais, retirou-se os 2% de caraterísticas consideradas mais importantes para construir os modelos de classificação de Random Forest e de PLS-DA dos dados tratados das diferentes formas. Este conjunto de caraterísticas importantes nos dados tratados com o BinSim é muito distinto, tendo um grande número de caraterísticas apenas presentes neste (73,5% em média) em comparação com os conjuntos obtidos dos modelos construídos de dados tratados de forma diferente. Além disso, estas apareciam num pequeno número de grupos (em comparação com os restantes casos), ou seja, eram caraterísticas com muitos valores em falta e que, por isso, são muitas vezes filtradas. Nas caraterísticas importantes para construir modelos Random Forest nos dados da levedura, esta tendência foi mais acentuada com características importantes a aparecerem predominantemente apenas num grupo, ou seja, a atuarem como biomarcadores desse grupo nos dados estudados. Conclui-se, então, que a informação obtida por este tratamento é distinta em relação aos outros tratamentos baseados em intensidade no fluxo de trabalho da metabolómica. A segunda abordagem consiste em construir uma rede de diferença de massas (MDiN, Mass Difference Network) para cada amostra de um conjunto de dados e discriminar estas pela comparação das suas caraterísticas. MDiN foi um conceito originalmente desenvolvido por Breitling et al. que usa a lista de massas de dados de metabolómica como vértices/nós na rede e um conjunto de diferença de massas que estabelece arestas entre os vértices com diferenças que se enquadram nesse conjunto. Cada diferença de massa (MDB, Mass-Difference-based Building block) corresponde a uma diferença na fórmula elementar de um metabolito após a ocorrência de uma reação bioquímica comum (enzimática ou não enzimática). Assim, para cada amostra, forma-se uma rede semelhante, conceptualmente, às redes metabólicas mas gerada apenas pela informação do conjunto de dados. Cada rede tem a informação das possíveis transformações biologicamente significativas entre os metabolitos presentes que podem ocorrer num contexto biológico, enfatizando, a presença destas interações sobre a intensidade de cada caraterística. Apesar da complexidade, as redes construídas podem ser analisadas e comparadas de inúmeras formas diferentes, mostrando ter uma grande versatilidade no modo como podem ser usadas, sendo esta a principal vantagem do método. As redes construídas foram analisadas por diferentes métodos de análise de redes: focadas na centralidade dos nós (grau, intermediação e proximidade), ou nas caraterísticas globais das redes como no número de vezes que cada MDB foi usada para estabelecer arestas e na topologia da rede (usando o GCD-11, Graphlet Correlation Distance using 11 graphlet orbits). Comparando os resultados das análises por variados métodos estatísticos, a análise da centralidade dos nós, especificamente do grau, permitiu a melhor discriminação das amostras nos seus grupos. Resultados indicaram que a análise de cada nó pelas suas possíveis interações permite uma discriminação dos grupos semelhante à alcançada quando os dados são tratados com os tratamentos tradicionais mencionados anteriormente. Contudo, a análise das caraterísticas globais das redes deu indicações que poderá demonstrar diferenças importantes e biologicamente significativas gerais do metabolismo ao nível da proeminência de diferentes tipos de reações no sistema. Conclui-se, então, que ambas as abordagens são viáveis na análise de dados de metabolómica, extraindo informação que pode ser utilizada para discriminar as amostras dos conjuntos de dados. A sua diferente perspetiva também permite que sejam usados numa análise que complemente a de outros tratamentos. Ainda mais, como estes tratamentos enfatizam informação com menos variabilidade do que a intensidade, têm um grande potencial na análise de múltiplos conjuntos de dados obtidos com diferentes instrumentos, laboratórios, entre outras hipóteses dos mesmos grupos biológicos, abrindo portas para estudos futuros que se possam focar na viabilidade destas estratégias neste contexto.Metabolomics is an emerging field in systems biology that aims to perform a comprehensive analysis of a biological system’s metabolome by identifying and quantifying all its metabolites. Due to their high diversity in concentration, structure and chemical characteristics, this is an extremely complex task which requires high resolution methodologies such as mass spectrometry (MS) or nuclear magnetic resonance (NMR) to provide an approximated overview of the metabolome. These analyses also generate complex data, which, in turn, requires first suitable pre-processing and then pre-treatment to be properly analysed – crucial steps in the workflow that must be pondered and carefully applied. Since there are many factors that significantly affect the metabolome, metabolomics data obtained from different sources and conditions has successfully been used to discriminate samples of biological systems and to find key metabolites supporting that discrimination. The pre-processing of the data generates a 2D-dataset with features (usually m/z peaks for MS analysis) on one axis and samples on the other. Subsequent data analysis aims to extract and highlight the significant biological variation between samples over the background variation in the data. Traditional data analysis in metabolomics focuses primarily on the comparison of intensity of the features in the samples rather than on information such as their presence/absence in each sample. However, a major problem of this analysis is the high variability of the intensity data between different samples (even of the same biological system) when analysed in different experimental batches, instruments, pre-processed with different methods or parameters, etc., which leads to a low level of reproducibility. Another bottleneck is the unambiguous structural identification of the metabolites that can be key in discriminating between the studied systems. The aim of this work was to develop two new approaches for the computational analysis of metabolomics data, in the context of profiling and discrimination of biological samples. As part of this development, a systematic evaluation of their performance when compared to more established methods for selected high-resolution MS datasets was also a major goal. The first approach is based on the concept of considering only the occurrence of spectral features to construct a binary sample vector encoding feature presence as 1 and absence as 0. The use of such data encoding, followed by the adoption of binary metrics of sample distance, can be used as a pre-treatment method to transform data before the application of unsupervised and supervised methods related to profiling and classification. While using such pre-treatment, called Binary Similarity (BinSim) effectively discards information contained in the metabolite signal intensities, the resulting data has less variability than intensity data and more consistent results on the discrimination of biological systems can be obtained. Furthermore, BinSim greatly simplifies the analysis by skipping most of the peak filtering, and the choice of the missing value imputation, normalization and scaling methods to use. The performance of statistical methods in discriminating the datasets transformed with BinSim was consistently as good as or slightly better than datasets treated with different combinations of traditional, intensity-based, pre-treatments. In the former, features that appeared in one (biomarker like) or a few of the groups were the most important to build discriminant classifiers, which was markedly different from those computed from datasets treated in traditional ways, emphasizing the new perspective that BinSim offers. The second approach is based on the construction of a Mass-Difference Network (MDiN) for each sample, using masses as nodes and a set of mass differences derived from common biochemical reactions to establish edges. The information in the network is the possible transformations between the identified metabolites that could happen in a biological context. Results from different network analysis on sample MDiNs were compared using statistical methods to discriminate the samples into their respective groups. Analysis that focused on node centrality measures, especially their degree, allowed a better discrimination of the samples compared to analysis focused on global network characteristics and was on par with the discrimination achieved in the same datasets treated with more established intensity-based methods, while offering the versatility of other network analysis methods on the sample MDiNs to complement the discrimination
    corecore