104 research outputs found

    How to Explain Individual Classification Decisions

    Full text link
    After building a classifier with modern tools of machine learning we typically have a black box at hand that is able to predict well for unseen data. Thus, we get an answer to the question what is the most likely label of a given unseen data point. However, most methods will provide no answer why the model predicted the particular label for a single instance and what features were most influential for that particular instance. The only method that is currently able to provide such explanations are decision trees. This paper proposes a procedure which (based on a set of assumptions) allows to explain the decisions of any classification method.Comment: 31 pages, 14 figure

    Machine Learning Toxicity Prediction: Latest Advances by Toxicity End Point

    Get PDF
    Machine learning (ML) models to predict the toxicity of small molecules have garnered great attention and have become widely used in recent years. Computational toxicity prediction is particularly advantageous in the early stages of drug discovery in order to filter out molecules with high probability of failing in clinical trials. This has been helped by the increase in the number of large toxicology databases available. However, being an area of recent application, a greater understanding of the scope and applicability of ML methods is still necessary. There are various kinds of toxic end points that have been predicted in silico. Acute oral toxicity, hepatotoxicity, cardiotoxicity, mutagenicity, and the 12 Tox21 data end points are among the most commonly investigated. Machine learning methods exhibit different performances on different data sets due to dissimilar complexity, class distributions, or chemical space covered, which makes it hard to compare the performance of algorithms over different toxic end points. The general pipeline to predict toxicity using ML has already been analyzed in various reviews. In this contribution, we focus on the recent progress in the area and the outstanding challenges, making a detailed description of the state-of-the-art models implemented for each toxic end point. The type of molecular representation, the algorithm, and the evaluation metric used in each research work are explained and analyzed. A detailed description of end points that are usually predicted, their clinical relevance, the available databases, and the challenges they bring to the field are also highlighted.Fil: Cavasotto, Claudio Norberto. Universidad Austral. Facultad de Ciencias Biomédicas. Instituto de Investigaciones en Medicina Traslacional. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Parque Centenario. Instituto de Investigaciones en Medicina Traslacional; ArgentinaFil: Scardino, Valeria. Universidad Austral; Argentin

    In silico modeling of chemical and biological interactions at different scales

    Get PDF
    En les últimes dècades, molts països han imposat regulacions sobre els efectes potencials de les substàncies químiques envers la salut humana i els criteris mediambientals. A més a més, tenint en compte el temps necessari per a les proves d’avaluació dels efectes de gran nombre de productes químics i el seu cost ha produït un ràpid augment en el nombre de models computacionals, que relacionen l'estructura de les substàncies químiques amb la seva activitat biològica. Actualment existeixen els models de relació estructura-activitat (SAR) per a productes químics, utilitzant un enfocament similar s’ha desenvolupat un nou model i generat conjunts d'alertes metabòliques que es puguin utilitzar juntament amb els mètodes Q(SAR). Aquest treball presenta regles SAR per a la predicció de mutagenicitat in vitro, juntament amb alertes metabòliques per a la predicció in vivo. Permetent, obtenir una idea preliminar sobre si un producte químic exhibeix el mateix comportament mutagènic in vitro i in vivo. Entre els compostos químics, les nanopartícules, també s'estan utilitzant cada cop més a través de diferents classes de productes usats pels consumidors. En un context fisiològic, la corona de les proteïnes constitueix la interfície entre les nanopartícules i les cèl·lules. En aquest treball, s'han utilitzat les propietats fisicoquímiques de la corona de les proteïnes per tal de desenvolupar un model capaç de predir l'associació cel·lular. Finalment, aquesta tesi es centra en el tema de la resistència als fàrmacs en els bacteris, que s'ha convertit en un assumpte d'interès global. Amb l'augment de la resistència dels bacteris als antibiòtics, és important disposar d'informació sobre la resposta que les noves proteïnes bacterianes tindrien sobre els antibiòtics actualment disponibles. Pel qual, en aquest treball s'ha desenvolupat un mètode d'alineació lliure per millorar la classificació en perfils de resistència de les proteïnes bacterianes, en base a les seves propietats fisicoquímiques.En las últimas décadas, muchos países han impuesto regulaciones sobre los efectos potenciales de las sustancias químicas con respecto a la salud humana y a criterios medio ambientales. Además, el tiempo necesario para las pruebas de evaluación de los efectos de un gran número de productos químicos y su coste ha producido un rápido aumento en el número de modelos computacionales que relacionan la estructura de las sustancias químicas con su actividad biológica. Actualmente existen los modelos de relación estructura-actividad (SAR) para productos químicos, utilizando un enfoque similar se ha desarrollado un nuevo modelo para generar conjuntos de alertas metabólicas que puedan utilizarse junto con los métodos Q(SAR). Este trabajo presenta reglas SAR para la predicción de mutagenicidad in vitro, junto con alertas metabólicas para la predicción también in vivo. Permitiendo, además, obtener una idea preliminar de si un producto químico exhibe el mismo comportamiento mutagénico in vitro e in vivo. Entre los compuestos químicos, las nanopartículas, también se están utilizando cada vez más en diferentes clases de productos usados por los consumidores. En términos fisiológicos, la corona de las proteínas constituye la interfaz entre las nanopartículas y las células. En este trabajo se ha desarrollado un modelo con las propiedades físico-químicas de la corona de las proteínas para predecir la asociación celular. Por último, esta tesis se centra en el tema de la resistencia a los fármacos en las bacterias, que se ha convertido en un asunto de interés global. Con el aumento de la resistencia de las bacterias a los antibióticos, es importante disponer información sobre la respuesta que las nuevas proteínas bacterianas tendrán sobre los antibióticos actualmente disponibles. Por esto se ha desarrollado un método de alineación libre para mejorar la clasificación en perfiles de resistencia de las proteínas bacterianas en base a sus propiedades físico-químicas.In the past decades, government, society and industry at large have taken keen interest in the impact at different scales that exposure to chemicals has on humans and environment. Many countries governments have imposed regulations as per which it has become important to establish the potential effects of these chemical entities with respect to human health and environmental endpoints. Given the time taken by traditional tests, costs and large number of chemicals to be evaluated, there has been a rapid growth in the number of computational models that link the structure of chemicals to their biological activity. To extend the basis of knowledge that currently exists in Structure Activity Relationship (SAR) models for chemicals, a similar approach was used to develop a new model and generate sets of metabolic triggers which can be used together with Q(SAR) methods. This thesis presents SAR rules for prediction of mutagenicity in vitro, along with metabolic triggers for prediction of mutagenicity in vitro and in vivo. Along with chemical compounds, nanoparticles are also being used increasingly across different classes of consumers’ products. Since, in physiological context, the protein corona constitutes the interface between the nanoparticle and cells, it plays a fundamental role in nanoparticle-cell association. In this thesis, the physicochemical properties of protein corona were used to develop a model to predict cell association. Lastly, this thesis focuses on the topic of drug resistance in bacteria, which has become a matter of global concern. With bacteria growing resistant to antibiotics at a faster pace than discovery of new antibiotics, information on the response that new bacterial proteins would have to the currently available antibiotics, based on their similarity with the known antibiotic-resistant proteins is necessary. An alignment-free method was developed to improve the resistance profile classification of bacterial proteins based on their physicochemical properties
    corecore