16 research outputs found

    Peak annotation and data analysis software tools for mass spectrometry imaging

    Get PDF
    La metabolòmica espacial és la disciplina que estudia les imatges de les distribucions de compostos químics de baix pes (metabòlits) a la superfície dels teixits biològics per revelar interaccions entre molècules. La imatge d'espectrometria de masses (MSI) és actualment la tècnica principal per obtenir informació d'imatges moleculars per a la metabolòmica espacial. MSI és una tecnologia d'imatges moleculars sense marcador que produeix espectres de masses que conserven les estructures espacials de les mostres de teixit. Això s'aconsegueix ionitzant petites porcions d'una mostra (un píxel) en un ràster definit a través de tota la seva superfície, cosa que dona com a resultat una col·lecció d'imatges de distribució de ions (registrades com a relacions massa-càrrega (m/z)) sobre la mostra. Aquesta tesi té com a objectius desenvolupar eines computacionals per a l'anotació de pics de MSI i el disseny de fluxos de treball per a l'anàlisi estadística i multivariant de dades MSI, inclosa la segmentació espacial. El treball realitzat en aquesta tesi es pot separar clarament en dues parts. En primer lloc, el desenvolupament d'una eina d'anotació de pics d'isòtops i adductes adequada per facilitar la identificació de compostos de rang de massa baix. Ara podem trobar fàcilment ions monoisotòpics als nostres conjunts de dades MSI gràcies al paquet de programari rMSIannotation. En segon lloc, el desenvolupament de eines de programari per a l’anàlisi de dades i la segmentació espacial basades en soft clustering per a dades MSI.La metabolómica espacial es la disciplina que estudia las imágenes de las distribuciones de compuestos químicos de bajo peso (metabolitos) en la superficie de los tejidos biológicos para revelar interacciones entre moléculas. Las imágenes de espectrometría de masas (MSI) es actualmente la principal técnica para obtener información de imágenes moleculares para la metabolómica espacial. MSI es una tecnología de imágenes moleculares sin marcador que produce espectros de masas que conservan las estructuras espaciales de las muestras de tejido. Esto se logra ionizando pequeñas porciones de una muestra (un píxel) en un ráster definido a través de toda su superficie, lo que da como resultado una colección de imágenes de distribución de iones (registradas como relaciones masa-carga (m/z)) sobre la muestra. Esta tesis tiene como objetivo desarrollar herramientas computacionales para la anotación de picos en MSI y en el diseño de flujos de trabajo para el análisis estadístico y multivariado de datos MSI, incluida la segmentación espacial. El trabajo realizado en esta tesis se puede separar claramente en dos partes. En primer lugar, el desarrollo de una herramienta de anotación de picos de isótopos y aductos adecuada para facilitar la identificación de compuestos de bajo rango de masa. Ahora podemos encontrar fácilmente iones monoisotópicos en nuestros conjuntos de datos MSI gracias al paquete de software rMSIannotation.Spatial metabolomics is the discipline that studies the images of the distributions of low weight chemical compounds (metabolites) on the surface of biological tissues to unveil interactions between molecules. Mass spectrometry imaging (MSI) is currently the principal technique to get molecular imaging information for spatial metabolomics. MSI is a labelfree molecular imaging technology that produces mass spectra preserving the spatial structures of tissue samples. This is achieved by ionizing small portions of a sample (a pixel) in a defined raster through all its surface, which results in a collection of ion distribution images (registered as mass-to-charge ratios (m/z)) over the sample. This thesis is aimed to develop computational tools for peak annotation in MSI and in the design of workflows for the statistical and multivariate analysis of MSI data, including spatial segmentation. The work carried out in this thesis can be clearly separated in two parts. Firstly, the development of an isotope and adduct peak annotation tool suited to facilitate the identification of the low mass range compounds. We can now easily find monoisotopic ions in our MSI datasets thanks to the rMSIannotation software package. Secondly, the development of software tools for data analysis and spatial segmentation based on soft clustering for MSI data. In this thesis, we have developed tools and methodologies to search for significant ions (rMSIKeyIon software package) and for the soft clustering of tissues (Fuzzy c-means algorithm)

    Semantic Biclustering

    Get PDF
    Tato disertační práce se zaměřuje na problém hledání interpretovatelných a prediktivních vzorů, které jsou vyjádřeny formou dvojshluků, se specializací na biologická data. Prezentované metody jsou souhrnně označovány jako sémantické dvojshlukování, jedná se o podobor dolování dat. Termín sémantické dvojshlukování je použit z toho důvodu, že zohledňuje proces hledání koherentních podmnožin řádků a sloupců, tedy dvojshluků, v 2-dimensionální binární matici a zárove ň bere také v potaz sémantický význam prvků v těchto dvojshlucích. Ačkoliv byla práce motivována biologicky orientovanými daty, vyvinuté algoritmy jsou obecně aplikovatelné v jakémkoli jiném výzkumném oboru. Je nutné pouze dodržet požadavek na formát vstupních dat. Disertační práce představuje dva originální a v tomto ohledu i základní přístupy pro hledání sémantických dvojshluků, jako je Bicluster enrichment analysis a Rule a tree learning. Jelikož tyto metody nevyužívají vlastní hierarchické uspořádání termů v daných ontologiích, obecně je běh těchto algoritmů dlouhý čin může docházet k indukci hypotéz s redundantními termy. Z toho důvodu byl vytvořen nový operátor zjemnění. Tento operátor byl včleněn do dobře známého algoritmu CN2, kde zavádí dvě redukční procedury: Redundant Generalization a Redundant Non-potential. Obě procedury pomáhají dramaticky prořezat prohledávaný prostor pravidel a tím umožňují urychlit proces indukce pravidel v porovnání s tradičním operátorem zjemnění tak, jak je původně prezentován v CN2. Celý algoritmus spolu s redukčními metodami je publikován ve formě R balííčku, který jsme nazvali sem1R. Abychom ukázali i možnost praktického užití metody sémantického dvojshlukování na reálných biologických problémech, v disertační práci dále popisujeme a specificky upravujeme algoritmus sem1R pro dv+ úlohy. Zaprvé, studujeme praktickou aplikaci algoritmu sem1R v analýze E-3 ubikvitin ligázy v trávicí soustavě s ohledem na potenciál regenerace tkáně. Zadruhé, kromě objevování dvojshluků v dat ech genové exprese, adaptujeme algoritmus sem1R pro hledání potenciálne patogenních genetických variant v kohortě pacientů.This thesis focuses on the problem of finding interpretable and predic tive patterns, which are expressed in the form of biclusters, with an orientation to biological data. The presented methods are collectively called semantic biclustering, as a subfield of data mining. The term semantic biclustering is used here because it reflects both a process of finding coherent subsets of rows and columns in a 2-dimensional binary matrix and simultaneously takes into account a mutual semantic meaning of elements in such biclusters. In spite of focusing on applications of algorithms in biological data, the developed algorithms are generally applicable to any other research field, there are only limitations on the format of the input data. The thesis introduces two novel, and in that context basic, approaches for finding semantic biclusters, as Bicluster enrichment analysis and Rule and tree learning. Since these methods do not exploit the native hierarchical order of terms of input ontologies, the run-time of algorithms is relatively long in general or an induced hypothesis might have terms that are redundant. For this reason, a new refinement operator has been invented. The refinement operator was incorporated into the well-known CN2 algorithm and uses two reduction procedures: Redundant Generalization and Redundant Non-potential, both of which help to dramatically prune the rule space and consequently, speed-up the entire process of rule induction in comparison with the traditional refinement operator as is presented in CN2. The reduction procedures were published as an R package that we called sem1R. To show a possible practical usage of semantic biclustering in real biological problems, the thesis also describes and specifically adapts the algorithm for two real biological problems. Firstly, we studied a practical application of sem1R algorithm in an analysis of E-3 ubiquitin ligase in the gastrointestinal tract with respect to tissue regeneration potential. Secondly, besides discovering biclusters in gene expression data, we adapted the sem1R algorithm for a different task, concretely for finding potentially pathogenic genetic variants in a cohort of patients

    Bayesian methods for small molecule identification

    Get PDF
    Confident identification of small molecules remains a major challenge in untargeted metabolomics, natural product research and related fields. Liquid chromatography-tandem mass spectrometry is a predominant technique for the high-throughput analysis of small molecules and can detect thousands of different compounds in a biological sample. The automated interpretation of the resulting tandem mass spectra is highly non-trivial and many studies are limited to re-discovering known compounds by searching mass spectra in spectral reference libraries. But these libraries are vastly incomplete and a large portion of measured compounds remains unidentified. This constitutes a major bottleneck in the comprehensive, high-throughput analysis of metabolomics data. In this thesis, we present two computational methods that address different steps in the identification process of small molecules from tandem mass spectra. ZODIAC is a novel method for de novo that is, database-independent molecular formula annotation in complete datasets. It exploits similarities of compounds co-occurring in a sample to find the most likely molecular formula for each individual compound. ZODIAC improves on the currently best-performing method SIRIUS; on one dataset by 16.5 fold. We show that de novo molecular formula annotation is not just a theoretical advantage: We discover multiple novel molecular formulas absent from PubChem, one of the biggest structure databases. Furthermore, we introduce a novel scoring for CSI:FingerID, a state-of-the-art method for searching tandem mass spectra in a structure database. This scoring models dependencies between different molecular properties in a predicted molecular fingerprint via Bayesian networks. This problem has the unusual property, that the marginal probabilities differ for each predicted query fingerprint. Thus, we need to apply Bayesian networks in a novel, non-standard fashion. Modeling dependencies improves on the currently best scoring

    Knowledge Accumulation of Microbial Data Aiming at a Dynamic Taxonomic Framework

    Get PDF
    Deze thesis is een poging om precies dit onderzoeksgebied te overbruggen dat ligt tussen ruw gegeven en abstract concept, tussen praktijk en theorie, binnen het kader van de hedendaagse bacteriële taxonomie. Als gevolg hiervan is het een kruisbestuiving geworden tussen microbiologie, wiskunde en computerwetenschappen. De kunst om het landschap van de bacteriële diversiteit uit te tekenen, gebruikt als een metafoor voor het modelleren van de taxonomie, vereist het bepalen van een representatieve waaier aan reproduceerbare en vergelijkbare experimentele kenmerken van een verzameling bacteriën (microbiologie/taxonomie), het ontwerpen en implementeren van objectieve classificatiemethodes voor het groeperen van gegevens op een niet gecoördineerde manier (wiskunde/classificatie) en het consolideren van experimentele gegevens en hun verschillende onderverdelingen via een uniforme en weldoordachte aanpak (computerwetenschappen/kennisbeheer). Men kan zich gemakkelijk een globaal kennissysteem voor de geest halen dat de vellen vol experimentele gegevens die voortspruiten uit de microbiologische onderzoeksverrichtingen op een gestructureerde en geüniformiseerde manier kan absorberen. Een dergelijk kennisbeheersysteem zou een ongelofelijke vooruitgang betekenen voor de mogelijke toepassing van intelligente en goed gefundeerde methodes voor het ontginnen van de gegevens, ingezet als hulpmiddel om het afbakenen van objectieve en universele taxonomische consensusmodellen op een betere manier te stroomlijnen en te automatiseren. Bovendien kunnen dergelijke inferentiesystemen in staat worden geacht om ogenblikkelijk te reageren op een toevloed van nieuwe gegevens en interactief te communiceren met de buitenwereld indien noodzakelijke stukken voor het vervolledigen van de taxonomische puzzel zouden ontbreken. De geldigheid van nieuwe inzichten of hypothesen omtrent het leven en de evolutie van bacteriën zou onmiddellijk kunnen getoetst worden aan deze vergaarbakken vol kennis, mogelijks met een directe aanpassing van bestaande taxonomische modellen tot gevolg. Vooraleer de betrachtingen van een autodidactisch inferentiesysteem voor het uittekenen van het landschap van de bacteriële diversiteit kunnen gerealiseerd worden, moeten belangrijke technische en organisatorische hindernissen overwonnen worden. Dit vraagt het verleggen van de grenzen van een mondiale uitwisseling van gegevens, het nasporen en invullen van de hiaten in de waarnemingen, en het verkennen van de mogelijkheden van nieuwe technieken voor het ontginnen van gegevens, ten voordele van een beter inzicht in het leven en de evolutie van bacteriën. Spijts de nog vele onopgeloste kwesties, kunnen de ideeën die worden aangebracht in deze verhandeling als stimulans en leidraad dienen bij het integreren en exploiteren van microbiële gegevens, in plaats van het blijvend koesteren van een ijdele hoo

    More is Different: Modern Computational Modeling for Heterogeneous Catalysis

    Get PDF
    La combinació d'observacions experimentals i estudis de la Density Functional Theory (DFT) és un dels pilars de la investigació química moderna. Atès que permeten recopilar informació física addicional d'un sistema químic, difícilment accessible a través de l'entorn experimental, aquests estudis es fan servir àmpliament per modelar i predir el comportament d'una gran varietat de compostos químics en entorns únics. A la catàlisi heterogènia, els models DFT s'utilitzen habitualment per avaluar la interacció entre els compostos moleculars i els catalitzadors, vinculant aquestes interpretacions amb els resultats experimentals. Tanmateix, l'alta complexitat trobada tant als escenaris catalítics com a la reactivitat, implica la necessitat de metodologies sofisticades que requereixen automatització, emmagatzematge i anàlisi per estudiar correctament aquests sistemes. Aquest treball presenta el desenvolupament i la combinació de múltiples metodologies per avaluar correctament la complexitat d'aquests sistemes químics. A més, aquest treball mostra com s'han utilitzat les tècniques proporcionades per estudiar noves configuracions catalítiques d'interès acadèmic i industrial.La combinación de observaciones experimentales y estudios de la Density Functional Theory (DFT) es uno de los pilares de la investigación química moderna. Dado que permiten recopilar información física adicional de un sistema químico, difícilmente accesible a través del entorno experimental, estos estudios se emplean ampliamente para modelar y predecir el comportamiento de una gran variedad de compuestos químicos en entornos únicos. En la catálisis heterogénea, los modelos DFT se emplean habitualmente para evaluar la interacción entre los compuestos moleculares y los catalizadores, vinculando estas interpretaciones con los resultados experimentales. Sin embargo, la alta complejidad encontrada tanto en los escenarios catalíticos como en la reactividad, implica la necesidad de metodologías sofisticadas que requieren de automatización, almacenamiento y análisis para estudiar correctamente estos sistemas. Este trabajo presenta el desarrollo y la combinación de múltiples metodologías con el objetivo de evaluar correctamente la complejidad de estos sistemas químicos. Además, este trabajo muestra cómo las técnicas proporcionadas se han utilizado para estudiar nuevas configuraciones catalíticas de interés académico e industrial.The combination of Experimental observations and Density Functional Theory studies is one of the pillars of modern chemical research. As they enable the collection of additional physical information of a chemical system, hardly accessible via the experimental setting, Density Functional Theory studies are widely employed to model and predict the behavior of a diverse variety of chemical compounds under unique environments. Particularly, in heterogeneous catalysis, Density Functional Theory models are commonly employed to evaluate the interaction between molecular compounds and catalysts, lately linking these interpretations with experimental results. However, high complexity found in both, catalytic settings and reactivity, implies the need of sophisticated methodologies involving automation, storage and analysis to correctly study these systems. Here, I present the development and combination of multiple methodologies, aiming at correctly asses complexity. Also, this work shows how the provided techniques have been actively used to study novel catalytic settings of academic and industrial interest

    Laboratory directed research and development. FY 1995 progress report

    Full text link

    Psr1p interacts with SUN/sad1p and EB1/mal3p to establish the bipolar spindle

    Get PDF
    Regular Abstracts - Sunday Poster Presentations: no. 382During mitosis, interpolar microtubules from two spindle pole bodies (SPBs) interdigitate to create an antiparallel microtubule array for accommodating numerous regulatory proteins. Among these proteins, the kinesin-5 cut7p/Eg5 is the key player responsible for sliding apart antiparallel microtubules and thus helps in establishing the bipolar spindle. At the onset of mitosis, two SPBs are adjacent to one another with most microtubules running nearly parallel toward the nuclear envelope, creating an unfavorable microtubule configuration for the kinesin-5 kinesins. Therefore, how the cell organizes the antiparallel microtubule array in the first place at mitotic onset remains enigmatic. Here, we show that a novel protein psrp1p localizes to the SPB and plays a key role in organizing the antiparallel microtubule array. The absence of psr1+ leads to a transient monopolar spindle and massive chromosome loss. Further functional characterization demonstrates that psr1p is recruited to the SPB through interaction with the conserved SUN protein sad1p and that psr1p physically interacts with the conserved microtubule plus tip protein mal3p/EB1. These results suggest a model that psr1p serves as a linking protein between sad1p/SUN and mal3p/EB1 to allow microtubule plus ends to be coupled to the SPBs for organization of an antiparallel microtubule array. Thus, we conclude that psr1p is involved in organizing the antiparallel microtubule array in the first place at mitosis onset by interaction with SUN/sad1p and EB1/mal3p, thereby establishing the bipolar spindle.postprin
    corecore