Integrative Analytical and Computational Strategies for Qualitative and Semi-quantitative Plant Metabolome Characterization

Abstract

The detailed assessment of the composition of plant-derived products is of primary interest. The metabolites in natural extracts (NE) constitute the metabolome, which can be divided into the core and the specialized metabolome. Plants produce specialized metabolites to ensure their survival in a competitive environment. To assess the composition of NEs, currently validated methods for rigorous annotation and quantification of metabolites require standards. However, among the known metabolites, the availability of commercial reference standards is heavily restricted. Given this limitation, common analytical methods for NE composition assessment focus on studying a few specific and often non-bioactive markers. Liquid chromatography coupled to mass spectrometry (LC-MS) is a method of choice for NE metabolite analysis. Annotating data sets generated by LC-MS systems remains challenging. Dereplication allows focusing efforts on novel compounds, overcoming this challenge by leveraging prior knowledge and computational tools. In the frame of the present thesis, two resources to improve dereplication were developed. The first is the Taxonomically Informed Metabolite Annotation, which allows for better decision-making when multiple structural candidates are suggested by current MS-based annotation tools. The second is LOTUS, an initiative for open knowledge management in natural products research, that provides the largest collection of metabolite-taxon pairs. In addition to annotation, semi-quantitative aspects are crucial for NE composition evaluation. They are needed to document the use of NEs as products and assess the presence and concentration level of potentially toxic compounds. Such information may also provide a rationale to justify specific molecules’ contribution to an extract’s overall bioactivity. Nevertheless, generic methods generating a semi-quantitative assessment of a large panel of metabolites are still lacking. Typically, only a dozen metabolites account for most of the extract’s mass, while hundreds are present in trace amounts. Therefore, effective procedures providing a comprehensive analysis of the metabolome of NEs are needed, further addressing both qualitative and quantitative aspects. This work combines qualitative and semi-quantitative information in an automated manner, by integrating LC-MS-based metabolite profiling with generic universal detection methods. The impact of this strategy is evaluated on public data, collaborations, and well-known plants. Its application to different research questions is illustrated, i.e. through flavoring plants of industrial interest such as Swertia chirayita (Roxb.) H. Karst, containing large quantities of bitter principles. The presented workflow, integrating analytical and computational strategies, aims to make plant metabolomics research more effective for public health, food and beverage safety, as well as fundamental science.L'évaluation détaillée de la composition des produits dérivés des plantes est d'intérêt primordial. Les métabolites présents dans les extraits naturels (NE) constituent le métabolome, qui peut être divisé en métabolome principal et métabolome spécialisé. Les plantes produisent des métabolites spécialisés pour assurer leur survie dans un environnement compétitif. Pour évaluer la composition des NE, les méthodes actuellement validées pour l'annotation et la quantification rigoureuses des métabolites nécessitent des standards. Cependant, parmi les métabolites connus, la disponibilité de standards de référence commerciaux est fortement limitée. Compte tenu de cette limitation, les méthodes analytiques courantes pour l'évaluation de la composition du NE se fondent sur l'étude de quelques marqueurs spécifiques et souvent non bioactifs. La chromatographie liquide couplée à la spectrométrie de masse (LC-MS) est une méthode de choix pour l'analyse des métabolites de NE. L'annotation des données générées par ces systèmes LC-MS reste un défi. La déréplication permet de concentrer les efforts sur des composés nouveaux, surmontant ce défi en tirant parti des connaissances antérieures et des outils informatiques. Dans le cadre de la présente thèse, deux ressources visant à améliorer la déréplication ont été développées. La première est l'Annotation de Metabolites Informée Taxonomiquement, qui permet une meilleure prise de décision lorsque de multiples candidats structurels sont suggérés par les outils d'annotation actuels basés sur la MS. Le second est LOTUS, une initiative pour la gestion ouverte des connaissances dans la recherche sur les produits naturels, qui fournit la plus grande collection de paires métabolite-taxon. Outre l'annotation, les aspects semi-quantitatifs sont cruciaux pour l'évaluation de la composition des NE. Ils sont nécessaires pour documenter l'utilisation des NE en tant que produits et évaluer la présence et le niveau de concentration de composés potentiellement toxiques. Ces informations peuvent également permettre de justifier la contribution de molécules spécifiques à la bioactivité globale d'un extrait. Néanmoins, il n'existe toujours pas de méthodes génériques permettant une évaluation semi-quantitative d'un large panel de métabolites. Typiquement, seule une douzaine de métabolites représentent la majeure partie de la masse de l'extrait, tandis que des centaines sont présents à l'état de traces. Il est donc nécessaire de mettre au point des procédures efficaces permettant une analyse complète du métabolome des NE, en tenant compte des aspects qualitatifs et quantitatifs. Ce travail combine des informations qualitatives et semi-quantitatives de manière automatisée, en intégrant le profilage des métabolites par LC-MS avec des méthodes de détection universelles génériques. L'impact de cette stratégie est évalué sur des données publiques, des collaborations et différentes plantes connues. Son application à différentes questions de recherche est illustrée, par exemple à travers des plantes aromatiques ou sapides d'intérêt industriel telles que Swertia chirayita (Roxb.) H. Karst, contenant de grandes quantités de principes amers. Le flux de travail présenté, intégrant des stratégies analytiques et computationnelles, vise à rendre la recherche en métabolomique végétale plus efficace pour la santé publique, la sécurité des aliments et des boissons, ainsi que pour la science fondamentale.Die detaillierte Bewertung der Zusammensetzung von Pflanzenprodukten ist von vorrangigem Interesse. Die Metaboliten in den natürlichen Extrakten (NE) bilden das Metabolom, das in Hauptmetabolom und spezialisiertes Metabolom unterteilt werden kann. Pflanzen produzieren spezialisierte Metaboliten, um ihr Überleben in einer kompetitiven Umgebung zu sichern. Um die Zusammensetzung der NE zu bewerten, sind Standards für die derzeit validierten Methoden zur strengen Annotation und Quantifizierung von Metaboliten erforderlich. Unter den bekannten Metaboliten ist die Verfügbarkeit von kommerziellen Referenzstandards jedoch stark eingeschränkt. Angesichts dieser Einschränkung basieren die gängigen Analysemethoden zur Bewertung der NE-Zusammensetzung auf der Untersuchung einiger weniger spezifischer und oft nicht bioaktiver Marker. Die Flüssigchromatographie gekoppelt mit Massenspektrometrie (LC-MS) ist eine Methode der Wahl für die Analyse von NE-Metaboliten. Die Annotation der Datensätze, die von LC-MS-Systemen erzeugt werden, bleibt eine Herausforderung. Die Dereplikation ermöglicht den Fokus auf neue Verbindungen und überwindet diese Herausforderung durch die Nutzung von Vorwissen und Computerwerkzeugen. Im Rahmen der vorliegenden Dissertation wurden zwei Ressourcen zur Verbesserung der Dereplikation entwickelt. Die erste ist die Taxonomically Informed Metabolite Annotation, die eine bessere Entscheidungsfindung ermöglicht, wenn mehrere strukturelle Kandidaten von den aktuellen MS-basierten Annotationswerkzeugen vorgeschlagen werden. Das zweite ist LOTUS, eine Initiative für offenes Wissensmanagement in der Naturstoffforschung, die die größte Sammlung von Metabolit-Taxon-Paaren zur Verfügung stellt. Neben der Annotation sind semiquantitative Aspekte für die Bewertung der Zusammensetzung von NE von entscheidender Bedeutung. Sie sind notwendig, um die Verwendung von NE als Produkte zu dokumentieren und das Vorhandensein und die Konzentrationshöhe potenziell toxischer Verbindungen zu bewerten. Diese Informationen können auch dazu dienen, den Beitrag spezifischer Moleküle zur Gesamtbioaktivität eines Extrakts zu begründen. Dennoch gibt es immer noch keine generischen Methoden, die eine semiquantitative Bewertung eines breiten Spektrums von Metaboliten ermöglichen. Typischerweise machen nur ein Dutzend Metaboliten den größten Teil der Masse des Extrakts aus, während Hunderte in Spuren vorhanden sind. Daher müssen effiziente Verfahren entwickelt werden, die eine umfassende Analyse des Metaboloms von NE unter Berücksichtigung qualitativer und quantitativer Aspekte ermöglichen. In dieser Arbeit werden qualitative und semiquantitative Informationen auf automatisierte Weise kombiniert, indem das LC-MS-basierte Metabolitenprofiling mit allgemeinen universellen Nachweismethoden integriert wird. Die Auswirkungen dieser Strategie werden anhand von öffentlichen Daten, Kollaborationen und verschiedenen bekannten Pflanzen. Ihre Anwendung auf verschiedene Forschungsfragen wird veranschaulicht, z. B. anhand von aromatischen oder sapiden Pflanzen von industriellem Interesse wie Swertia chirayita (Roxb.) H. Karst, die große Mengen an Bitterstoffen enthalten. Der vorgestellte Arbeitsablauf, der analytische und computergestützte Strategien integriert, soll die Forschung im Bereich Pflanzenmetabolomik für die öffentliche Gesundheit, die Lebensmittel- und Getränkesicherheit sowie die Grundlagenwissenschaft effizienter machen.La valutazione dettagliata della composizione dei prodotti di origine vegetale è di interesse primario. I metaboliti presenti negli estratti naturali (NE) costituiscono il metaboloma, che può essere suddiviso in metaboloma principale e metaboloma specializzato. Le piante producono metaboliti specializzati per garantire la loro sopravvivenza in un ambiente competitivo. Per valutare la composizione dei NE, i metodi attualmente validati per l'annotazione e la quantificazione rigorosi dei metaboliti richiedono degli standard. Tuttavia, dei metaboliti conosciuti, la disponibilità di standard commerciali di riferimento è fortemente limitata. Data questa limitazione, gli metodi analitici attuali per la valutazione della composizione dei NE si basano sullo studio di pochi marcatori specifici e spesso non bioattivi. La cromatografia liquida-spettrometria di massa (LC-MS) è un metodo di scelta per l'analisi dei metaboliti dei NE. L'annotazione degli dati generati da LC-MS rimane una sfida. La dereplicazione consente di concentrare gli sforzi su composti nuovi, superando questa sfida sfruttando le conoscenze pregresse e i strumenti computazionali. Nel contesto di questa tesi, sono state sviluppate due risorse per migliorare la dereplicazione. Il primo è la Taxonomically Informed Metabolite Annotation, che consente di prendere decisioni migliori quando gli attuali strumenti di annotazione basati sulla MS suggeriscono più candidati strutturali. Il secondo è LOTUS, un'iniziativa per la gestione aperta della conoscenza nella ricerca sui prodotti naturali, che fornisce la più ampia raccolta di coppie metabolita-tassone. Oltre all'annotazione, gli aspetti semiquantitativi sono fondamentali per la valutazione della composizione dei NE. Essi sono necessari per documentare l'uso dei NE come prodotti e per valutare la presenza e il livello di concentrazione di composti potenzialmente tossici. Queste informazioni possono essere utilizzate anche per giustificare il contributo di specifiche molecole alla bioattività complessiva di un estratto. Tuttavia, non esistono ancora metodi generici per la valutazione semiquantitativa di un'ampia gamma di metaboliti. In genere, solo una decina di metaboliti costituiscono la maggior parte dell'estratto, mentre centinaia sono presenti in tracce. È quindi necessario sviluppare procedure efficienti per un'analisi completa del metaboloma dei NE, che tenga conto di aspetti sia qualitativi che quantitativi. Questo lavoro combina informazioni qualitative e semi-quantitative in modo automatizzato, integrando la profilazione dei metaboliti basata su LC-MS con metodi generici di rilevazione universale. L'impatto di questa strategia è valutato su dati pubblici, collaborazioni e diverse piante note. La sua applicazione a diverse questioni di ricerca è illustrata, ad esempio attraverso piante aromatiche o sapide di interesse industriale come la Swertia chirayita (Roxb.) H. Karst, contenente grandi quantità di principi amari. Il flusso di lavoro presentato, che integra strategie analitiche e computazionali, mira a rendere più efficace la ricerca sulla metabolomica vegetale per la salute pubblica, la sicurezza di alimenti e bevande e la scienza di base.</p

    Similar works

    Full text

    thumbnail-image

    Available Versions