2 research outputs found

    Starkeya nomas sp. nov., a prosthecate and budding bacterium isolated from an immunocompromized patient

    Get PDF
    Strain HF14-78462T is an environmental bacterium found in clinical samples from an immunocompromized patient in 2014 at Hospital Universitari i Politècnic La Fe (Valencia, Spain). Phenotypically, strain HF14-78462T cells were Gram-stain-negative, aerobic, non-spore forming and non-motile small rods which formed mucous and whitish-translucent colonies when incubated at 20-36 °C. Phylogenetic analyses based on the 16S rRNA genes and the whole genomes of closest sequenced relatives confirmed that strain HF14-78462T is affiliated with the genus Starkeya. The strain was oxidase, catalase and urease positive; but indole, lysine decarboxylase, ornithine decarboxylase and DNase negative, did not produce H2S and was able to utilize a wide variety of carbon sources including acetamide, adonitol, amygdalin, l-arabinose, citric acid, glucose, mannitol and melibiose. Unlike Starkeya novella and Starkeya koreensis, strain HF14-78462T failed to grow in thiosulphate-oxidizing media and had a narrower temperature growth range. Its genome was characterized by a size of 4.83 Mbp and a C+G content of 67.75 mol%. Major fatty acids were C18:1 ω7c, cyclo C19 : 0 and C16 : 0, its polar acids were diphosphatidylglycerol, phosphatidylcholine, phosphatidylethanolamine, phosphatidylglycerol and an aminophospholipid; while the ubiquinones were Q9 (1.8 %) and Q10 (98.2 %). Digital DNA-DNA hybridization values were 41 and 41.4 against S. novella and S. koreensis, respectively, while average nucleotide identity values were around 84 %. Phenotypic, average nucleotide identity and phylogenomic comparative studies suggest that strain HF14-78462T is a new representative of the genus Starkeya and the name Starkeya nomas sp. nov. is proposed. The type strain is HF14-78462T (=CECT 30124T=LMG 31874T).Financial support was obtained by the IIS project 2013/0437.S

    Development of new bioinformatic tools to improve mass spectrometry-based analysis of the lipidome

    Get PDF
    El desarrollo de la bioinformática y de las tecnologías analíticas han permitido la irrupción de las aproximaciones ómicas en la ciencia. Estas plataformas de perfilado molecular masivo tienen como objetivo la determinación del conjunto de biomoléculas (genes, proteínas, metabolitos, etc.) que forman parte de un sistema biológico. Entre ellas, la metabolómica pretende caracterizar el conjunto de metabolitos, moléculas de bajo peso molecular que actúan como precursores, intermediarios o productos finales del metabolismo. Los niveles de los metabolitos vienen determinados por todos aquellos procesos bioquímicos encargados de su producción, consumo y eliminación y, por tanto, son un reflejo directo del estado fisiológico del sistema biológico en estudio. La gran diversidad de propiedades físico-químicas de los metabolitos, que determinan en gran medida que técnicas analíticas deben utilizarse para su caracterización, han favorecido la aparición de subdisciplinas dentro de la metabolómica centradas en el análisis de un grupo concreto de metabolitos con características compartidas. Los lípidos son un subgrupo numeroso y heterogéneo de metabolitos que se caracterizan por su naturaleza hidrofóbica o anfifílica y que tienen una gran importancia biológica como intermediarios o productos de rutas de señalización, componentes estructurales de las membranas celulares y fuentes de energía. El análisis holístico de estos lípidos ha supuesto que la lipidómica se establezca como una subdisciplina de la metabolómica con entidad y características propias. El metabolismo de los lípidos juega un papel central en los sistemas biológicos y su estudio puede contribuir a la comprensión de los mecanismos que subyacen a diferentes condiciones patológicas. En los últimos años se han identificado alteraciones en los perfiles lipídicos generales y en especies lipídicas particulares en enfermedades de alta prevalencia como el cáncer, el hígado graso no alcohólico, la diabetes, las cardiopatías y las enfermedades neurológicas. Actualmente, existe un gran interés en conocer el papel que juegan los lípidos no solo en la fisiopatología de diversas enfermedades, sino también para determinar si éstos podrían constituir nuevos biomarcadores de diagnóstico, pronóstico o de respuesta a un tratamiento. Sin embargo, la mayoría de los biomarcadores lipídicos propuestos no están validados o no son útiles como biomarcadores clínicos debido a la falta de especificidad o sensibilidad de estas moléculas. Además, la interpretación biológica de las alteraciones del metabolismo de los lípidos es limitada porque aún se desconocen las funciones específicas de la mayoría de las especies de lípidos. En la mayoría de los casos, solo se utilizan los niveles globales de las clases de lípidos y los ácidos grasos libres totales para la interpretación de los resultados, pasando por alto la composición de las cadenas de ácidos grasos de los lípidos complejos. Por lo tanto, aún se requieren avances en métodos analíticos y herramientas bioinformáticas que mejoren el análisis del lipidoma para comprender completamente el metabolismo de los lípidos y sus implicaciones en cada enfermedad. Actualmente, la espectrometría de masas acoplada a cromatografía líquida (LC-MS) es la técnica analítica más empleada para el análisis del metaboloma y del lipidoma. En LC-MS, los metabolitos se separan en primer lugar por cromatografía líquida para, a continuación, ser ionizados y detectados por espectrometría de masas. El resultado final es un conjunto de datos crudos caracterizados por tres variables, tiempo de retención (RT), relación masa-carga (m/z) e intensidad que deben ser procesados para extraer las señales asociadas a los diferentes metabolitos presentes en las muestras. En función del objetivo de un análisis metabolómico llevado a cabo por LC-MS, se distinguen dos tipos de aproximaciones: metabolómica dirigida o targeted, cuyo objetivo es la cuantificación de un conjunto metabolitos bien caracterizados, y la metabolómica no dirigida o untargeted, cuyo objetivo consiste en conseguir la mayor cobertura posible del metaboloma. Las aproximaciones targeted se realizan con espectrómetros de masas de baja resolución, como puede ser un triple cuadrupolo (TQ, por sus siglas en inglés) y para cada metabolito de interés se deben definir a priori las características a emplear en su detección, esto es su ion molecular (precursores o parent ions) y los fragmentos característicos que se generan tras la fragmentación de los mismos en la celda de colisión (fragmentos o daughter ions). Estos equipos suelen trabajar en modo multiple reaction monitoring (MRM) en el que múltiples metabolitos de interés se detectan en base a las características mencionadas. En las aproximaciones no dirigidas, al no disponer de un conjunto predefinido de metabolitos de interés, los datos deben ser procesados con el objetivo de extraer las señales de la mayor cantidad posible metabolitos que, a priori, son desconocidos. La identificación de los metabolitos se realiza tanto en base a la masa exacta del ion molecular detectado como en base a su estructura, dilucidada gracias a la fragmentación del ion molecular. Por tanto, el análisis untargeted se suele realizar con equipos de alta resolución de masa que además posean la capacidad de fragmentar los iones generados. En la mayoría de los casos los equipos disponen de un cuadrupolo que permite filtrar los iones de interés de forma previa a su fragmentación en la celda de colisión y posterior análisis. En función de si existe o no un filtrado previo de los iones en el cuadrupolo antes de ser introducidos en la celda de colisión, podemos distinguir entre adquisición dependiente de datos (DDA), en la que se seleccionan un número determinado de iones que son seleccionados en el cuadrupolo y posteriormente fragmentados o adquisición independiente de datos (DIA), en la que todos los iones que coeluyen en un momento determinado son introducidos en la celda de colisión. En el caso de los datos adquiridos en DDA existe una conexión directa entre los fragmentos generados y el precursor, mientas que en el caso de DIA se deben utilizar técnicas de análisis de datos para poder establecer la conexión/correlación entre los precursores y sus correspondientes fragmentos. Los equipos más habituales para el análisis metabolómico untargeted son el cuadrupolo-tiempo de vuelo (Q-TOF, por sus siglas en inglés) y el cuadrupolo-orbitrap. A pesar del gran interés que ha despertado la lipidómica en los últimos años, la gran heterogeneidad, el tamaño del lipidoma y la falta de estándares comerciales dificultan la correcta identificación de los lípidos detectados mediante un análisis por LC-MS no dirigido, lo que sigue suponiendo el principal cuello de botella en el avance del estudio del lipidoma. Además, como ya se ha mencionado, la interpretación biológica de los resultados es limitada debido a que las funciones específicas de la mayoría de las especies de lípidos son aún desconocidas. Por este motivo, el objetivo general planteado en esta tesis fue el desarrollo de nuevos métodos y herramientas bioinformáticas que faciliten la caracterización del lipidoma y el estudio del metabolismo de lípidos, particularmente ácidos grasos. Para ello se propusieron dos objetivos principales: 1) Desarrollo de una herramienta que mejore la anotación de lípidos en los análisis por LC-MS no dirigidos. Esta herramienta debe cubrir todos los pasos necesarios para el procesamiento de los datos e implementar la anotación de lípidos basada en reglas de fragmentación para datos DDA y DIA. 2) Desarrollo de un método que permita el estudio del conjunto de reacciones implicadas en la biosíntesis de ácidos grasos basado en el uso combinado de LC-MS y trazadores de 13C. Esta tesis se divide en dos capítulos en los que se explican con detalle cada una de las dos herramientas desarrolladas a lo largo de esta tesis, LipidMS (Capítulo 1), un paquete de R para el procesamiento de datos de LC-MS no dirigida y la anotación de lípidos, y FAMetA (Capítulo 2), una herramienta basada en distribuciones de isotopólogos para el análisis exhaustivo del metabolismo de los ácidos grasos, ambas con el objetivo de mejorar el análisis del lipidoma basado en espectrometría de masas. Por un lado, LipidMS fue desarrollado con el objetivo específico de mejorar la identificación de lípidos en LC-MS mediante el uso de reglas de fragmentación. Como ya se ha mencionado, el tamaño, la complejidad y la heterogeneidad del lipidoma junto con la falta de estándares lipídicos disponibles, hacen de la anotación de lípidos uno de los pasos más limitantes y costosos del procesamiento de datos en los estudios lipidómicos por LC-MS. La identificación precisa de cualquier metabolito en LC-MS, requiere la comprobación del RT, m/z y espectro MS/MS con un estándar disponible comercialmente. En el caso de los lípidos, debido a la enorme variedad de especies lipídicas y al reducido número de estándares disponibles, esta estrategia no puede aplicarse en la mayoría de los casos. En este sentido, la definición de patrones de fragmentación para diferentes clases de lípidos ha permitido la construcción in silico de librerías de espectros MS/MS que se utilizan para la anotación de lípidos mediante el uso de algoritmos de spectral matching. Sin embargo, esta estrategia presenta algunas limitaciones. En primer lugar, un único valor de m/z para un precursor no es suficiente para identificar el ion molecular debido a la gran cantidad de solapamientos entre especies isoméricas e isobáricas, por lo que una correcta anotación de isótopos y aductos es de suma importancia en lipidómica no dirigida. Además, aunque la información del MS/MS puede ayudar a distinguir algunos de estos solapamientos, no es suficiente en muchos casos en los que se obtienen fragmentos comunes entre diferentes clases de lípidos o entre diferentes especies de una misma clase. Por otra parte, si el espectro MS/MS contiene un número reducido de fragmentos con intensidades elevadas, los cálculos de similitud entre espectros pueden estar sesgados dando lugar a resultados iguales o muy similares para diferentes especies isobáricas e isoméricas. Esto es muy frecuente en los lípidos, donde los fragmentos específicos de clase, que sólo informan sobre la subclase de un lípido (por ejemplo, los fragmentos de la cabeza polar), o los fragmentos correspondientes a las cadenas de ácidos grasos que sólo informan sobre la composición de las cadenas, pero no sobre la clase o subclase de la especie lipídica de interés, son comunes a un gran número de especies. Por otro lado, cuando los compuestos isobáricos o isoméricos coeluyen durante la separación cromatográfica, lo que también es común debido a la naturaleza estructural de los lípidos a modo de bloques, se obtienen espectros MS/MS complejos tanto para los datos adquiridos en DDA como en DIA, lo que dificulta las anotaciones de lípidos. Como alternativa, la identificación de lípidos basada en reglas de fragmentación y en la presencia o ausencia de los fragmentos esperados para cada clase de lípido se ha implementado en un número reducido de herramientas bioinformáticas. En el momento en que comenzó esta tesis doctoral, solo unas pocas herramientas como LDA o LipidMatch, estaban basados en reglas de fragmentación, y la mayoría, únicamente trabajaban con datos adquiridos en DDA. Por otro lado, MS-DIAL permitía trabajar con datos adquiridos en DIA, pero la anotación de lípidos estaba basada en spectral matching. En versiones posteriores MS-DIAL incorporó la anotación basada en reglas de fragmentación a través de LipidMatch. En este contexto, LipidMS fue diseñado inicialmente con el objetivo de anotar lípidos en muestras individuales utilizando datos adquiridos en DIA y anotaciones basadas en reglas de fragmentación, aunque más tarde fue ampliado a DDA, ya que es el modo de adquisición más comúnmente utilizado. Por otro lado, LipidMS dependía inicialmente del uso de herramientas externas de procesamiento para analizar secuencias de múltiples muestras. Para superar esta limitación, las nuevas versiones del paquete han incorporado las funcionalidades necesarias para cubrir todo el flujo de trabajo en el procesamiento de los datos: extracción de picos, alineación, agrupación e integración de picos. Una vez generada la matriz con todas las señales detectadas en el dataset, LipidMS inicia la identificación de lípidos en aquellas muestras adquiridas en DIA o DDA utilizando la información tanto de MS1 como de MS2. Con respecto a otras herramientas disponibles, LipidMS incorpora dos estrategias que ayudan a maximizar el número de asignaciones correctas y a minimizar las incorrectas. Por un lado, el conjunto de reglas de fragmentación ha sido definido experimentalmente de tal forma que prioriza el uso de fragmentos específicos de clase bien caracterizados en lugar de fragmentos más intensos, pero menos específicos, como son las cadenas de ácidos grasos (que pueden ser comunes a gran cantidad de clases de lípidos). Por otro lado, los lípidos suelen ionizar en forma de múltiples aductos (p.ej. [M+H]+, [M+Na]+ y [M+NH4]+, en el caso de ESI+). En muchas ocasiones los aductos de una especie lipídica concreta pueden ser confundidos con otra especie, por tanto, una correcta asignación de todos los aductos detectados para un lípido concreto de forma previa al análisis de los fragmentos generados contribuye a dar mayor robustez a las identificaciones generadas y a minimizar el número de anotaciones incorrectas. La última versión de LipidMS incluye las reglas de fragmentación predefinidas para 28 clases de lípidos y permite customizar tanto las reglas de fragmentación como los building blocks utilizados para generar las librerías necesarias para la identificación. En función de los fragmentos encontrados, cada especie identificada puede anotarse con diferentes niveles de elucidación estructural: a nivel de clase, cuando solo se han encontrado fragmentos característicos de la clase o subclase de lípido, lo que confirma el tipo de lípido y la composición total de carbonos y dobles enlaces pero no la composición de las cadenas; a nivel de composición de las cadenas de ácidos grasos, cuando además de los fragmentos de clase se han encontrado fragmentos específicos de estas cadenas; y a nivel de posición de las mismas, cuando las intensidades relativas de los fragmentos correspondientes a las cadenas permiten dilucidar la posición de cada uno de las ácidos grasos dentro de la estructura del lípido complejo. LipidMS fue evaluado mediante el análisis de un suero humano comercial aditivado y no aditivado con un total de 68 estándares lipídicos y comparado con dos de los softwares más comúnmente empleados en el procesamiento de datos de metabolómica y lipidómica no dirigida: XCMS y MS-DIAL. En primer lugar, la comparación con XCMS demuestra que los algoritmos de procesamiento implementados en la última versión de LipidMS funcionan correctamente ya que los resultados obtenidos con ambos softwares son similares. Por otro lado, la comparación con MS-DIAL demuestra que LipidMS reduce el número de identificaciones incorrectas y mejora el nivel de elucidación estructural de las especies identificadas pese a que MS-DIAL es capaz de anotar un número mucho mayor de especies, por lo que LipidMS y MS-DIAL podrían utilizarse de manera complementaria. También es importante subrayar que LipidMS soporta el procesamiento simultáneo de las siguientes combinaciones de modos de adquisición MS: todas las muestras adquiridas en DIA; todas las muestras adquiridas en DDA; combinación de muestras DIA y DDA; combinación de full scan y DIA; combinación de full scan y DDA; y combinación de full scan, DDA y DIA, lo que permite integrar con mayor facilidad y de manera automática los resultados de las anotaciones obtenidas en DIA y DDA con el resto de los datos. Futuras mejoras de LipidMS deberían incluir la ampliación de las clases de lípidos y de las cadenas de ácidos grasos y bases esfingoides utilizadas para ofrecer una mejor cobertura del lipidoma, la estandarización de LipidMS para hacerlo compatible con otros paquetes de R, o la posibilidad de analizar datos de lípidos marcados con trazadores isotópicos. Por otro lado, FAMetA surgió como respuesta al segundo objetivo de esta tesis, que consistía en desarrollar una herramienta que facilite el estudio del metabolismo de los ácidos grasos. El uso de trazadores de 13C y detección basada en MS es el método de referencia para el análisis del metabolismo de los ácidos grasos. Este método se basa en la incorporación sucesiva de unidades de dos carbonos marcadas con el isótopo estable del carbono 13C, a través del acetil-CoA, hacia los ácidos grasos durante las reacciones de síntesis y elongación y el posterior análisis de las distribuciones de isotopólogos obtenidas (especies de una misma molécula que difieren únicamente en su masa como consecuencia de la incorporación de 13C en lugar del 12C, que es la especie mayoritaria de forma natural). Gracias a la diferencia de masa entre las especies preexistentes o las sintetizadas a través de fuentes no marcadas con respecto a las generadas a partir de la fuente que contiene 13C, se puede realizar un análisis del metabolismo basado en la distribución de isotopólogos. A pesar de que se han desarrollado varios algoritmos y herramientas para extraer información sobre el metabolismo de los ácidos grasos mediante la modelización de estas distribuciones de isotopólogos, estas siguen proporcionando una información limitada y difícil de interpretar. La mayoría de estos métodos únicamente proporcionan información sobre la lipogénesis de novo para los ácidos grasos de hasta 16 o 18 carbonos o no reflejan los pasos biológicos reales de los procesos de elongación. Además, la desaturación no se tiene en cuenta para la red completa de ácidos grasos. Con el fin de superar estas limitaciones, desarrollamos FAMetA, una herramienta que utiliza las distribuciones de isotopólogos de los ácidos grasos obtenidas por la incorporación de acetil-CoA marcado con 13C para estimar cada uno de los pasos de la mayoría de las reacciones biosintéticas implicadas en el metabolismo de los ácidos grasos: lipogénesis de novo (S), elongación (E), desaturación (Δ) e importación (I). Además, FAMetA permite estimar la contribución relativa del trazador empleado al pool de acetil-CoA (D0, D1 y D2, haciendo referencia a si contiene 0, 1 o 2 átomos de carbono 13 respectivamente). Tradicionalmente, la síntesis de novo para ácidos grasos de hasta 16 carbonos se ha modelizado utilizando distribuciones multinomiales que permiten la estimación de los parámetros I, S y D0, D1, D2. Sin embargo, en FAMetA utilizamos distribuciones quasi-multinomiales capaces de modelizar y cuantificar la sobredispersión (mediante el parámetro Φ) que habitualmente se observa en las distribuciones obtenidas experimentalmente. Para los ácidos grasos de más de 16 carbonos, además de los parámetros S e I, también se estiman hasta cinco términos de elongación (En, haciendo referencia n=1 al primer paso de elongación para ácidos grasos de 18 carbonos y n=5 el último paso para ácidos grasos de 26 carbonos) que representan cada uno de los pasos de elongación individuales de un precursor con X átomos de carbonos, a un producto de longitud X+2. En comparación con herramientas anteriores, la forma en que FAMetA calcula las elongaciones, refleja mejor cómo se elongan los ácidos grasos dentro de las células, lo que permite una interpretación biológica directa de los parámetros de elongación estimados. Además, FAMetA incorpora la estimación indirecta de la desaturación para la red metabólica de los ácidos grasos mediante una estrategia que utiliza los parámetros de síntesis estimados para el precursor y el producto de la reacción de desaturación en lugar del marcaje total. Por último, el flujo de trabajo de FAMetA incluye todas las funciones necesarias para el procesamiento de datos, las comparaciones por grupos y los resultados gráficos, lo que facilita la interpretación de los resultados. Para testar la validez de los algoritmos implementados en FAMetA, en primer lugar, se simuló un conjunto de distribuciones de isotopólogos a partir de valores conocidos de los diferentes parámetros calculados por FAMetA, y se comprobó que FAMetA es capaz de determinar con precisión el conjunto completo de parámetros de la síntesis de ácidos grasos (error relativo < 15%, RSD < 15% para todos los parámetros) siempre que la contribución relativa del trazador (D2) y los parámetros a calcular para un determinado ácido graso, es decir, S, E1, E2, E3 y E4, se encuentren dentro del intervalo 0.05-0.9, lo que garantiza su aplicabilidad en un escenario biológico real. A continuación, FAMetA fue evaluado en diferentes escenarios biológicos tanto in vivo como in vitro, con y sin la presencia de inhibidores conocidos de reacciones específicas del metabolismo de los ácidos grasos, comprobando que FAMetA permite determinar los parámetros asociados a estas reacciones la red metabólica completa y, además, en un escenario de uso de inhibidores, FAMetA es capaz de detectar los cambios específicos inducidos en el metabolismo. Además, comparado con FASA, la única herramienta que hasta el momento incluía el análisis de ácidos grasos elongados más allá de 18 carbonos, FAMetA proporciona una caracterización más completa de la red biosintética de los ácidos grasos, una descripción mejor y más intuitiva de cada uno de los parámetros de síntesis y un flujo de trabajo más completo que va desde el procesamiento de datos hasta las comparaciones basadas en grupos y la representación gráfica. Por último, el uso de inhibidores específicos combinado con el análisis de FAMetA,
    corecore