Search CORE

9 research outputs found

The Artificial Intelligence Workbench: a retrospective review

Author: Fernández Riverola Florentino
González Peña Daniel
López-Fernández Hugo
Pérez Rodríguez José A.
Reboiro-Jato Miguel
Publication venue: Ediciones Universidad de Salamanca (España)
Publication date: 10/01/2016
Field of study

Last decade, biomedical and bioinformatics researchers have been demanding advanced and user-friendly applications for real use in practice. In this context, the Artificial Intelligence Workbench, an open-source Java desktop application framework for scientific software development, emerged with the goal of provid-ing support to both fundamental and applied research in the domain of transla-tional biomedicine and bioinformatics. AIBench automatically provides function-alities that are common to scientific applications, such as user parameter defini-tion, logging facilities, multi-threading execution, experiment repeatability, work-flow management, and fast user interface development, among others. Moreover, AIBench promotes a reusable component based architecture, which also allows assembling new applications by the reuse of libraries from existing projects or third-party software. Ten years have passed since the first release of AIBench, so it is time to look back and check if it has fulfilled the purposes for which it was conceived to and how it evolved over time

Directory of Open Access Journals

Gestion del Repositorio Documental de la Universidad de Salamanca

S2P: A software tool to quickly carry out reproducible biomedical research projects involving 2D-gel and MALDI-TOF MS protein data

Author: Araújo José E
Capelo Martínez José Luis
Carreira dos Santos Hugo Miguel Baptista
Fernández Riverola Florentino
González Peña Daniel
Jorge Susana
López Fernández Hugo
Reboiro Jato Miguel
Publication venue: Sistemas Informáticos de Nova Xeración
Publication date: 11/12/2023
Field of study

Background and objective 2D-gel electrophoresis is widely used in combination with MALDI-TOF mass spectrometry in order to analyze the proteome of biological samples. For instance, it can be used to discover proteins that are differentially expressed between two groups (e.g. two disease conditions, case vs. control, etc.) thus obtaining a set of potential biomarkers. This procedure requires a great deal of data processing in order to prepare data for analysis or to merge and integrate data from different sources. This kind of work is usually done manually (e.g. copying and pasting data into spreadsheet files), which is highly time consuming and distracts the researcher from other important, core tasks. Moreover, engaging in a repetitive process in a non-automated, handling-based manner is prone to error, thus threatening reliability and reproducibility. The objective of this paper is to present S2P, an open source software to overcome these drawbacks. Methods S2P is implemented in Java on top of the AIBench framework, and relies on well-established open source libraries to accomplish different tasks. Results S2P is an AIBench based desktop multiplatform application, specifically aimed to process 2D-gel and MALDI-mass spectrometry protein identification-based data in a computer-aided, reproducible manner. Different case studies are presented in order to show the usefulness of S2P. Conclusions S2P is open source and free to all users at http://www.sing-group.org/s2p. Through its user-friendly GUI interface, S2P dramatically reduces the time that researchers need to invest in order to prepare data for analysis.Ministerio de Economía y Competitividad | Ref. TIN2013-47153-C3-3-RXunta de GaliciaFundação para a Ciência e a Tecnologia | Ref. SFRH/BD/109201/2015Fundação para a Ciência e a Tecnologia | Ref. SFRH/BD/120537/201

Investigo

Implementation of new tools and approaches for the reconstruction of genome-scale metabolic models

Author: Ganâncio Cláudia Isabela Sampaio
Publication venue
Publication date: 31/07/2020
Field of study

Dissertação de mestrado em BioinformáticaThe reconstruction of high-quality genome-scale metabolic (GSM) models can have a rele vant role in the investigation and study of an organism, since these mathematical models can be used to phenotypically manipulate an organism and predict its response, in silico, under different environmental conditions or genetic modifications. Several bioinformatics tools and software have been developed since then to facilitate and accelerate the reconstruction of these models by automating some steps that compose the traditional reconstruction process. “Metabolic Models Reconstruction Using Genome-Scale Information” (merlin) is a free, user-friendly, JavaTM application that automates the main stages of the reconstruction of a GSM model for any microorganism. Although it has already been used successfully in several works, many plugins are still being developed to improve its resources and make it more accessible to any user. In this work, the new tools integrated in merlin will be described in detail, as well as the improvement of other features present on the platform. The general improvements performed and the implementation of the new tools, improve the overall user experience during the process of reconstructing GSM models in merlin. The main feature implemented in this work is the incorporation of the BiGG Integration Tool (BIT) in merlin. This plugin allows the collection of metabolic data that integrates the models present in the BiGG Models database and its association with the genome of the organism in study, by homology, creating, if possible, the boolean rule for each BiGG reaction in the model under construction. All the computation required to execute merlin’s BIT takes place remotely, to accelerate the process. Within a few minutes, the results are returned by the server and imported into the user’s workspace. Running the tool outside the user’s machine also brings advantages in terms of information storage, since the BiGG data structure that supports the entire tool is available remotely. The implementation of this tool provides an alternative to obtaining metabolic information from the KEGG database, the only option available in merlin so far. To test the implemented tool, several draft genome-scale metabolic networks were generated and analyzed.A reconstrução de modelos metabólicos à escala genómica (MEG) de alta qualidade, pode desempenhar um papel relevante na investigação e estudo de um organismo, uma vez que estes modelos matemáticos podem ser utilizados para manipular fenotipicamente um organ ismo e prever a sua resposta, in silico, sob diferentes condições ambientais ou modificações genéticas. Várias ferramentas bioinformáticas e software têm sido desenvolvidos desde então para facilitar e acelerar a reconstrução desses modelos por automatização de algumas etapas que constituem o processo de reconstrução tradicional. O “Metabolic Models Reconstruction Using Genome-Scale Information” (merlin) é uma aplicação JavaTM gratuita, e fácil de utilizar, que automatiza as principais etapas de recon strução de um modelo MEG para qualquer microrganismo. Apesar de já ter sido utilizado com sucesso em vários trabalhos, muitos plugins ainda estão a ser desenvolvidas para aprimorar os seus recursos e torná-lo mais acessível a qualquer utilizador. Neste trabalho, serão descritas em detalhe as novas ferramentas integradas no merlin, bem como a melhoria de outras funcionalidades presentes na plataforma. As melhorias gerais realizadas e a implementação das novas ferramentas permitem melhorar a experiência global do utilizador durante o processo de reconstrução de modelos MEG no merlin. O principal recurso implementado neste trabalho é a integração da BiGG Integration Tool (BIT) no merlin. Este plugin permite a recolha dos dados metabólicos que integram os modelos presentes na base de dados BiGG Models e a sua associação ao genoma do organismo em estudo, por homologia, criando, se possível, a boolean rule para cada reação BiGG presente no modelo sob construção. Todo o processamento exigido para executar a BIT do merlin ocorre remotamente, para acelerar o processo. Em poucos minutos, os resultados são devolvidos pelo servidor e importados para o ambiente de trabalho do utilizador. A execução da ferramenta fora da máquina do utilizador traz também vantagens ao nível do armazenamento da informação, já que a estrutura de dados BiGG que sustenta toda a ferramenta está disponível remotamente. A implementação desta ferramenta fornece uma alternativa à obtenção de informação metabólica a partir da base de dados KEGG, única opção disponibilizada pelo merlin até ao momento. Para testar a ferramenta implementada, várias redes metabólicas à escala genómica rascunho foram geradas e analisadas

Universidade do Minho: RepositoriUM

La-images: A Software For Elemental Distribution Bioimaging Using La-icp-ms Data

Author: Daniel
Florentino
Gustavo de S.
Hugo
Jose L.
Lopez-Fernandez
Marco A. Z.
Miguel
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 13/11/2017
Field of study

Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)The spatial distribution of chemical elements in different types of samples is an important field in several research areas such as biology, paleontology or biomedicine, among others. Elemental distribution imaging by laser ablation inductively coupled plasma mass spectrometry (LA-ICP-MS) is an effective technique for qualitative and quantitative imaging due to its high spatial resolution and sensitivity. By applying this technique, vast amounts of raw data are generated to obtain high-quality images, essentially making the use of specific LA-ICP-MS imaging software that can process such data absolutely mandatory. Since existing solutions are usually commercial or hard-to-use for average users, this work introduces LA-iMageS, an open-source, free-to-use multiplatform application for fast and automatic generation of high-quality elemental distribution bioimages from LA-ICP-MS data in the PerkinElmer Elan XL format, whose results can be directly exported to external applications for further analysis. A key strength of LA-iMageS is its substantial added value for users, with particular regard to the customization of the elemental distribution bioimages, which allows, among other features, the ability to change color maps, increase image resolution or toggle between 2D and 3D visualizations.8Fundacao de Amparo a Pesquisa do Estado de Sao Paulo (FAPESP, Sao Paulo, Brazil)Conselho Nacional de Desenvolvimento Cientifico e Tecnologico (CNPq, Brasilia, Brazil)Coordenacao de Aperfeicoamento de Pessoal de Nivel Superior (CAPES, Brasilia, Brazil)Provincial Council of Ourense [INOU-16-05]national funds from FCT/MEC [UID/QUI/50006/2013, UID/Multi/04378/2013]ERDF under the PT2020 Partnership Agreement [POCI-01-0145-FEDER-007265, POCI-01-0145-FEDER-007728]Unidade de Ciencias Biomoleculares Aplicadas-UCIBIOXunta de GaliciaFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES

Repositorio da Producao Cientifica e Intelectual da Unicamp

A framework for the reconstruction and analysis of tissue specific genome-scale metabolic models

Author: Correia Sara Alexandra Gomes
Publication venue
Publication date: 20/12/2016
Field of study

Tese de Doutoramento em InformáticaIn recent years, the development of novel techniques for genome sequencing and other high-throughput methods has enabled the identification and quantification of individual cell components. Genome-scale metabolic models (GSMMs) have been developed for several organisms, including humans. Under the framework of constraint-based modeling, these have provided phenotype prediction methods, useful in fields as metabolic engineering and biomedical research, spanning tasks as drug discovery, biomarker identification and host-pathogen interactions, and targeting diseases such as cancer, Alzheimer, or diabetes. However, these methods have been limited, since the human body has a diversity of cell types and tissues making the development of specific models an imperative. Methods to provide phenotype simulation with the integration of omics data and to automatically generate tissue-specific models, based on generic human metabolic models and a plethora of omics data, have been proposed. However, their results have not been adequately and critically evaluated and compared. Moreover, their usage is restricted to users with computer science skills, since they are not available in user-friendly software platforms. In this work, an open-source software framework for the integration of GSMMs with omics data has been provided. It contains methods for the processing and integration of data with models, for the reconstruction of tissue-specific GSMMs and for phenotype simulation using omics data. A user-friendly graphical interface is provided for non-programming users to be able to run these methods, while an open programming interface allows the community to contribute. The methods have also been validated and compared in representative case studies, being studied the effects of data sources and algorithms in the final results. In particular, glioblastoma has been selected as a more comprehensive case study, where specific models were generated for a representative cell line using different approaches. These have been compared and integrated into a consensus model, which has been further used for analysis and to support phenotype simulation. The results allow insights into cancer metabolism and possible routes towards drug discovery.Nos últimos anos, o desenvolvimento de novas técnicas de sequenciação genómica e outros métodos experimentais de alto débito têm permitido a identificação e quantificação de componentes celulares. Um conjunto de Modelos Metabólicos à Escala Genómica (MMEG) tem sido desenvolvidos para múltiplos organismos, incluindo os seres humanos. Recorrendo à modelação com base em restrições, estes têm fornecido métodos de predição do fenótipo, que têm sido úteis na área da engenharia metabólica e investigação biomédica, abordando tarefas como a descoberta de fármacos, a identificação de biomarcadores e a interação entre agentes patogénicos e hospedeiros, e doenças como o cancro, Alzheimer ou diabetes. Contudo, estes métodos têm a sua aplicação limitada, dado que o corpo humano ´e constituído por diversos tecidos e tipos de células, tornando essencial o desenvolvimento de modelos específicos. Neste contexto, têm surgido métodos que permitem a simulação do fenótipo com integração de dados ómicros, assim como a reconstrução de modelos específicos baseados num modelo genérico e em conjuntos de dados ómicros. Todavia, os seus resultados não foram ainda comparados e avaliados sistematicamente. Além disso, a sua utilização está restrita a utilizadores com competências computacionais, uma vez que não existe nenhuma plataforma de software de fácil utilização. Neste trabalho, foi desenvolvida uma plataforma de software de acesso livre, que permite a integração de MMEGs com dados ómicros. Esta plataforma contem métodos para o processamento e integração dos dados com os modelos, reconstrução de MMEG para tecidos específicos e simulação do fenótipo utilizando dados ómicros. Foi desenvolvida uma interface gráfica que permite a utilização destes métodos por não programadores. A comunidade pode ainda contribuir para a sua extensão através da interface disponibilizada. Os métodos foram validados e comparados com outros estudos, sendo analisados os efeitos que as fontes de dados e os algoritmos têm nos resultados finais. Em particular, foi selecionado como caso de estudo mais abrangente a reconstrução dos modelos metabólicos, usando diferentes abordagens, para uma linha celular do glioblastoma. Posteriormente, estes modelos foram comparados e integrados num modelo consenso, que foi utilizado para análise e simulação de fenótipos. Os resultados obtidos permitem aprofundar o conhecimento do metabolismo do cancro e apontam possíveis caminhos para a descoberta de novos fármacos.Esta investigação foi financiada pela Fundação para a Ciência e Tecnologia através da concessão de uma bolsa de doutoramento (SFRH/BD/80925/2011), co-financiada pelo POPH – QREN – Tipologia 4.1 – Formação Avançada – e comparticipado pelo Fundo Social Europeu (FSE) e por fundos nacionais do Ministério da Ciência, Tecnologia e Ensino Superior (MCTES)

Universidade do Minho: RepositoriUM

Development of a computational platform for the visualization of metabolic models

Author: Noronha Alberto Miguel Silva
Publication venue
Publication date: 03/12/2013
Field of study

Dissertação de mestrado em BioinformáticaThe recent sequencing techniques and omics approaches are generating huge amounts of data that can provide ways to extract meaningful knowledge, by resorting to appropriate computational tools. One important technique resorts to the use of genome scale model reconstructions. These models are widely used in Metabolic Engineering, attempting to optimize an organism's functions, genetically modifying it to produce compounds of industrial interest. Another area that became widely important within the fields of Systems Biology and Bioinformatics was network analysis and visualization. Networks can provide a way to better understand the relationships between biological entities, by allowing their visual representation. However, biological networks usually comprise a large number of entities and interactions, that cannot be easily interpreted by the human eye. Integrating visualization and analysis is, therefore, a goal of high interest in several scientific areas, and this has been tackled by several visualization tools available. However, regarding the integration of metabolic engineering techniques with metabolic network visualization, there are still few examples of success. Usually, it is necessary to use more than one tool and the agility of the methods is limited. In this work, a metabolic network visualization framework is presented, with the goal of being a tool that will help researchers in metabolic engineering projects. This framework is divided in two layers: the first deals with the importation and exportation of networks in different formats, while the other layer provides all the visualization and edition features. A metabolic layout is based on the reactions contained in the metabolic model, and it can represent just a part of the metabolism of an organism. To have the possibility to use the same layout in different models, a strategy was defined to map the entities of the visualization with the entities of the model. The layouts are displayed in a bipartite graph, with different node types and colors. It is possible to visualize additional information of the network by clicking the nodes. Some of the features include dragging, zooming and highlighting. On top of all this, it is also possible to apply filters and overlap information over these networks. The filters can change what is visible in the network, while the overlaps allow defining new labels, colors and shapes to the nodes, and new colors and thickness to the edges. Finally, the framework was also integrated within OptFlux, an open-source software to support metabolic engineering available at www.optflux.org, to provide a connection between visualization and metabolic simulation methods.As recentes técnicas de sequenciação e as abordagens "ómicas" estão a gerar enormes quantidades de dados que, através do uso de ferramentas computacionais adequadas, podem fornecer formas de extraccão de conhecimento biológico significativo. Uma importante metodologia recorre à reconstrução de modelos metabólicos à escala genómica. Estes modelos são muito usados na Engenharia Metabólica, tentado-se optimizar o funcionamento do organismo, modificando-o geneticamente, de forma a maximizar a produção de compostos de interesse industrial. Outra área de estudo que tem ganho bastante importância nos campos da Biologia de sistemas e Bioinformática é a análise e visualização de redes. As redes podem oferecer formas de melhor compreender as relações existentes entre entidades biológicas, fornecendo uma representação visual destes relacionamentos. No entanto, as redes biológicas, usualmente, são compostas por um elevado número de entidades e relacionamentos, o que pode tornar difícil a sua interpretação a "olho nu". A integração de visualização e análise sempre foi um objectivo de interesse em todas as áreas científicas, e respostas a este problema têm surgido sob a forma de diferentes ferramentas. No entanto, no que se refere à integração de técnicas de engenharia metabólica com visualização de redes metabólicas, existem ainda poucos exemplos com sucesso. Usualmente, é necessário o uso de diversas ferramentas e as funcionalidades e flexibilidade é ainda limitada. Neste trabalho é apresentada uma plataforma para a visualização de redes metabólicas, com o objectivo de ser uma ferramenta que assista investigadores em projectos de engenharia metabólica. Esta plataforma está dividida em duas camadas: a primeira lida com a importação e exportação de redes em diferentes formatos, enquanto a outra camada oferece todas as funcionalidades de visualização e edição. Um layout metabólico é baseado nas reaccões contidas num modelo metabólico, e pode representar apenas uma parte do metabolismo do organismo. De forma a ser possível utilizar o mesmo layout em modelos diferentes, foi definida uma estratégia para mapear as entidades da visualização com as entidades do modelo. Os layouts são representados sob a forma de um grafo bi-partido, com diferentes tipos de nodos e cores. É possível visualizar informação adicional sobre a rede clicando nos nodos. Algumas das funcionalidades incluem arrastar, focar e realçar partes da rede. Para além de tudo isto, é possível aplicar filtros e sobrepor informação sobre a rede. Os filtros permitem definir o que é visível na rede, enquanto a sobreposição permite definir novas etiquetas, formas e cores dos nodos e cores e espessura das conecções. Finalmente, a plataforma foi integrada no OptFlux, uma ferramenta de código aberto para engenharia metabólica que está disponível em www.optflux.org, de forma a estabelecer uma conexão entre a visualização de redes metabólicas e métodos de simulação do metabolismo.ERDF - European Regional Development Fund through the COMPETE Programme (operational programme for competitiveness)Fundação para a Ciência e a Tecnologia (FCT) - COMPETE FCOMP-01-0124-FEDER-015079 and PEst-OE/EEI/UI0752/201

Universidade do Minho: RepositoriUM

Composição de serviços para aplicações biomédicas

Author: Lopes Pedro Jorge Pereira
Publication venue: Universidade de Aveiro
Publication date: 01/01/2012
Field of study

Doutoramento em Engenharia InformáticaA exigente inovação na área das aplicações biomédicas tem guiado a evolução das tecnologias de informação nas últimas décadas. Os desafios associados a uma gestão, integração, análise e interpretação eficientes dos dados provenientes das mais modernas tecnologias de hardware e software requerem um esforço concertado. Desde hardware para sequenciação de genes a registos electrónicos de paciente, passando por pesquisa de fármacos, a possibilidade de explorar com precisão os dados destes ambientes é vital para a compreensão da saúde humana. Esta tese engloba a discussão e o desenvolvimento de melhores estratégias informáticas para ultrapassar estes desafios, principalmente no contexto da composição de serviços, incluindo técnicas flexíveis de integração de dados, como warehousing ou federação, e técnicas avançadas de interoperabilidade, como serviços web ou LinkedData. A composição de serviços é apresentada como um ideal genérico, direcionado para a integração de dados e para a interoperabilidade de software. Relativamente a esta última, esta investigação debruçou-se sobre o campo da farmacovigilância, no contexto do projeto Europeu EU-ADR. As contribuições para este projeto, um novo standard de interoperabilidade e um motor de execução de workflows, sustentam a sucesso da EU-ADR Web Platform, uma plataforma para realizar estudos avançados de farmacovigilância. No contexto do projeto Europeu GEN2PHEN, esta investigação visou ultrapassar os desafios associados à integração de dados distribuídos e heterogéneos no campo do varíoma humano. Foi criada uma nova solução, WAVe - Web Analyses of the Variome, que fornece uma coleção rica de dados de variação genética através de uma interface Web inovadora e de uma API avançada. O desenvolvimento destas estratégias evidenciou duas oportunidades claras na área de software biomédico: melhorar o processo de implementação de software através do recurso a técnicas de desenvolvimento rápidas e aperfeiçoar a qualidade e disponibilidade dos dados através da adopção do paradigma de web semântica. A plataforma COEUS atravessa as fronteiras de integração e interoperabilidade, fornecendo metodologias para a aquisição e tradução flexíveis de dados, bem como uma camada de serviços interoperáveis para explorar semanticamente os dados agregados. Combinando as técnicas de desenvolvimento rápidas com a riqueza da perspectiva "Semantic Web in a box", a plataforma COEUS é uma aproximação pioneira, permitindo o desenvolvimento da próxima geração de aplicações biomédicas.The demand for innovation in the biomedical software domain has been an information technologies evolution driver over the last decades. The challenges associated with the effective management, integration, analyses and interpretation of the wealth of life sciences information stemming from modern hardware and software technologies require concerted efforts. From gene sequencing hardware to pharmacology research up to patient electronic health records, the ability to accurately explore data from these environments is vital to further improve our understanding of human health. This thesis encloses the discussion on building better informatics strategies to address these challenges, primarily in the context of service composition, including warehousing and federation strategies for resource integration, as well as web services or LinkedData for software interoperability. Service composition is introduced as a general principle, geared towards data integration and software interoperability. Concerning the latter, this research covers the service composition requirements within the pharmacovigilance field, namely on the European EU-ADR project. The contributions to this area, the definition of a new interoperability standard and the creation of a new workflow-wrapping engine, are behind the successful construction of the EUADR Web Platform, a workspace for delivering advanced pharmacovigilance studies. In the context of the European GEN2PHEN project, this research tackles the challenges associated with the integration of heterogeneous and distributed data in the human variome field. For this matter, a new lightweight solution was created: WAVe, Web Analysis of the Variome, provides a rich collection of genetic variation data through an innovative portal and an advanced API. The development of the strategies underlying these products highlighted clear opportunities in the biomedical software field: enhancing the software implementation process with rapid application development approaches and improving the quality and availability of data with the adoption of the Semantic Web paradigm. COEUS crosses the boundaries of integration and interoperability as it provides a framework for the flexible acquisition and translation of data into a semantic knowledge base, as well as a comprehensive set of interoperability services, from REST to LinkedData, to fully exploit gathered data semantically. By combining the lightness of rapid application development strategies with the richness of its "Semantic Web in a box" approach, COEUS is a pioneering framework to enhance the development of the next generation of biomedical applications

Repositório Institucional da Universidade de Aveiro

Reconstruction of the genome-scale metabolic network of Kluyveromyces lactis

Author: Dias Oscar
Publication venue
Publication date: 25/06/2013
Field of study

System Biology proposes to study biological components, as well as the interactions between them, to understand and predict systems’ behaviour through the use of mathematical models. Under this scope, Genome-Scale Metabolic Models (GSMMs) can be regarded as mathematical representations of the intrinsic metabolic capabilities of a given organism, encoded in its genome, and can be used in a variety of applications like predicting the phenotypical behaviour of a given organism in different environmental and genetic perturbations. The reconstruction of these models comprehends four fundamental stages, namely Genome Annotation, Assembling of a Metabolic Network from the Genome, the Conversion of the Network to a Stoichiometric Model and finally the Validation of the Metabolic Model. Although this procedure is currently relatively standardized in some stages, a significant amount of work still needs to be done by the community before the reconstruction process becomes semi-automated and reproducible. The present work aims at contributing to this field through the development of several tools for aiding the reconstruction process, while simultaneously applying some of those tools to an industrially relevant organism, the yeast Kluyveromyces lactis. The genome annotation stage is critical, as an inadequate annotation may delay, or even impair, the development of the model. The genome metabolic annotation consists on identifying and attributing functions to metabolic genes, i.e., genes encoding enzymes and transport proteins. While the identification of enzyme encoding genes can be performed by assigning Enzyme Commission numbers to the proteins encoded in the genes, the transport proteins encoding genes annotation is not straightforward. In this work, an automatic system to detect and classify all potential transport proteins from a given genome and integrate the related reactions into GSMMs is proposed, based on the identification and classification of genes that encode transmembrane proteins. The integration of the data provided by this methodology with highly curated models allowed the identification of new transport reactions. This tool was included in the merlin tool, a user-friendly Java application developed under the scope of this thesis that performs the reconstruction of GSMMs for any organism that has its genome sequenced. It performs several steps of the reconstruction process, including the functional genomic annotation of the whole genome. merlin 2.0 also performs the compartmentalisation of the model, predicting the organelle localisation of the proteins encoded in the genome, and thus the localisation of the metabolites involved in the reactions induced by such proteins. Finally, merlin 2.0 expedites the transition from genome-scale data to SBML (the standard Systems Biology Markup Language) metabolic models, allowing the user to have a preliminary view of the biochemical network. The yeast Kluyveromyces lactis has long been considered a model organism for studies in genetics and physiology, mainly due to its ability to metabolize lactose and to express recombinant proteins. Although the genome of Kluyveromyces lactis has been publicly available for some years, until now no complete metabolic functional annotation has been performed to the proteins encoded in the Kluyveromyces lactis genome and consequently no GSMM has been made available. In this work, a new metabolic genome-wide functional re-annotation of the proteins encoded in the Kluyveromyces lactis genome was performed, resulting in the annotation of 1759 genes with metabolic functions, and the development of a methodology supported by merlin. The new annotation includes novelties, such as the assignment of transporter superfamily numbers to genes identified as transporter proteins. The methodology developed throughout this work can be used to re-annotate any yeast or, with a little tweak of the reference organism, the proteins encoded in any sequenced genome. The new annotation provided by this study served as the basis for the reconstruction of a compartmentalized, genome-scale metabolic model for Kluyveromyces lactis. The partially compartmentalised (4 compartments) genome-scale metabolic model of Kluyveromyces lactis, the iOD962 metabolic model, comprises 962 genes, 2038 reactions and 1561 metabolites. Previous chemostat experiments were used to adjust both growth and non-growth associated energy requirements, and the model proved accurate when predicting the biomass, oxygen and carbon dioxide yields. Also, the in silico knockouts predicted accurately the in vivo phenotypes, when compared to published experiments. This model allowed determining a minimal medium for cultivating Kluyveromyces lactis and will surely bring new insights on the milk yeast metabolism, identifying engineering targets for the improvement of the yields of products of interest by performing in silico simulations.A Biologia de Sistemas propõe-se estudar os componentes biológicos e as interações entre eles, para compreender e prever o comportamento dos sistemas através do uso de modelos matemáticos. Nesse âmbito, os Modelos Metabólicos à Escala Genómica (MMEGs) podem ser considerados representações matemáticas das capacidades metabólicas intrínsecas de um dado organismo, codificadas no seu genoma, e podem ser usados numa grande variedade de aplicações tais como a previsão do comportamento fenotípico de um determinado organismo face a diferentes perturbações ambientais e genéticas. O processo de reconstrução destes modelos compreende quatro fases fundamentais: anotação do genoma, desenvolvimento da rede metabólica, conversão da rede num modelo estequiométrico e, finalmente, a validação do modelo metabólico. Apesar de algumas destas fases estarem já relativamente normalizadas, existe ainda uma lacuna significativa na comunidade no que se refere à (semi-) automação e reprodutibilidade deste processo. O presente trabalho apresenta-se como uma contribuição para esta área, através do desenvolvimento de várias ferramentas de apoio à construção de modelos metabólicos e, simultaneamente da sua aplicação ao organismo Kluyveromyces lactis, uma levedura de elevado interesse industrial. A fase de anotação do genoma é uma fase crítica, pois uma anotação inadequada pode atrasar, ou mesmo comprometer o desenvolvimento de um modelo metabólico. A anotação metabólica do genoma consiste na identificação e atribuição de funções aos genes metabólicos, ou seja, genes que codificam enzimas e proteínas de transporte. Enquanto que a identificação de enzimas codificadas nos genes pode ser realizada através da atribuição de números da Comissão para as Enzimas, a anotação de genes que codificam as proteínas de transporte é um processo mais complexo. Neste trabalho é proposto um sistema automático para a deteção e classificação de proteínas de transporte. Este sistema é baseado na identificação e classificação dos genes que codificam proteínas transmembranares. A integração dos dados fornecidos por esta metodologia com modelos metabólicos curados permitiu a identificação de novas reações de transporte em organismos bem estudados. Esta ferramenta está incluída na ferramenta bioinformática merlin desenvolvida no âmbito desta tese, que é uma aplicação Java de fácil utilização, direcionada para a reconstrução de modelos metabólicos à escala genómica. Esta aplicação executa várias etapas do processo de reconstrução, incluindo a anotação funcional do genoma. O merlin 2.0 também efetua a compartimentação do modelo, prevendo a localização das proteínas codificadas no genoma, e consequentemente dos metabolitos envolvidos nas reações induzidas por essas proteínas. Finalmente, merlin 2.0 acelera a transição de dados do genoma para modelos metabólicos no formato SBML (Systems Biology Markup Language), possibilitando uma visão preliminar da rede bioquímica. A levedura Kluyveromyces lactis tem sido considerada um organismo modelo para estudos de genética e fisiologia, principalmente devido à sua capacidade de metabolizar a lactose e pela sua capacidade de expressar proteínas recombinantes. Apesar de o genoma da Kluyveromyces lactis ter sido disponibilizado publicamente há alguns anos, até agora não foi efetuada uma anotação funcional completa para identificar as proteínas codificadas no genoma da Kluyveromyces lactis. Consequentemente, não existe ainda nenhum MMEG para esta levedura. Neste trabalho foi efetuada uma re-anotação funcional das proteínas codificadas no genoma da Kluyveromyces lactis, resultando na anotação de 1759 genes com funções metabólicas, e no desenvolvimento de uma metodologia apoiada na aplicação merlin. A nova anotação do genoma inclui novidades, tais como a atribuição de números de superfamílias de transportadores a genes que codificam proteínas de transporte. A metodologia desenvolvida ao longo deste trabalho pode ser usada para reanotar qualquer levedura ou, com um ajuste do organismo de referência, as proteínas codificadas em qualquer genoma sequenciado. A nova anotação fornecida por este estudo serviu de base para a reconstrução de um modelo metabólico à escala genómica da Kluyveromyces lactis. Este modelo metabólico, parcialmente compartimentado (4 compartimentos), designado iOD962, inclui 962 genes, 2038 reações e 1561 metabolitos. Foram utilizadas experiências em quimiostato publicadas anteriormente para ajustar os requisitos energéticos associados à manutenção celular, e o modelo mostrou precisão na previsão dos rendimentos de biomassa, de dióxido de carbono e de oxigénio. Além disso, as simulações in silico previram com precisão os fenótipos in vivo, quando comparadas com as experiências publicadas. Este modelo permitiu determinar um meio mínimo para o cultivo de Kluyveromyces lactis e certamente trará novas perspectivas sobre o metabolismo desta levedura, identificando alvos de engenharia metabólica para a melhoria dos rendimentos dos produtos de interesse através da realização de simulações in silico

Universidade do Minho: RepositoriUM

Taxonomic and functional analysis of metagenomes

Author: Barbosa Pedro Santos
Publication venue
Publication date: 01/01/2013
Field of study

Dissertação de mestrado em BioinformáticaOver the years, metagenomics has demonstrated to play an essential role on the study of the microorganisms that live in microbial communities, particularly those who inhabit the human body. Several bioinformatic tools and pipelines have been developed, but usually they only address one question: "Who is there?" or "What are they doing?". This work aimed to develop a computational framework to answer the two questions simultaneously, that is, perform a taxonomic and functional analysis of microbial communities. Merlin, a previously developed software designed for the construction of genome-scale metabolic models for single organisms, was extended to deal with metagenomics data. It has an userfriendly and intuitive interface, not requiring command-line knowledge and further libraries dependencies or installation, as many other tools. The extended version of Merlin can predict the taxonomic composition of an environmental sample based on the results of homology searches, where the proportions of phyla and genera present are discriminated. Regarding the metabolic analysis, it allows to identify which enzymes are present and calculate their abundance, as well as to nd out which metabolic pathways are e ectively present. The performance of the tool was evaluated with samples from the Human Microbiome Project, particularly from the saliva. The taxonomic membership predicted in Merlin was in agreement with other tools, despite some di erences in the proportions. The functional characterization showed a conserved pool of pathways through di erent samples, although Merlin sometimes presented less pathways than expected because the routine is highly dependent on the enzymes annotation. Overall, the results showed the same pattern as reported before: while the pathways needed for microbial life remain relatively stable, the community composition varies extensively among individuals. In the end, Merlin demonstrated to be a reliable standalone alternative to web services for those scientists that have concerns about sharing data.Ao longo dos anos, a metagenómica demonstrou ter um papel essencial no estudo dos microorganismos que vivem em comunidades bacterianas, particularmente aqueles que habitam o corpo humano. Várias ferramentas e pipelines bioinformáticas foram desenvolvidas, mas normalmente estas apenas abordam uma destas questões: "Quem está lá?" ou "O que é que estão a fazer?" Este trabalho teve como objectivo o desenvolvimento duma ferramenta computacional para responder aos dois problemas em simultâneo, isto é, realizar tanto uma análise taxonómica como funcional de comunidades microbianas. O Merlin, um software anteriormente desenvolvido para construir modelos metabólicos à escala genómica para um organismo, foi estendido para tratar dados de metagenómica. O programa possui uma interface intuitiva e amiga do utilizador, não necessitando de conhecimentos de linha de comandos nem de dependências de bibliotecas ou instalação de aplicações adicionais. Esta versão estendida do Merlin prevê a composição taxonómica global dum metagenoma baseado nos resultados de procuras de sequências homólogas, onde as proporções dos fila e géneros são apresentadas. No que diz respeito à análise metabólica, o Merlin permite identificar quais as enzimas presentes e calcular a sua abundância, bem como identificar quais as vias metabólicas que estão efectivamente presentes. O desempenho da ferramenta foi avaliado com amostras do Projecto do Microbioma Humano, particularmente com amostras da saliva. A composição taxonómica prevista no Merlin esteve de acordo com outras ferramentas, apesar de algumas diferenças observadas nas proporções. A caracterização funcional mostrou um conjunto conservado de vias metabólicas nas diferentes amostras, mesmo que o Merlin tenha identificado menos enzimas que o esperado, pois o método é bastante dependente do processo anotação. Globalmente, os resultados revelaram o mesmo padrão reportado anteriormente: enquanto as vias metabólicas necessárias para a vida microbiana se mantêm estáveis, a composição taxonómica varia bastante entre indivíduos. No final, o Merlin demonstrou ser uma alternativa fidedigna a serviços web para aqueles cientistas que têm restrições em divulgar os seus dados não publicados num website.Fundação para a Ciência e a Tecnologia (FCT) - Projeto COMPETE FCOMP-01-0124-FEDER-015079.ERDF - European Regional Development Fund atrav es do programa COMPETE (programa operacional para a competitividade)

CiteSeerX

Universidade do Minho: RepositoriUM