6 research outputs found
S2P: A software tool to quickly carry out reproducible biomedical research projects involving 2D-gel and MALDI-TOF MS protein data
Background and objective 2D-gel electrophoresis is widely used in combination with MALDI-TOF mass spectrometry in order to analyze the proteome of biological samples. For instance, it can be used to discover proteins that are differentially expressed between two groups (e.g. two disease conditions, case vs. control, etc.) thus obtaining a set of potential biomarkers. This procedure requires a great deal of data processing in order to prepare data for analysis or to merge and integrate data from different sources. This kind of work is usually done manually (e.g. copying and pasting data into spreadsheet files), which is highly time consuming and distracts the researcher from other important, core tasks. Moreover, engaging in a repetitive process in a non-automated, handling-based manner is prone to error, thus threatening reliability and reproducibility. The objective of this paper is to present S2P, an open source software to overcome these drawbacks. Methods S2P is implemented in Java on top of the AIBench framework, and relies on well-established open source libraries to accomplish different tasks. Results S2P is an AIBench based desktop multiplatform application, specifically aimed to process 2D-gel and MALDI-mass spectrometry protein identification-based data in a computer-aided, reproducible manner. Different case studies are presented in order to show the usefulness of S2P. Conclusions S2P is open source and free to all users at http://www.sing-group.org/s2p. Through its user-friendly GUI interface, S2P dramatically reduces the time that researchers need to invest in order to prepare data for analysis.Ministerio de Economía y Competitividad | Ref. TIN2013-47153-C3-3-RXunta de GaliciaFundação para a Ciência e a Tecnologia | Ref. SFRH/BD/109201/2015Fundação para a Ciência e a Tecnologia | Ref. SFRH/BD/120537/201
The Artificial Intelligence Workbench: a retrospective review
Last decade, biomedical and bioinformatics researchers have been demanding advanced and user-friendly applications for real use in practice. In this context, the Artificial Intelligence Workbench, an open-source Java desktop application framework for scientific software development, emerged with the goal of provid-ing support to both fundamental and applied research in the domain of transla-tional biomedicine and bioinformatics. AIBench automatically provides function-alities that are common to scientific applications, such as user parameter defini-tion, logging facilities, multi-threading execution, experiment repeatability, work-flow management, and fast user interface development, among others. Moreover, AIBench promotes a reusable component based architecture, which also allows assembling new applications by the reuse of libraries from existing projects or third-party software. Ten years have passed since the first release of AIBench, so it is time to look back and check if it has fulfilled the purposes for which it was conceived to and how it evolved over time
Implementation of new tools and approaches for the reconstruction of genome-scale metabolic models
Dissertação de mestrado em BioinformáticaThe reconstruction of high-quality genome-scale metabolic (GSM) models can have a rele vant role in the investigation and study of an organism, since these mathematical models can
be used to phenotypically manipulate an organism and predict its response, in silico, under
different environmental conditions or genetic modifications. Several bioinformatics tools
and software have been developed since then to facilitate and accelerate the reconstruction of
these models by automating some steps that compose the traditional reconstruction process.
“Metabolic Models Reconstruction Using Genome-Scale Information” (merlin) is a free,
user-friendly, JavaTM application that automates the main stages of the reconstruction of
a GSM model for any microorganism. Although it has already been used successfully in
several works, many plugins are still being developed to improve its resources and make it
more accessible to any user. In this work, the new tools integrated in merlin will be described
in detail, as well as the improvement of other features present on the platform. The general
improvements performed and the implementation of the new tools, improve the overall user
experience during the process of reconstructing GSM models in merlin.
The main feature implemented in this work is the incorporation of the BiGG Integration Tool
(BIT) in merlin. This plugin allows the collection of metabolic data that integrates the models
present in the BiGG Models database and its association with the genome of the organism
in study, by homology, creating, if possible, the boolean rule for each BiGG reaction in the
model under construction. All the computation required to execute merlin’s BIT takes place
remotely, to accelerate the process. Within a few minutes, the results are returned by the
server and imported into the user’s workspace. Running the tool outside the user’s machine
also brings advantages in terms of information storage, since the BiGG data structure that
supports the entire tool is available remotely. The implementation of this tool provides an
alternative to obtaining metabolic information from the KEGG database, the only option
available in merlin so far. To test the implemented tool, several draft genome-scale metabolic
networks were generated and analyzed.A reconstrução de modelos metabólicos à escala genómica (MEG) de alta qualidade, pode
desempenhar um papel relevante na investigação e estudo de um organismo, uma vez que
estes modelos matemáticos podem ser utilizados para manipular fenotipicamente um organ ismo e prever a sua resposta, in silico, sob diferentes condições ambientais ou modificações
genéticas. Várias ferramentas bioinformáticas e software têm sido desenvolvidos desde
então para facilitar e acelerar a reconstrução desses modelos por automatização de algumas
etapas que constituem o processo de reconstrução tradicional.
O “Metabolic Models Reconstruction Using Genome-Scale Information” (merlin) é uma
aplicação JavaTM gratuita, e fácil de utilizar, que automatiza as principais etapas de recon strução de um modelo MEG para qualquer microrganismo. Apesar de já ter sido utilizado
com sucesso em vários trabalhos, muitos plugins ainda estão a ser desenvolvidas para
aprimorar os seus recursos e torná-lo mais acessível a qualquer utilizador. Neste trabalho,
serão descritas em detalhe as novas ferramentas integradas no merlin, bem como a melhoria
de outras funcionalidades presentes na plataforma. As melhorias gerais realizadas e a
implementação das novas ferramentas permitem melhorar a experiência global do utilizador
durante o processo de reconstrução de modelos MEG no merlin.
O principal recurso implementado neste trabalho é a integração da BiGG Integration
Tool (BIT) no merlin. Este plugin permite a recolha dos dados metabólicos que integram
os modelos presentes na base de dados BiGG Models e a sua associação ao genoma do
organismo em estudo, por homologia, criando, se possível, a boolean rule para cada reação
BiGG presente no modelo sob construção. Todo o processamento exigido para executar a BIT
do merlin ocorre remotamente, para acelerar o processo. Em poucos minutos, os resultados
são devolvidos pelo servidor e importados para o ambiente de trabalho do utilizador. A
execução da ferramenta fora da máquina do utilizador traz também vantagens ao nível
do armazenamento da informação, já que a estrutura de dados BiGG que sustenta toda a
ferramenta está disponível remotamente. A implementação desta ferramenta fornece uma
alternativa à obtenção de informação metabólica a partir da base de dados KEGG, única
opção disponibilizada pelo merlin até ao momento. Para testar a ferramenta implementada,
várias redes metabólicas à escala genómica rascunho foram geradas e analisadas
A framework for the reconstruction and analysis of tissue specific genome-scale metabolic models
Tese de Doutoramento em InformáticaIn recent years, the development of novel techniques for genome sequencing
and other high-throughput methods has enabled the identification and
quantification of individual cell components. Genome-scale metabolic models
(GSMMs) have been developed for several organisms, including humans.
Under the framework of constraint-based modeling, these have provided
phenotype prediction methods, useful in fields as metabolic engineering and
biomedical research, spanning tasks as drug discovery, biomarker identification
and host-pathogen interactions, and targeting diseases such as cancer,
Alzheimer, or diabetes.
However, these methods have been limited, since the human body has a
diversity of cell types and tissues making the development of specific models
an imperative. Methods to provide phenotype simulation with the integration
of omics data and to automatically generate tissue-specific models, based on
generic human metabolic models and a plethora of omics data, have been
proposed. However, their results have not been adequately and critically
evaluated and compared. Moreover, their usage is restricted to users with
computer science skills, since they are not available in user-friendly software
platforms.
In this work, an open-source software framework for the integration of
GSMMs with omics data has been provided. It contains methods for the
processing and integration of data with models, for the reconstruction of
tissue-specific GSMMs and for phenotype simulation using omics data. A
user-friendly graphical interface is provided for non-programming users to be able to run these methods, while an open programming interface allows the
community to contribute.
The methods have also been validated and compared in representative case
studies, being studied the effects of data sources and algorithms in the final
results. In particular, glioblastoma has been selected as a more comprehensive
case study, where specific models were generated for a representative cell line
using different approaches. These have been compared and integrated into
a consensus model, which has been further used for analysis and to support
phenotype simulation. The results allow insights into cancer metabolism and
possible routes towards drug discovery.Nos últimos anos, o desenvolvimento de novas técnicas de sequenciação genómica e outros métodos experimentais de alto débito têm permitido a identificação e quantificação de componentes celulares. Um conjunto de Modelos Metabólicos à Escala Genómica (MMEG) tem sido desenvolvidos para múltiplos organismos, incluindo os seres humanos. Recorrendo à modelação com base em restrições, estes têm fornecido métodos de predição do fenótipo, que têm sido úteis na área da engenharia metabólica e investigação biomédica, abordando tarefas como a descoberta de fármacos, a identificação de biomarcadores e a interação entre agentes patogénicos e hospedeiros, e doenças como o cancro, Alzheimer ou diabetes.
Contudo, estes métodos têm a sua aplicação limitada, dado que o corpo humano ´e constituído por diversos tecidos e tipos de células, tornando essencial o desenvolvimento de modelos específicos. Neste contexto, têm surgido métodos que permitem a simulação do fenótipo com integração de dados ómicros, assim como a reconstrução de modelos específicos baseados num modelo genérico e em conjuntos de dados ómicros. Todavia, os seus resultados não foram ainda comparados e avaliados sistematicamente. Além disso, a sua utilização está restrita a utilizadores com competências computacionais, uma vez que não existe nenhuma plataforma de software de fácil utilização.
Neste trabalho, foi desenvolvida uma plataforma de software de acesso livre, que permite a integração de MMEGs com dados ómicros. Esta plataforma contem métodos para o processamento e integração dos dados com os modelos, reconstrução de MMEG para tecidos específicos e simulação do fenótipo utilizando dados ómicros. Foi desenvolvida uma interface gráfica que permite a utilização destes métodos por não programadores. A comunidade pode ainda contribuir para a sua extensão através da interface disponibilizada.
Os métodos foram validados e comparados com outros estudos, sendo analisados os efeitos que as fontes de dados e os algoritmos têm nos resultados finais. Em particular, foi selecionado como caso de estudo mais abrangente a reconstrução dos modelos metabólicos, usando diferentes abordagens, para uma linha celular do glioblastoma. Posteriormente, estes modelos foram comparados e integrados num modelo consenso, que foi utilizado para análise e simulação de fenótipos. Os resultados obtidos permitem aprofundar o conhecimento do metabolismo do cancro e apontam possíveis caminhos para a descoberta de novos fármacos.Esta investigação foi financiada pela Fundação para a Ciência e Tecnologia através da concessão de
uma bolsa de doutoramento (SFRH/BD/80925/2011), co-financiada pelo POPH – QREN – Tipologia
4.1 – Formação Avançada – e comparticipado pelo Fundo Social Europeu (FSE) e por fundos nacionais
do Ministério da Ciência, Tecnologia e Ensino Superior (MCTES)
Reconstruction of the genome-scale metabolic network of Kluyveromyces lactis
System Biology proposes to study biological components, as well as the interactions between them, to
understand and predict systems’ behaviour through the use of mathematical models.
Under this scope, Genome-Scale Metabolic Models (GSMMs) can be regarded as mathematical
representations of the intrinsic metabolic capabilities of a given organism, encoded in its genome, and can
be used in a variety of applications like predicting the phenotypical behaviour of a given organism in
different environmental and genetic perturbations. The reconstruction of these models comprehends four
fundamental stages, namely Genome Annotation, Assembling of a Metabolic Network from the Genome,
the Conversion of the Network to a Stoichiometric Model and finally the Validation of the Metabolic Model.
Although this procedure is currently relatively standardized in some stages, a significant amount of work
still needs to be done by the community before the reconstruction process becomes semi-automated and
reproducible. The present work aims at contributing to this field through the development of several tools
for aiding the reconstruction process, while simultaneously applying some of those tools to an industrially
relevant organism, the yeast Kluyveromyces lactis.
The genome annotation stage is critical, as an inadequate annotation may delay, or even impair, the
development of the model. The genome metabolic annotation consists on identifying and attributing
functions to metabolic genes, i.e., genes encoding enzymes and transport proteins. While the identification
of enzyme encoding genes can be performed by assigning Enzyme Commission numbers to the proteins
encoded in the genes, the transport proteins encoding genes annotation is not straightforward.
In this work, an automatic system to detect and classify all potential transport proteins from a given
genome and integrate the related reactions into GSMMs is proposed, based on the identification and
classification of genes that encode transmembrane proteins. The integration of the data provided by this
methodology with highly curated models allowed the identification of new transport reactions.
This tool was included in the merlin tool, a user-friendly Java application developed under the scope of this
thesis that performs the reconstruction of GSMMs for any organism that has its genome sequenced. It
performs several steps of the reconstruction process, including the functional genomic annotation of the whole genome. merlin 2.0 also performs the compartmentalisation of the model, predicting the organelle
localisation of the proteins encoded in the genome, and thus the localisation of the metabolites involved in the reactions induced by such proteins. Finally, merlin 2.0 expedites the transition from genome-scale
data to SBML (the standard Systems Biology Markup Language) metabolic models, allowing the user to
have a preliminary view of the biochemical network.
The yeast Kluyveromyces lactis has long been considered a model organism for studies in genetics and
physiology, mainly due to its ability to metabolize lactose and to express recombinant proteins. Although
the genome of Kluyveromyces lactis has been publicly available for some years, until now no complete
metabolic functional annotation has been performed to the proteins encoded in the Kluyveromyces lactis
genome and consequently no GSMM has been made available. In this work, a new metabolic genome-wide functional re-annotation of the proteins encoded in the
Kluyveromyces lactis genome was performed, resulting in the annotation of 1759 genes with metabolic
functions, and the development of a methodology supported by merlin. The new annotation includes
novelties, such as the assignment of transporter superfamily numbers to genes identified as transporter
proteins. The methodology developed throughout this work can be used to re-annotate any yeast or, with a
little tweak of the reference organism, the proteins encoded in any sequenced genome. The new
annotation provided by this study served as the basis for the reconstruction of a compartmentalized,
genome-scale metabolic model for Kluyveromyces lactis.
The partially compartmentalised (4 compartments) genome-scale metabolic model of Kluyveromyces
lactis, the iOD962 metabolic model, comprises 962 genes, 2038 reactions and 1561 metabolites.
Previous chemostat experiments were used to adjust both growth and non-growth associated energy
requirements, and the model proved accurate when predicting the biomass, oxygen and carbon dioxide
yields. Also, the in silico knockouts predicted accurately the in vivo phenotypes, when compared to
published experiments. This model allowed determining a minimal medium for cultivating Kluyveromyces
lactis and will surely bring new insights on the milk yeast metabolism, identifying engineering targets for
the improvement of the yields of products of interest by performing in silico simulations.A Biologia de Sistemas propõe-se estudar os componentes biológicos e as interações entre eles, para
compreender e prever o comportamento dos sistemas através do uso de modelos matemáticos.
Nesse âmbito, os Modelos Metabólicos à Escala Genómica (MMEGs) podem ser considerados
representações matemáticas das capacidades metabólicas intrínsecas de um dado organismo,
codificadas no seu genoma, e podem ser usados numa grande variedade de aplicações tais como a
previsão do comportamento fenotípico de um determinado organismo face a diferentes perturbações
ambientais e genéticas. O processo de reconstrução destes modelos compreende quatro fases
fundamentais: anotação do genoma, desenvolvimento da rede metabólica, conversão da rede num
modelo estequiométrico e, finalmente, a validação do modelo metabólico. Apesar de algumas destas
fases estarem já relativamente normalizadas, existe ainda uma lacuna significativa na comunidade no que
se refere à (semi-) automação e reprodutibilidade deste processo. O presente trabalho apresenta-se como
uma contribuição para esta área, através do desenvolvimento de várias ferramentas de apoio à
construção de modelos metabólicos e, simultaneamente da sua aplicação ao organismo Kluyveromyces
lactis, uma levedura de elevado interesse industrial.
A fase de anotação do genoma é uma fase crítica, pois uma anotação inadequada pode atrasar, ou
mesmo comprometer o desenvolvimento de um modelo metabólico. A anotação metabólica do genoma
consiste na identificação e atribuição de funções aos genes metabólicos, ou seja, genes que codificam
enzimas e proteínas de transporte. Enquanto que a identificação de enzimas codificadas nos genes pode
ser realizada através da atribuição de números da Comissão para as Enzimas, a anotação de genes que
codificam as proteínas de transporte é um processo mais complexo.
Neste trabalho é proposto um sistema automático para a deteção e classificação de proteínas de
transporte. Este sistema é baseado na identificação e classificação dos genes que codificam proteínas
transmembranares. A integração dos dados fornecidos por esta metodologia com modelos metabólicos
curados permitiu a identificação de novas reações de transporte em organismos bem estudados.
Esta ferramenta está incluída na ferramenta bioinformática merlin desenvolvida no âmbito desta tese, que
é uma aplicação Java de fácil utilização, direcionada para a reconstrução de modelos metabólicos à
escala genómica. Esta aplicação executa várias etapas do processo de reconstrução, incluindo a anotação funcional do genoma. O merlin 2.0 também efetua a compartimentação do modelo, prevendo a
localização das proteínas codificadas no genoma, e consequentemente dos metabolitos envolvidos nas
reações induzidas por essas proteínas. Finalmente, merlin 2.0 acelera a transição de dados do genoma
para modelos metabólicos no formato SBML (Systems Biology Markup Language), possibilitando uma
visão preliminar da rede bioquímica.
A levedura Kluyveromyces lactis tem sido considerada um organismo modelo para estudos de genética e
fisiologia, principalmente devido à sua capacidade de metabolizar a lactose e pela sua capacidade de
expressar proteínas recombinantes. Apesar de o genoma da Kluyveromyces lactis ter sido disponibilizado
publicamente há alguns anos, até agora não foi efetuada uma anotação funcional completa para
identificar as proteínas codificadas no genoma da Kluyveromyces lactis. Consequentemente, não existe
ainda nenhum MMEG para esta levedura.
Neste trabalho foi efetuada uma re-anotação funcional das proteínas codificadas no genoma da
Kluyveromyces lactis, resultando na anotação de 1759 genes com funções metabólicas, e no
desenvolvimento de uma metodologia apoiada na aplicação merlin. A nova anotação do genoma inclui
novidades, tais como a atribuição de números de superfamílias de transportadores a genes que codificam
proteínas de transporte. A metodologia desenvolvida ao longo deste trabalho pode ser usada para reanotar
qualquer levedura ou, com um ajuste do organismo de referência, as proteínas codificadas em
qualquer genoma sequenciado. A nova anotação fornecida por este estudo serviu de base para a
reconstrução de um modelo metabólico à escala genómica da Kluyveromyces lactis.
Este modelo metabólico, parcialmente compartimentado (4 compartimentos), designado iOD962, inclui
962 genes, 2038 reações e 1561 metabolitos. Foram utilizadas experiências em quimiostato publicadas
anteriormente para ajustar os requisitos energéticos associados à manutenção celular, e o modelo
mostrou precisão na previsão dos rendimentos de biomassa, de dióxido de carbono e de oxigénio. Além
disso, as simulações in silico previram com precisão os fenótipos in vivo, quando comparadas com as
experiências publicadas. Este modelo permitiu determinar um meio mínimo para o cultivo de
Kluyveromyces lactis e certamente trará novas perspectivas sobre o metabolismo desta levedura,
identificando alvos de engenharia metabólica para a melhoria dos rendimentos dos produtos de interesse
através da realização de simulações in silico
Rapid development of proteomic applications with the AIBench framework
In this paper we present two case studies of Proteomics applications development using the AIBench framework, a Java desktop application framework mainly focused in scientific software development. The applications presented in this work are Decision Peptide- Driven, for rapid and accurate protein quantification, and Bacterial Identification, for Tuberculosis biomarker search and diagnosis. Both tools work with mass spectrometry data, specifically with MALDI-TOF spectra, minimizing the time required to process and analyze the experimental data