35 research outputs found
ProMEX – a mass spectral reference database for plant proteomics
The ProMEX database is one of the main collection of annotated tryptic peptides in plant proteomics. The main objective of the ProMEX database is to provide experimental MS/MS-based information for cell type-specific or sub-cellular proteomes in Arabidopsis thaliana, Medicago truncatula, Chlamydomonas reinhardtii, Lotus japonicus, Lotus corniculatus, Phaseolus vulgaris, Lycopersicon esculentum, Solanum tuberosum, Nicotiana tabacum, Glycine max, Zea mays, Bradyrhizobium japonicum, and Sinorhizobium meliloti. Direct links at the protein level to the most relevant databases are present in ProMEX. Furthermore, the spectral sequence information are linked to their respective pathways and can be viewed in pathway maps
Automatic Assignment of EC Numbers
A wide range of research areas in molecular biology and medical biochemistry require a reliable enzyme classification system, e.g., drug design, metabolic network reconstruction and system biology. When research scientists in the above mentioned areas wish to unambiguously refer to an enzyme and its function, the EC number introduced by the Nomenclature Committee of the International Union of Biochemistry and Molecular Biology (IUBMB) is used. However, each and every one of these applications is critically dependent upon the consistency and reliability of the underlying data for success. We have developed tools for the validation of the EC number classification scheme. In this paper, we present validated data of 3788 enzymatic reactions including 229 sub-subclasses of the EC classification system. Over 80% agreement was found between our assignment and the EC classification. For 61 (i.e., only 2.5%) reactions we found that their assignment was inconsistent with the rules of the nomenclature committee; they have to be transferred to other sub-subclasses. We demonstrate that our validation results can be used to initiate corrections and improvements to the EC number classification scheme
Development of new methods for characterization of bio-molecules by means of mass spectrometry
0\. Titelseite, Inhaltsverzeichnis
1\. Einleitung, Zielsetzung 1
2\. Zielsetzung der Arbeit 28
3\. Material und Chemikalien 29
4\. Ergebnisse und Diskussion 33
5\. Zusammenfassung, Summary, Publikationen 86
6\. Summary 88
7\. Literaturverzeichnis 90In dieser Arbeit werden von mir neu entwickelte Strategien und Algorithmen
vorgestellt, welche die Proteinidentifikation mittels MALDI-TOF-MS "peptide
mass fingerprinting" unter Verwendung einer externen Kalibrierung so weit
verbessern, dass auf die Anwendung einer internen Kalibrierung gänzlich
verzichtet werden kann. Die Algorithmen basieren auf der Beobachtung, dass die
Variation in den bestimmten Flugzeiten der sich an unterschiedlichen
Positionen auf dem MALDI-Probenträger befindlichen Peptide auf zwei
systematische Fehler zurückführen lässt. Zum einen wird bei Wechsel der
Position der Nullpunkt des Massenspektrums verschoben, das heiĂźt alle Massen
weichen danach um einen bestimmten konstanten Betrag von den vorherigen Werten
ab. Zum anderen können die Massenspektren nach Wechsel der Position noch
zusätzlich linear gestreckt oder gestaucht sein. Im ersten Fall wird jede
einzelne gemessene Masse mit einem bestimmten fĂĽr alle Massen gleichen
Fehlerbetrag behaftet. Die Differenzen zwischen den einzelnen gemessenen
Massen bleiben davon jedoch unberĂĽhrt. Im zweiten Fall werden sowohl die
Absolutwerte, als auch die Massendifferenzen verändert. Die Algorithmen
erkennen diese systematischen Fehler und ermöglichen, auch wenn die
Massenrichtigkeit der generierten Daten sehr gering ist, eine korrekte
Identifizierung der analysierten Proteine. Um Proteine eindeutig in groĂźen
Proteinsequenzdatenbanken zu identifizieren, wurde von mir ein Algorithmus
entwickelt, der mit Hilfe der Parameter: Standardabweichung, Trefferanzahl und
prozentualer Sequenzabdeckung fĂĽr jedes Protein einen "Scoring"-Faktor" Z
berechnet. Mit diesem neu entwickelten "Scoring"-Verfahren konnten z.B. 52 von
96 gentechnisch hergestellten Proteinen ohne Eingreifen des Menschen eindeutig
identifiziert werden. In keinem Fall wurde ein falsch-positives Ergebnis
geliefert. Weiterhin wurde von mir das Softwarepaket "MS-Proteomics"
entwickelt, dass in kurzer Zeit vollautomatisch eine groĂźe Anzahl von
massenspektrometrischen Datensätzen einliest, die Proteinidentifikation durch
Abgleich mit einer in wenige Sekunden aus einer ausgewählten Proteindatenbank
berechneten Peptidsequenzdatenbank durch Anwendung der oben erwähnten
Algorithmen vornimmt und die Ergebnisse ĂĽbersichtlich darstellt. Die Software
liest darĂĽber hinaus 2D-Gelbilder ein und weist den detektierten Proteinspots
die Ergebnisse der Datenbanksuche automatisch zu. Alle relevanten Ergebnisse
wurden publiziert oder eingereicht zur Veröffentlichung in den anerkannten
wissenschaftlichen Fachzeitschriften "Analytical Chemistry" und
"Electrophoresis" (die entsprechenden Literaturhinweise finden sich Anhang).
Ein Internetversion von MSA 2.0 wird nach Veröffentlichung dieser Arbeit unter
http://www.scienion.de/msa der wissenschaftlichen Gemeinde zur VerfĂĽgung
gestellt.Within this work I present a new protein identification strategy that
overcomes the need for performing internal or close external calibration in
MALDI-TOF-MS peptide mass fingerprinting. The strategy is based on the
observation that the variation of peptide flight times, when measured on
different positions on the sample support, are systematic and affect mainly
the linear components (offset and slope) of the correlation between m/z and
the square of the flight time. Consequently, the mass errors obtained when
using a single set of calibration constants, determined at one position of the
sample support, to calibrate all other time-of-flight spectra recorded from
that support, are also systematic. The developed search algorithm recognizes
these systemic trends in the mass errors, thereby allowing protein
identification even with a low mass accuracy of the input data. For the
retrieval of the correct protein in a database search, I have developed a new
scoring algorithm, which uses the parameters: standard deviation, number of
matching peptide masses and the sequence coverage of the protein to calculate
the score for each protein. Using this algorithm it was possible to correctly
identify 52 out of 96 recombinant proteins of known identity, without any
false identification. Moreover, I implemented the above identification
strategy and scoring algorithms in a software package designated "MS-
Proteomics", which automatically reads many peptide mass maps in a short time
and performs all calculations for protein identification. For protein
identification from 2D-gel electrophoresis, MS-Proteomics also comprises a 2D-
gel viewer that links the search results to its corresponding spots on the gel
image. All relevant results have been published or submitted for publication
in the peer-reviewed scientific journals "Analytical Chemistry" and
"Electrophoresis" (references are part of the appendix). In addition, some of
the results have been presented at the 48th ASMS Conference on Mass
Spectrometry and Allied Topics, LA, California, USA, June 11-15, 2000. A web-
based version of the program MSA 2.0 will be made available to the scientific
community at http://www.scienion.de/msa, following publication of this thesis
Entwicklung neuer Methoden zur massenspektrometrischen Charakterisierung von BiomolekĂĽlen Development of new methods for characterization of bio-molecules by means of mass spectrometry
In dieser Arbeit werden von mir neu entwickelte Strategien und Algorithmen vorgestellt, welche die Proteinidentifikation mittels MALDI-TOF-MS "peptide mass fingerprinting" unter Verwendung einer externen Kalibrierung so weit verbessern, dass auf die Anwendung einer internen Kalibrierung gänzlich verzichtet werden kann. Die Algorithmen basieren auf der Beobachtung, dass die Variation in den bestimmten Flugzeiten der sich an unterschiedlichen Positionen auf dem MALDI-Probenträger befindlichen Peptide auf zwei systematische Fehler zurückführen lässt. Zum einen wird bei Wechsel der Position der Nullpunkt des Massenspektrums verschoben, das heißt alle Massen weichen danach um einen bestimmten konstanten Betrag von den vorherigen Werten ab. Zum anderen können die Massenspektren nach Wechsel der Position noch zusätzlich linear gestreckt oder gestaucht sein. Im ersten Fall wird jede einzelne gemessene Masse mit einem bestimmten für alle Massen gleichen Fehlerbetrag behaftet. Die Differenzen zwischen den einzelnen gemessenen Massen bleiben davon jedoch unberührt. Im zweiten Fall werden sowohl die Absolutwerte, als auch die Massendifferenzen verändert. Die Algorithmen erkennen diese systematischen Fehler und ermöglichen, auch wenn die Massenrichtigkeit der generierten Daten sehr gering ist, eine korrekte Identifizierung der analysierten Proteine. Um Proteine eindeutig in großen Proteinsequenzdatenbanken zu identifizieren, wurde von mir ein Algorithmus entwickelt, der mit Hilfe der Parameter: Standardabweichung, Trefferanzahl und prozentualer Sequenzabdeckung für jedes Protein einen "Scoring"-Faktor" Z berechnet. Mit diesem neu entwickelten "Scoring"-Verfahren konnten z.B. 52 von 96 gentechnisch hergestellten Proteinen ohne Eingreifen des Menschen eindeutig identifiziert werden. In keinem Fall wurde ein falsch-positives Ergebnis geliefert. Weiterhin wurde von mir das Softwarepaket "MS-Proteomics" entwickelt, dass in kurzer Zeit vollautomatisch eine große Anzahl von massenspektrometrischen Datensätzen einliest, die Proteinidentifikation durch Abgleich mit einer in wenige Sekunden aus einer ausgewählten Proteindatenbank berechneten Peptidsequenzdatenbank durch Anwendung der oben erwähnten Algorithmen vornimmt und die Ergebnisse übersichtlich darstellt. Die Software liest darüber hinaus 2D-Gelbilder ein und weist den detektierten Proteinspots die Ergebnisse der Datenbanksuche automatisch zu. Alle relevanten Ergebnisse wurden publiziert oder eingereicht zur Veröffentlichung in den anerkannten wissenschaftlichen Fachzeitschriften "Analytical Chemistry" und "Electrophoresis" (die entsprechenden Literaturhinweise finden sich Anhang). Ein Internetversion von MSA 2.0 wird nach Veröffentlichung dieser Arbeit unter http://www.scienion.de/msa der wissenschaftlichen Gemeinde zur Verfügung gestellt.1. Einleitung, Zielsetzung 1
2. Zielsetzung der Arbeit 28
3. Material und Chemikalien 29
4. Ergebnisse und Diskussion 33
5. Zusammenfassung, Summary, Publikationen 86
6. Summary 88
7. Literaturverzeichnis 9
Protein Identification by MALDI-TOF-MS Peptide Mapping: A New Strategy
A new strategy for identifying proteins by MALDI-TOF-MS peptide mapping is reported. In contrast to current approaches, the strategy does not rely on a good relative or absolute mass accuracy as the criterion that discriminates false positive results. The protein sequence database is first searched for all proteins that match a minimum five of the submitted masses within the maximum expected relative errors when the default or externally determined calibration constants are used, for instance, ±500 ppm. Typically, this search retrieves many thousand candidate sequences. Assuming initially that each of these is the correct protein, the relative errors of the matching peptide masses are calculated for each candidate sequence. Linear regression analysis is then performed of the calculated relative errors as a function of m/z for each candidate sequence, and the standard deviation to the regression is used to distinguish the correct sequence among the candidates. We show that this parameter is independent of whether the mass spectrometric data were internally or externally calibrated. The result is a search engine that renders internal spectrum calibration unnecessary and adapts to the quality of the raw data without user interference. This is made possible by a dynamic scoring algorithm, which takes into account the number of matching peptide masses, the percentage of the protein's sequence covered by these peptides and, as new parameter, the determined standard deviation. The lower the standard deviation, the less cleavage peptides are required for identification and vice versa. Performance of the new strategy is demonstrated and discussed. All necessary computing has been implemented in a computer program, free access to which is provided in the Internet
A Calibration Method That Simplifies and Improves Accurate Determination of Peptide Molecular Masses by MALDI-TOF MS
The use of delayed ion extraction in MALDI time-of-flight mass spectrometry distorts the linear relationship between m/z and the square of the ion flight time (t2) with the consequence that, if a mass accuracy of 10 ppm or better is to be obtained, the calibrant signals have to fall close to the analyte signals. If this is not possible, systematic errors arise. To eliminate these, a higher-order calibration function and thus several calibrant signals are required. For internal calibration, however, this approach is limited by signal suppression effects and the increasing chance of the calibrant signals overlapping with analyte signals. If instead the calibrants are prepared separately, this problem is replaced by an other; i.e., the ion flight times are dependent on the sample plate position. For this reason, even if the calibrants are placed close to the sample, the mass accuracy is not improved when a higher-order calibration function is applied. We have studied this phenomenon and found that the relative errors, which result when moving from one sample to the next, are directly proportional to m/z. Based on this observation, we developed a two-step calibration method, that overcomes said limitations. The first step is an external calibration with a high-order polynomial function used for the determination of the relation between m/z and t2, and the second step is a first-order internal correction for sample position-dependent errors. Applying this method, for instance, to a mass spectrum of a mixture of 18 peptides from a tryptic digest of a recombinant protein resulted in an average mass error of 1.0 ppm with a standard deviation of 3.5 ppm. When instead using a conventional two-point internal calibration, the average relative error was 2.2 ppm with a standard deviation of 15 ppm. The new method is described and its performance is demonstrated with examples relevant to proteome research
Cell-specific Analysis of the Tomato Pollen Proteome from Pollen Mother Cell to Mature Pollen Provides Evidence for Developmental Priming
Tomato is a globally important crop
grown and consumed worldwide.
Its reproductive activity is highly sensitive to environmental fluctuations,
for instance temperature and drought. Here, pollen development is
one of the most decisive processes. The present study aims for the
identification of cell-specific proteins during pollen developmental
stages of tomato. We have setup a protocol for stage-specific pollen
isolation including microsporocytes (pollen mother cells), tetrads,
microspores, polarized microspores, and mature pollen. Proteins were
extracted using phenol and prefractionated using SDS-PAGE followed
by protein digestion, peptide extraction, and desalting. Identification
and quantification of proteins were performed using nanoHPLC coupled
to LTQ-Orbitrap-MS. In total, 1821 proteins were identified. Most
of these proteins were classified based on their homology and designated
functions of orthologs. Cluster and principal components analysis
revealed stage-specific proteins and demonstrated that pollen development
of tomato is a highly controlled sequential process at the proteome
level. Intermediate stages such as tetrad and polarized microspore
are clearly distinguished by different functionality compared to other
stages. From the predicted functions, energy-related proteins are
increased during the later stages of development, which indicates
that pollen germination depends upon presynthesized proteins in mature
pollen. In contrast, heat stress-related proteins are highly abundant
in very early developmental stages, suggesting a dominant role in
stress protection. Taken together, the data provide a first cell-specific
protein reference set for tomato pollen development from pollen mother
cells to the mature pollen and give evidence for developmentally controlled
processes that might help to prepare the cells for specific developmental
programs and environmental stresses