A proteomic approach offers a powerful and complementary tool to genomics. It allows to index and characterize
proteins, and, for example, to compare their levels of expression between healthy and pathological states. Proteomic
analyses are mainly based on the separation of proteins by two-dimensional gel electrophoresis and their subsequent
identification by comparing the data from Mass Spectrometry (SM) analyses to the theoretical ones contained in
databases.
In mass spectrometry, the detector noise, the electronic and chemical noise, sometimes the small amount of peptides
that has to be treated and finally the spectrum reduction noise (due to bad filtering and/or thresholding), can induce
Parasitic Mass Peaks (PMP) and/or hide some Useful Mass Peaks (UMP) of low intensities. The immediate consequence
is that the presence of the PMP and the absence of the UMP will be detrimental to the protein identification quality. In
this article, we propose an original algorithm eliminating the PMP, detecting and amplifying those which are useful. The
preprocessing principle uses a multi-scale analysis technique coupled to a fuzzy thresholding (multi-scale fuzzy
thresholding), a local amplification of the UMP, and finally an adaptive Base Line Correction.
The associated frequencies with the PMP are distributed on all the spectrum pass bandwidth. This leads us to a dyadic
tree structure subband decomposition. The algorithm principle consists of dividing the frequential pass bandwidth of
each masses spectrum into two subbands, a Low and High Frequency (LF,HF) subband, then each subband is in turn
divided into two subbands etc. The HF subbands are then thresholded according to the minimization criterion of the
Shannon fuzzy entropy, and then amplified locally; the base line is calculated in an adaptive way and subtracted from
reconstructed spectrum. To evaluate the quality of this algorithm, we present a comparison of the results obtained by
our algorithm, and those obtained by the DataExplorer software. The latter is a reduction software provided within the
MALDI-TOF spectrometer software package.La protéomique offre une approche puissante et complémentaire à la génomique. Elle permet de répertorier et
caractériser les protéines, de comparer leur niveau d’expression entre un état physiologique sain et malade
par exemple. L’analyse protéomique se fait essentiellement par l’utilisation de la technique d’électrophorèse
bidimensionnelle couplée à la technique d’analyse par Spectrométrie de Masse (SM). La première, aidée par
l’imagerie protéomique, conduit à la localisation des protéines candidates à une analyse par SM. La
comparaison des spectres de masses obtenus à des bases de données protéiques, conduit à l’identification
des protéines d’intérêt en terme de peptides. Le problème qui se pose souvent est que les spectres sont
bruités et pauvres en masses. En effet, le bruit du détecteur, le bruit électronique et chimique, la présence de
peu de matériel protéique et enfin le bruit de la réduction des spectres (mauvais filtrage et/ou seuillage), tous
ces bruits peuvent induire des Pics de Masses Parasites (PMP) et/ou supprimer des Pics de Masses Utiles
(PMU) de faible intensité. La conséquence immédiate est que la présence des PMP et l’absence des PMU
seront utilisées au dépens de la qualité d’identification de la protéine.
Dans cet article, nous proposons un algorithme original éliminant les PMP, détectant et amplifiant ceux utiles.
Le principe du pré-traitement utilise une Analyse Multirésolution (AM) couplée à un seuillage basé sur la
logique floue (seuillage flou multi-échelle), une amplification locale des PMU, et enfin une correction
adaptative de la Ligne de Base (LB). Les fréquences associées aux PMP sont réparties sur toute la bande
passante du spectre, ce qui nous conduit à une AM dite en arbre. Le principe consiste à découper la bande
passante fréquentielle de chaque spectre de masses en deux sous-bandes, une Basse Fréquence (BF), l’autre
Haute Fréquence (HF), ensuite chaque sous-bande est à son tour découpée en deux sous-bandes etc. Les
sous-bandes HF sont seuillées selon le critère de minimisation de l’entropie floue de Shannon et amplifiées
localement, la ligne de base est calculée automatiquement et soustraite du spectre reconstruit. Pour évaluer
la qualité de cet algorithme, nous présentons une comparaison des résultats obtenus par notre algorithme, et
ceux fournis par le spectromètre MALDI-TOF (Matrix Assisted Laser Desorption/Ionisation-Time Of Flight), qui
utilise le logiciel « DataExplorer » comme logiciel de réduction