unknown

An objective reduction technique of proteomic mass spectra based on multi-scale fuzzy thresholding

Abstract

A proteomic approach offers a powerful and complementary tool to genomics. It allows to index and characterize proteins, and, for example, to compare their levels of expression between healthy and pathological states. Proteomic analyses are mainly based on the separation of proteins by two-dimensional gel electrophoresis and their subsequent identification by comparing the data from Mass Spectrometry (SM) analyses to the theoretical ones contained in databases. In mass spectrometry, the detector noise, the electronic and chemical noise, sometimes the small amount of peptides that has to be treated and finally the spectrum reduction noise (due to bad filtering and/or thresholding), can induce Parasitic Mass Peaks (PMP) and/or hide some Useful Mass Peaks (UMP) of low intensities. The immediate consequence is that the presence of the PMP and the absence of the UMP will be detrimental to the protein identification quality. In this article, we propose an original algorithm eliminating the PMP, detecting and amplifying those which are useful. The preprocessing principle uses a multi-scale analysis technique coupled to a fuzzy thresholding (multi-scale fuzzy thresholding), a local amplification of the UMP, and finally an adaptive Base Line Correction. The associated frequencies with the PMP are distributed on all the spectrum pass bandwidth. This leads us to a dyadic tree structure subband decomposition. The algorithm principle consists of dividing the frequential pass bandwidth of each masses spectrum into two subbands, a Low and High Frequency (LF,HF) subband, then each subband is in turn divided into two subbands etc. The HF subbands are then thresholded according to the minimization criterion of the Shannon fuzzy entropy, and then amplified locally; the base line is calculated in an adaptive way and subtracted from reconstructed spectrum. To evaluate the quality of this algorithm, we present a comparison of the results obtained by our algorithm, and those obtained by the DataExplorer software. The latter is a reduction software provided within the MALDI-TOF spectrometer software package.La protéomique offre une approche puissante et complémentaire à la génomique. Elle permet de répertorier et caractériser les protéines, de comparer leur niveau d’expression entre un état physiologique sain et malade par exemple. L’analyse protéomique se fait essentiellement par l’utilisation de la technique d’électrophorèse bidimensionnelle couplée à la technique d’analyse par Spectrométrie de Masse (SM). La première, aidée par l’imagerie protéomique, conduit à la localisation des protéines candidates à une analyse par SM. La comparaison des spectres de masses obtenus à des bases de données protéiques, conduit à l’identification des protéines d’intérêt en terme de peptides. Le problème qui se pose souvent est que les spectres sont bruités et pauvres en masses. En effet, le bruit du détecteur, le bruit électronique et chimique, la présence de peu de matériel protéique et enfin le bruit de la réduction des spectres (mauvais filtrage et/ou seuillage), tous ces bruits peuvent induire des Pics de Masses Parasites (PMP) et/ou supprimer des Pics de Masses Utiles (PMU) de faible intensité. La conséquence immédiate est que la présence des PMP et l’absence des PMU seront utilisées au dépens de la qualité d’identification de la protéine. Dans cet article, nous proposons un algorithme original éliminant les PMP, détectant et amplifiant ceux utiles. Le principe du pré-traitement utilise une Analyse Multirésolution (AM) couplée à un seuillage basé sur la logique floue (seuillage flou multi-échelle), une amplification locale des PMU, et enfin une correction adaptative de la Ligne de Base (LB). Les fréquences associées aux PMP sont réparties sur toute la bande passante du spectre, ce qui nous conduit à une AM dite en arbre. Le principe consiste à découper la bande passante fréquentielle de chaque spectre de masses en deux sous-bandes, une Basse Fréquence (BF), l’autre Haute Fréquence (HF), ensuite chaque sous-bande est à son tour découpée en deux sous-bandes etc. Les sous-bandes HF sont seuillées selon le critère de minimisation de l’entropie floue de Shannon et amplifiées localement, la ligne de base est calculée automatiquement et soustraite du spectre reconstruit. Pour évaluer la qualité de cet algorithme, nous présentons une comparaison des résultats obtenus par notre algorithme, et ceux fournis par le spectromètre MALDI-TOF (Matrix Assisted Laser Desorption/Ionisation-Time Of Flight), qui utilise le logiciel « DataExplorer » comme logiciel de réduction

    Similar works