Συστημική Αποκωδικοποίηση του ανθρώπινου Uniquome: Εξελικτικές, Μηχανιστικές και Θεραπευτικές Προσεγγίσεις

Abstract

Η Πρωτεωμική είναι ένα σύνολο πολύπλοκων μεθόδων και τεχνολογιών που αποσκοπεί στην ταυτοποίηση, καταγραφή και μελέτη του ολικού πρωτεϊνικού περιεχομένου ενός βιολογικού υλικού. Περιλαμβάνει το διαχωρισμό των πρωτεϊνών ενός βιολογικού δείγματος, την ανάλυση τους με φασματομετρία μάζας, την ταυτοποίησή τους με τη χρήση εργαλείων βιοπληροφορικής, τη συστηματική εισαγωγή των αποτελεσμάτων σε βάσεις δεδομένων και, τέλος την επεξεργασία τους. Οι πλέον εύχρηστες μέθοδοι για την ταυτοποίηση των πρωτεϊνών είναι αυτές που αξιοποιούν το πεπτιδικό αποτύπωμά τους (peptide finger-print) και αναλύουν την αμινοξική αλληλουχία των πεπτιδίων τους. Τα σημαντικότερα μειονεκτήματα αυτών των μεθόδων είναι πως για την ασφαλή ταυτοποίηση μίας πρωτεΐνης, απαιτείται η ανάλυση τουλάχιστον δύο πεπτιδίων ανά πρωτεΐνη καθώς και ότι πολλά από τα πεπτίδια που ταυτοποιούνται από το φασματογράφο μάζας δεν οδηγούν τελικά σε ασφαλή χαρακτηρισμό μίας πρωτεΐνης και απορρίπτονται κατά τη βιοπληροφορική επεξεργασία. Οι παραπάνω αδυναμίες των ήδη υπαρχόντων μεθόδων, οδήγησαν στην ανάγκη ανάπτυξης μιας νέας προσέγγισης για την ταυτοποίηση των πρωτεϊνών ενός οργανισμού. Η προσέγγιση αυτή βασίστηκε στην υπόθεση ότι η αμινοξική αλληλουχία κάθε πρωτεΐνης θα πρέπει να περιλαμβάνει τουλάχιστον ένα πεπτίδιο που η αμινοξική του αλληλουχία είναι απόλυτα μοναδική (Unique) ως προς το πρωτέωμα του οργανισμού που ανήκει, με αποτέλεσμα να χαρακτηρίζει την πρωτεΐνη διαφορικά και μονοσήμαντα. Έτσι, σαν αποτέλεσμα αυτής της προσέγγισης, στην παρούσα διατριβή καταγράφηκαν τα μοναδικά πεπτίδια του συνόλου των θεωρημένων (reviewed) πρωτεϊνών του ανθρώπου και εντός αυτών αναδείχθηκαν δύο νέες οντότητες μοναδικών πεπτιδίων, τα μοναδικά πεπτίδια ελαχίστου μήκους (core unique peptide - CrUP) και τα σύνθετα μοναδικά πεπτίδια (composite unique peptide - CmUP). Τέλος, εισήχθη για πρώτη φορά ο όρος του Uniquome που περιλαμβάνει το σύνολο των μοναδικών πεπτιδίων (CrUPs και CmUPs) ενός οργανισμού. Τα αντικείμενα της παρούσας διατριβής περιλαμβάνουν: α) Την ανάπτυξη μεθοδολογίας για την ανάλυση μεγάλων δεδομένων (big data analysis) με σκοπό την δημιουργία του ανθρώπινου Uniquome, β) την κατάρτιση και πλήρη καταγραφή του ανθρώπινου Uniquome που περιλαμβάνει τόσο τα CrUPs όσο και τα CmUPs, γ) την ανάλυση και την διερεύνηση των χαρακτηριστικών των μοναδικών πεπτιδίων σε ένα υψηλά συστημικό και συνθετικό επίπεδο και δ) την διερεύνηση εφαρμογών του ανθρώπινου Uniquome σε φυσιολογικές και παθολογικές καταστάσεις. Για την δημιουργία του ανθρώπινου Uniquome αναπτύχθηκε ένα νέο λογισμικό ανάλυσης που έχει την δυνατότητα να επεξεργαστεί μεγάλο όγκο δεδομένων (big data analysis) χρησιμοποιώντας κυρίως ως γλώσσα προγραμματισμού τη C#, με παράλληλη χρήση μεθόδων που βασίζονται τόσο σε παράλληλα όσο και σε κατανεμημένα συστήματα. Στο ανθρώπινο πρωτέωμα έως σήμερα έχουν περιληφθεί 20.430 θεωρημένες πρωτεΐνες, που περιλαμβάνουν 7.263.888 CrUPs και 77.697 CmUPs και απαρτίζουν το ανθρώπινο Uniquome, ενώ διαπιστώθηκε ότι 148 πρωτεΐνες (0,7%) δεν περιλαμβάνουν μοναδικά πεπτίδια καθώς φαίνεται να είναι ισομορφές με ομολογία μεγαλύτερη του 99%. Περαιτέρω ανάλυση των μοναδικών πεπτιδίων ως προς το μήκος τους, έδειξε ότι η πλειοψηφία των CrUPs και των CmUPs αποτελείται από πεπτίδια 6 και 11 αμινοξέων αντίστοιχα, ενώ η ανάλυση τους ως προς την σχετική θέση εμφάνισής τους μέσα στην πρωτεΐνη έδειξε πως τα CrUPs εντοπίζονται με το ίδιο ποσοστό σε όλες τις πιθανές θέσεις μέσα στις πρωτεΐνες, εν αντιθέσει με τα CmUPs που εντοπίζονται κυρίως στις αρχικές θέσεις των πρωτεϊνών. Η συνολική πυκνότητα από μοναδικά πεπτίδια για το ανθρώπινο πρωτέωμα υπολογίστηκε στο 64% για τα CrUPs, και στο 0,68% για τα CmUPs, ενώ η συνολική κάλυψη στο 93%. Αναφορικά με τον αριθμό από CrUPs που συνθέτουν ένα CmUP, η ομάδα των σύνθετων μοναδικών πεπτιδίων (6.103 πεπτίδια) που συνθέτονται από 5 μοναδικά πεπτίδια ελαχίστου μήκους είναι αυτή που εντοπίζεται με το μεγαλύτερο ποσοστό (7,85%). Η ανάλυση των χρωμοσωμάτων ως προς τα μοναδικά πεπτίδια που εμπεριέχονται σε αυτά, ανέδειξε πως χρωμοσώματα που εντοπίζονται με χαμηλά χαρακτηριστικά μοναδικότητας ενοχοποιούνται για χρωμοσωμικές ανωμαλίες που έχουν καταγραφεί στον άνθρωπο. Για την καλύτερη κατανόηση του ανθρώπινου Uniquome και των χαρακτηριστικών του, η μελέτη επεκτάθηκε στην κατάρτιση του Uniquome άλλων 19 πρότυπων οργανισμών που χρησιμοποιούνται σαν βιολογικά μοντέλα. Περεταίρω, αναφορικά με την εφαρμογή του Uniquome για την κατανόηση της βιολογικής δράσης του, αναλύθηκαν διάφορες οικογένειες πρωτεϊνών όπως η οικογένεια RAS, η οικογένεια Major histocompatibility complex class I (MHC I), η οικογένεια Peptidase C19 και η οικογένεια Peptidase S1. Τέλος, δύο ομάδες πεπτιδίων με ιδιαίτερη βιολογική σημασία σε ανθρώπινες παθήσεις είναι τα ανοσοπεπτίδια και τα αντιγονικά καρκινικά πεπτίδια. Διαπιστώθηκε ότι από τα υπάρχοντα ανοσοπεπτίδια το 87% είναι unique πεπτίδια, ενώ το 89% των υπαρχόντων αντιγονικών πεπτιδίων είναι επίσης unique. Η κατάρτιση και η ανάλυση του ανθρώπινου Uniquome οδήγησε για πρώτη φορά στην αποκάλυψη δύο νέων οντοτήτων πεπτιδίων στο ανθρώπινο πρωτέωμα τα οποία όπως διαπιστώθηκε έχουν τεράστια βιολογική σημασία. Η ένταξη των μοναδικών πεπτιδίων στις ήδη υπάρχουσες εφαρμογές της φασματομετρίας μάζας μπορεί να αυξήσει σημαντικά τα ποσοστά ταυτοποίησης πρωτεϊνών στα υπό μελέτη δείγματα και να αποκαλύψει νέες πρωτεΐνες, καθόσον μια πρωτεΐνη δύναται να ταυτοποιηθεί από ένα και μόνο πεπτίδιο. Έτσι η χρήση των CrUPs και CmUPs θα οδηγήσει στην αποτελεσματική, ασφαλή και ταχεία ταυτοποίηση πρωτεϊνικών βιοδεικτών παθολογικών καταστάσεων. Επιπλέον, από τα ευρήματα της παρούσας διατριβής διαπιστώνεται ότι η χρήση του Uniquome στην αντιμετώπιση παθολογικών καταστάσεων είναι δυνατόν να οδηγήσει στον σχεδιασμό νέων και πιο εξατομικευμένων θεραπευτικών προσεγγίσεων τόσο σε επίπεδο φαρμάκων όσο και σε επίπεδο εμβολίων.Proteomics are comprised of a setoff complex methods and technologies that aim to identify, register, and study the total protein content of a biological sample. It includes protein separation, mass spectrometry analysis, protein identification using bioinformatics tools, systematic introduction of the results in databases and analysis of the results. The most easy-to-use methods for protein identification are those that utilize the peptide fingerprint and analyze the amino acid sequence of their peptides. The biggest disadvantages of these methods are that they require the analysis of at least two peptides for every protein to allow for safe identification as well as that many of the peptides that are identified by mass spectrometry do not eventually lead to safe identification of a protein and are rejected throughout the bioinformatics process. The weaknesses mentioned above lead to the need to develop a new approach to identify the proteins of an organism. This approach was based on the hypothesis that every protein’s amino acid sequence must include at least one peptide with an entirely unique amino acid sequence in a given organism. As a result, it would characterize this protein and distinguish it from all other proteins of this specific organism. Thus, as a result of this approach, in the present study, all the unique peptides of the total of review proteins of human are registered and two new entities of unique peptides emerge: core unique peptide (CrUP) and composite unique peptide (CmUP). Finally, the term “Uniquome” is introduced for the first time, a term that includes the ensemble of unique peptides (core and composite) of an organism. Objects of the present study include a. the development of a method to analyze big data for the creation of the human Uniquome, b. the setting-up of a full registration of the human Uniquome that includes CrUPs as well as CmUP, c. the analysis and expansion of their characteristics to a high systemic and synthetic level and d. the translation of the human Uniquome applications to physiologic and pathologic conditions. For the creation of the human Uniquome, a new analysis software was developed that is capable of big data analysis, using mainly C# and using methods that are based in parallel as well as distributed computing systems. There are 20.430 reviewed proteins in the human proteome so far, that include 7.263.888 CrUPs and 77.697 CmUPs and comprise the human Uniquome, while 148 proteins (0.7%) were found not to include unique peptides because they are isoforms with over 99% homology. Further analysis of unique peptides length showed that the majority of CrUPs and CmUPs are comprised of 6 and 11 amino acids respectively while in-protein location analysis showed that CrUPs are found in all possible locations within a protein in contrast to CmUPs that are mostly found in the beginning of the protein. The total density of unique peptides in the human proteome was calculated to 64% for CrUPs and 0.68% for CmUPs, while their total coverage was 93%. Regarding the number of CrUPs that comprise a CmUP, the group of composite peptides (6.103 peptides) that are made of 5 unique peptides of minimum length are the majority with a percentage of 7.85%. Analysis of unique peptides in chromosomes showed that chromosomes with low characteristics of uniqueness are found in chromosomal abnormalities in humans. To better understand Uniquome and its characteristics, this study went further to the creation of the Uniquome in another 19 model organisms used in research. Furthermore, several protein families were analyzed, such as the Ras protein family, proteins of the Major histocompatibility Complex class I (MHC-I), the family of Peptidase C19 and the family of Peptidase S1. Finally, two groups of peptides with biological significance in human disease are immune peptides and cancer antigenic peptides. We found that 87% of the existing immune peptides are unique peptides and 89% of cancer antigenic peptides are also unique peptides. Creating and analyzing the human Uniquome led for the first time in the introduction of two new peptide entities of the human proteome, that are of paramount biological significance. Integrating unique peptides in the current applications of mass spectrometry can dramatically increase accurate protein identification and reveal new proteins, since each protein can be uniquely identified by one and only peptide. The use of CrUPs and CmUPs will result in effective, safe and fast identification of protein biomarkers in pathologic conditions. Furthermore, the findings in the present study show that using Uniquome in the treatment of pathologic conditions can lead to the design of new, personalized therapeutic approaches in the context of drug or vaccine development

    Similar works