2 research outputs found

    Structure tensor analysis on proteins: efficient feature extraction for heteromultimeric assembly prediction

    Get PDF
    Η γνώση του σχήματος, της δομής, και των αλληλεπιδράσεων των μακρομορίων, ορίζει τη βιολογία σε μοριακό επίπεδο σε λεπτομέρεια ατόμων. Παρόλο που η γνώση της αρ- χιτεκτονικής είναι ένα σημαντικό βήμα πριν την κατανόηση της λειτουργίας, εξακολουθεί να είναι μια δύσκολη διαδικασία. Οι τρέχουσες τεχνικές ανάλυσης δομής (X-ray Crystal- lography, cryo-EM, etc.), αν και αρκετά επιτυχείς, αδυνατούν να γενικεύσουν καλά σε διαφορετικούς τύπους δομών, καθώς κάθε μία από αυτές τις μεθόδους είναι σχεδιασμέ- νη για συγκεκριμένους τύπους δομικών στοιχείων. Ένας τρόπος για να συνδυάσουμε τα πειραματικά με τα υπολογιστικά δεδομένα, ανεξάρτητα από την ανάλυσή τους, είναι με- σω του Integrative Modeling (IM), καθώς παρέχει έναν περιεκτικό χαρακτηρισμό της δομής των βιομορίων. Απαιτεί ως είσοδο (α) τις υψηλής ανάλυσης δομές των επιμέρους μονάδων που συνθέτουν το υπερμοριακό σύμπλεγμα, και (β) τους χαμηλής ανάλυσης φακέλους αυτών των συμπλεγμάτων, και μας παρέχει βιολογικά συσχετιζόμενες υπερμοριακές συστοιχίες, συνεπείς με το διαθέσιμο σύνολο των πειραματικών δεδομέ- νων. Ωστόσο, το IM εμφανίζει κάποιες αδυναμίες όσον αφορά στα ετεροπολυμερικά σύμπλοκα, ειδικά στην περίπτωση των μη συμμετρικών, όπου η ετερογένεια αυξάνει την υπολογιστική πολυπλοκότητα. Το πιο σημαντικό είναι ότι οι επιμέρους μονάδες των συμπλόκων μπορεί να υιοθετούν διαφορετικές διαμορφώσεις ανάλογα με το αν είναι απομονωμένες ή μέσα στη συστοιχία τους. Συνεπώς, είναι αναγκαία η εύρεση ενός διαφορετικού τρόπου για τον χαρακτηρισμό και τον εντοπισμό αυτών των επιμέρους μονάδων εντός των συστοιχιών τους. Στην εργασία αυτή, εκμεταλλευόμαστε πτυχές του πεδίου της μηχανικής όρασης, και χειριζόμαστε το βιολογικό μας πρόβλημα σαν να ήταν πρόβλημα αναγνώρισης αντικειμένων. Συγκεκριμένα υιοθετούμε την έννοια του εντοπισμού αντικειμένων σε μια σκηνή, και χρησιμοποιούμε local descriptors και τα βασικά βήματα του αλγορίθμου SIFT για την εξαγωγή διακριτών χαρακτηριστικών (τοπικά ακρότατα) από εικόνες. Για το βιολογικό μας πρόβλημα, ανιχνεύουμε τα σημεία- κλειδιά (keypoints) των ατομικών δομών, ώστε να τις εντοπίσουμε μεσα στη μακρομορι- ακή τους συστοιχία. Στόχος μας είναι να μειώσουμε τον τεράστιο αριθμό αυτών των keypoints, αναζητώντας τις γωνίες, καθώς αυτά τα σημεία παραμένουν σταθερά ανεξάρτητα από οποιαδήποτε περιστροφή ή αλλαγή. Υιοθετούμε τις αρχές της μεθόδου ανίχνευσης γωνιών Harris, και τις επεκτείνουμε χρησιμοποιώντας μια 3-D ανάλυση δομικών τανυστών. Η σπουδαιότητά της έγκειται στο γεγονός ότι οι ιδιοτιμές και τα αντίστοιχα ιδιοδιανύσματα της δομής του τανυστή περιγράφουν τη βασική καμπυλότητα της δομής. Βασιζόμενοι στις στατιστικές των λόγων των ιδιοτιμών, εφαρμόζουμε πολλαπλούς τύπους κατωφλίωσης για διαφορετικές παραμέτρους, και δοκιμάζουμε αυτές τις παραμέτρους σε 54 διαφορετικές δομές. Για την αξιολόγηση των παραμέτρων, συγκρίνουμε τα υπολογισθέντα keypoints με ένα σύνολο για το οποίο γνωρίζουμε ότι επιτυγχάνει σωστή πρόβλεψη συστοιχιών. Τα πειραματικά αποτελέσματα δείχνουν την ύπαρξη παραμέτρων που αφαιρούν σχεδόν όλα τα ασταθή keypoints (false positives), παραμέτρων που διατηρούν σχεδόν όλα τα σταθερά (true positives), και παραμέτρων που δίνουν λύσεις εξισορροπώντας το trade-off μεταξύ των προηγούμενων δύο. Τέλος, επαληθεύουμε ότι υπάρχουν σύμπλοκα με αναξιόπιστο προφίλ πυκνότητας, καθώς δε βρίσκονται λύσεις για όλες τις αναλύσεις τους. Η μέθοδος που προτείνουμε είναι ένας γενικός, γρήγορος και ακριβής τρόπος για την εξαγωγή τοπικών χαρακτηριστικών για σωστή πρόβλεψη συστοιχίας, και μπορεί να χρησιμεύσει ως βασική γραμμή για τη μελέτη των δυναμικών αυτών των keypoints όταν υπόκεινται σε διαμορφωτικές αλλαγές.The knowledge of the shape, structure, and interactions of macromolecules, defines bi- ology at the molecular level in atomic detail. Although knowing the architecture is an im- portant step before reaching the knowledge of the function, it still is a challenging task. Current structure resolution techniques (X-ray Crystallography, cryo-EM, etc.), although quite successful, they fail to generalize well across different types of structures, since each one of these methods is designed for specific kinds of components. A way to combine experimental and computational data regardless of their resolution, is through Integrative Modeling (IM), which provides a comprehensive structural characterization of biomolecules. It gets as input (a) high resolution structures of the individual components composing the supramolecular complex, and (b) low-resolution envelopes of native as- semblies, resulting in biologically relevant supramolecular assemblies consistent with the available set of experimental data. However, IM has limitations when it comes to heteromultimeric complexes, especially in the case of non-symmetric ones, where the heterogeneity increases the computational complexity. Most importantly, the individual components may adopt different conformations whether they are isolated or within their assembly. Very few methods exist to tackle this problem, and even fewer actually suc- ceed; thus, a different way for characterizing and locating these components within their assembly, regardless of their different conformational states, is mandatory. In this work, we exploit the different aspects provided by the field of computer vision, and treat our biological problem as if it was a problem of object recognition. Specifically, we adopt the concept of localizing objects in a scene, and make use of local descriptors and the main steps of SIFT algorithm, for extracting distinctive features (local extrema) from images. Translated to our biological problem, we detect informative features (keypoints) in the atomic structures’ density maps, so as to localize them within their macromolecular as- sembly. Our goal is to diminish the huge number of these extracted features, by specifi- cally searching for corners, as these points remain stable regardless any rotation or change. We adopt the principles of Harris corner detector and expand them by using three-dimensional structure tensor analysis (STA). The significance lies in the fact that the eigenvalues and the corresponding eigenvectors of the structure tensor, describe the principal curvatures of the neighborhood around the local extrema. Based on the statistics of the eigenvalues’ ratios, we apply multiple types of thresholding under differ- ent configurations, and benchmark the STA set of parameters on 54 different structures. For the evaluation of the parameters, we compare the extracted keypoints with a set that is known – from the already existing software – to lead to correct assembly predic- tion. Experimental results show the existence of parameter sets that remove almost all of the unstable keypoints (false positives), others that retain almost all of the stable ones (true positives), while others provide solutions that can balance the trade-off be- tween these two. Finally, we verify that there are specific complexes (1Z5S, 2GC7) without a trustworthy density profile, since no solutions can be obtained for every reso- lution. The proposed method considerably speeds up the existing software by reducing the computational complexity – a key issue for heteromultimers, and is a general and accurate way for extracting localized features for correct assembly prediction, which can serve as a baseline for studying the dynamics of these keypoints under conformational changes
    corecore