5 research outputs found
Finding the region of pseudo-periodic tandem repeats in biological sequences
SUMMARY: The genomes of many species are dominated by short sequences repeated consecutively. It is estimated that over 10% of the human genome consists of tandemly repeated sequences. Finding repeated regions in long sequences is important in sequence analysis. We develop a software, LocRepeat, that finds regions of pseudo-periodic repeats in a long sequence. We use the definition of Li et al. [1] for the pseudo-periodic partition of a region and extend the algorithm that can select the repeated region from a given long sequence and give the pseudo-periodic partition of the region. AVAILABILITY: LocRepeat is available a
On Longest Repeat Queries Using GPU
Repeat finding in strings has important applications in subfields such as
computational biology. The challenge of finding the longest repeats covering
particular string positions was recently proposed and solved by \.{I}leri et
al., using a total of the optimal time and space, where is the
string size. However, their solution can only find the \emph{leftmost} longest
repeat for each of the string position. It is also not known how to
parallelize their solution. In this paper, we propose a new solution for
longest repeat finding, which although is theoretically suboptimal in time but
is conceptually simpler and works faster and uses less memory space in practice
than the optimal solution. Further, our solution can find \emph{all} longest
repeats of every string position, while still maintaining a faster processing
speed and less memory space usage. Moreover, our solution is
\emph{parallelizable} in the shared memory architecture (SMA), enabling it to
take advantage of the modern multi-processor computing platforms such as the
general-purpose graphics processing units (GPU). We have implemented both the
sequential and parallel versions of our solution. Experiments with both
biological and non-biological data show that our sequential and parallel
solutions are faster than the optimal solution by a factor of 2--3.5 and 6--14,
respectively, and use less memory space.Comment: 14 page
Δομικές μελέτες αμυλοειδογόνων πρωτεϊνών με περιοδικότητες στην αλληλουχία τους
Τα αμυλοειδή αποτελούν εξωκυτταρικές/ενδοκυτταρικές εναποθέσεις αδιάλυτων
πρωτεϊνικών ινιδίων που δημιουργούνται από διαλυτές πρωτεΐνες/πεπτίδια, όταν
διπλώνονται κατά μη φυσιολογικό τρόπο και αυτοσυγκροτούνται, προκαλώντας την
καταστροφή κυττάρων και ιστών. Τα αμυλοειδή σχετίζονται με έναν αριθμό
στερεοδιαταξικών ασθενειών, τις λεγόμενες αμυλοειδώσεις. Συχνά αρκετοί
οργανισμοί εκμεταλλεύονται τις ιδιότητες και την αρχιτεκτονική που
χαρακτηρίζουν τα αμυλοειδή ινίδια, με στόχο να υποστηρίξουν πολύπλοκες
βιολογικές λειτουργίες. Οι λειτουργικές αυτές δομές ονομάζονται λειτουργικά
αμυλοειδή (functional amyloids). Αρκετές αμυλοειδογόνες πρωτεΐνες έχουν
συσχετιστεί με την δημιουργία β-σοληνοειδών δομών. Τα β-σωληνοειδή (β-έλικες)
αποτελούν επιμήκεις σπείρες που σχηματίζονται από πολυπεπτιδικές αλυσίδες, οι
οποίες διπλώνουν κατά κυκλικό τρόπο στο χώρο. Βασικό χαρακτηριστικό των
πρωτεϊνικών αυτών αλληλουχιών, αποτελεί η παρουσία αμινοξικών περιοδικοτήτων
μεγέθους 5-40 καταλοίπων. Ταυτόχρονα, εμφανίζουν υψηλή προτίμηση σε αμινοξικά
κατάλοιπα που έχουν φέρουν μικρή πλευρική αλυσίδα, αλλά και πολικό χαρακτήρα.
Σκοπός της εργασίας ήταν η εύρεση τμημάτων της πολυπεπτιδικής αλυσίδας
αμυλοειδογόνων πρωτεϊνών που αποτελούνται από αποκλίνουσες και συνεχείς
περιοδικότητες, μεγέθους 5-40 αμινοξικών καταλοίπων, ικανών για την δημιουργία
β-σωληνοειδών δομών. Tα αποτελέσματα υποδεικνύουν την παρουσία
επαναλαμβανόμενων τμημάτων στις αλληλουχίες των περισσότερων αμυλοειδογόνων
πρωτεϊνών. Ταυτόχρονα, οι δομικές μελέτες που πραγματοποιήθηκαν σε 5 πρότυπες
πρωτεΐνες, υπέδειξαν την ικανότητά τους να σχηματίζουν β-σωληνοειδείς δομές, ο
πολυμερισμός των οποίων μπορεί να οδηγήσει στον σχηματισμό αμυλοειδών
πρωτοϊνιδίων.Amyloids are extracellular/intracellular protein fibrous deposits formed by
otherwise soluble proteins or peptides that fail to adopt a proper fold,
leading to tissue damage and degeneration. Amyloids are related to a number of
conformational diseases, named amyloidoses. However, organisms (from bacteria
to human) exhibit novel and important biological functions, based on the
functional properties of amyloids. Such structures are known as functional
amyloids. Structures known as β-solenoids are elongated spirals which support
the “cross-β” structure of amyloids and are formed by stacked coils,
representing subsequent sequence repeats. They are formed by proteins
sequences, baring successive amino acid repeats, 5-40 residues long. Such
sequences indicate a preference for residues with small side chains (such as
glycine or alanine) and exhibit a high percentage of residues with polar side
chains (such as serine, threonine, glutamine or asparagine). The purpose of
this study, involved an exhaustive search for successive and divergent repeats,
5-40 residues in length, in amyloidogenic sequences that could contribute in
the formation of β-solenoid structures. Admittedly, results presented in the
current study, indicate the presence of divergent repeats in most amyloidogenic
sequences. Moreover, structural studies performed indicate the ability of
certain model cases of the above to form β-solenoid structures