    Study of probabilistic topic representations for the classification of genomic elements

    Σε αυτή τη μελέτη, εξετάζουμε τη χρησιμότητα πιθανοτικών θεματικών αναπαραστάσεων στην ταξινόμηση γονιδιωματικών στοιχείων. Διατυπώνουμε το πρόβλημα αυτό, ως πρό- βλημα πολλαπλών δυαδικών ταξινομήσεων, και δοκιμάζουμε μια ποικιλία αλγορίθμων μη- χανικής μάθησης. Σε αυτή τη διαδικασία, διερευνούμε διάφορες παραμέτρους ταξινόμησης και μοντελοποίησης και αξιολογούμε τα αποτελέσματα με στατιστική ανάλυση. Η προσέγγιση μας διαφέρει από τον κανόνα, καθώς δεν αξιοποιεί ευθυγραμμίσεις κατά- ζεύγη, πολλαπλές ευθυγραμμίσεις ή οποιαδήποτε άλλη εξωτερική πληροφορία σχετικά με τις γονιδιωματικές ακολουθίες. Αντί αυτού, η μέθοδος που προτείνουμε, στοχεύει στον προσδιορισμό ξεχωριστών μοτίβων βασισμένων στις ακολουθίες και στις σχετικές θέσεις δομικών συστατικών χωρίς πρότερη γνώση. Αντιμετωπίζοντας το γενετικό υλικό ως μια φυσική γλώσσα, προσδίδουμε έγγραφα και λέξεις στις γονιδιωματικές κλάσεις . Έπειτα, συμπεραίνουμε με πιθανοτικό τρόπο τα θέματα που τις διακατέχουν και αναπαριστούμε τις ακολουθίες με βάση το θεματικό τους περιεχόμενο. Πραγματοποιούμε σε βάθος ανάλυση των παραμέτρων των μοντέλων, μέσω ελέγχου υπο- θέσεων και εκτιμούμε τον βαθμό κατά τον οποίο, η κάθε μία επιδρά στην ολική επίδοση των ταξινομήσεων. Επιπρόσθετα, η ανάλυση μας παράγει ερμηνεύσιμες ομαδοποιήσεις των μεταβλητών των πειραμάτων, που απλοποιούν τη διαδικασία επιλογής μοντέλου. Επιδεικνύουμε την εφαρμοσιμότητα των θεματικών μοντέλων στη γονιδιωματική, σχεδιά- ζοντας μια απλή ακολουθία βημάτων για τη ταξινόμηση. Οι αλληλουχίες προβάλλονται σε έναν χώρο λιγότερων διαστάσεων ανάλογα με τη θεματική σύσταση τους, οι οποία με τη σειρά συμπεραίνεται από μοτίβα εμφανίσεων των υπακολουθιών τους. Η σειρά των βημάτων που εδραιώθηκε είναι αρκετά γενική για να μπορεί να εφαρμοστεί σε πολλά δια- φορετικά προβλήματα που περιέχουν γονιδιωματικές ακολουθίες, και να τροποποιηθεί ανάλογα με τις περιστασιακές ανάγκες. Εξετάζουμε με εύρος πειραματικών αξιολογήσεων, διαφορετικούς τύπους ακολουθιών από οργανισμούς-κλειδιά. Τα αποτελέσματα προτείνουν ότι οι θεματικές αναπαραστάσεις μπο- ρούν να είναι ευεργετικές στη διαδικασία της ταξινόμησης, καθώς παρουσιάζουν συνολικά καλύτερη επίδοση από τις μεθόδους των γονιδιωματικών υπογραφών και των γράφων ν-γραμμάτων όταν εφαρμόζονται στα ίδια δεδομένα. Οι κυρίαρχοι ταξινομητές αποδεικνύ- ονται να είναι οι Logistic και SMO, καθώς δίνουν τα υψηλότερα F-measures με στατιστική σημαντικότητα. Τέλος, η μελέτη των θεμάτων που παρήχθησαν από το θεματικό μοντέλο σε πειράματα ταξινόμησης που περιέχουν συντηρημένα μη-κωδικά στοιχεία σπονδυλωτών, φάνηκε να αντικατοπτρίζει τα ακολουθιακά χαρακτηριστικά που έχουν καταγραφεί στη βιβλιογραφία για αυτή τη συγκεκριμένη γονιδιωματική κλάση. Η συμφωνία μεταξύ των θεματικών ανα- παραστάσεων και της καταγεγραμμένης βιολογικής γνώσης μπορεί να σημαίνει ότι το μο- ντέλο είναι ικανό να “αντιληφθεί” πραγματικά βιολογικά μοτίβα στα δεδομένα, αλλά περισ- σότερα πειράματα πρέπει να διεξαχθούν για να φτάσουμε σε εδραιωμένα συμπεράσματα.In this study, we examine the effect of topic-sequence representations on the the classification of genomic elements. We formulate the task as a multiple binary-classification problem, and we test a variety of machine learning algorithms. In this process, we explore a range of different settings for classification and modeling, and we evaluate the results through statistical analysis. Our approach differs from the norm, since it does not utilize pairwise or multiple alignments, or any external information about the genomic sequences. Instead, the pipeline we propose, aims to identify unique patterns based on the sequences and relative positioning of structural components. We treat DNA as a natural language, by assigning documents and words to genomic classes. Subsequently, we infer their underlying semantic topics and we represent the sequences based on their topics' composition. We perform a thorough analysis on the models' parameters, through hypothesis testing, and we estimate the degree in which each, affects the overall classification performance. Furthermore, our analysis produces easy-to-interpret groupings among the experiments’ variables. This information can be used as the basis for identifying which values produce significantly different results and thus, simplifying model selection. We demonstrate the applicability of topic-modeling approaches in Genomics, by designing a simple pipeline for classification. The genomic sequences are projected into a lower-dimensional space according to their topic compositions, which are formed by patterns in their sub-sequences. The pipeline established is general enough, to be applied to many different tasks involving genomic sequences, and to be adjusted according to occasional needs. A preliminary investigation was conducted via a wide experimental evaluation on a diverse dataset containing different types of genomic sequences originating from key-organisms. The results suggest that topic-based representations can prove beneficial to the classification process, as they totally outperform the methods of Genomic Signatures and N-gram graphs when applied on the same dataset. The dominant classifiers are proven to be the Logistic and SMO classifiers, providing the highest F-measures within statistical significance. Finally, an investigation on the topics produced by the topic-model in classification experiments containing vertebrate Conserved Non-coding Elements, was found to reflect the sequence characteristics recorded in the literature for this genomic particular class. The agreement between the topic-representations and the recorded biological knowledge illustrates that the representation might be able to implicitly capture true biological patterns in data, although further experimentation is required to arrive in well-founded conclusions

    Designing Service-Oriented Chatbot Systems Using a Construction Grammar-Driven Natural Language Generation System

    Service oriented chatbot systems are used to inform users in a conversational manner about a particular service or product on a website. Our research shows that current systems are time consuming to build and not very accurate or satisfying to users. We find that natural language understanding and natural language generation methods are central to creating an e�fficient and useful system. In this thesis we investigate current and past methods in this research area and place particular emphasis on Construction Grammar and its computational implementation. Our research shows that users have strong emotive reactions to how these systems behave, so we also investigate the human computer interaction component. We present three systems (KIA, John and KIA2), and carry out extensive user tests on all of them, as well as comparative tests. KIA is built using existing methods, John is built with the user in mind and KIA2 is built using the construction grammar method. We found that the construction grammar approach performs well in service oriented chatbots systems, and that users preferred it over other systems

    Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación

    Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación, es un libro que puede ser leído por cualquier persona. Sin embargo, al ser un texto que presenta una tarea de Procesamiento del Lenguaje Natural (PLN) está más enfocado a investigadores, estudiantes de posgrado, estudiantes de doctorado, ingenieros y para todos los interesados en problemas del PLN y generación del conocimiento. Entre las aportaciones que se destacan de este libro están: el reporte de seis pruebas del Test de Turing, con lo que se demuestra que una máquina puede engañar a un humano y presentar un resumen mejor que el realizado por éste; la integración y el reporte de los métodos novedosos desarrollados hasta el momentos; la comparación con los sistemas, la integración y reporte en español y ruso de la GART, ya que para estos lenguajes no se tenía una pesquisa formal y, finalmente, los resultados mostrados son una fuente de referencia para saber en qué punto está la investigación de la GART en los cuatro lenguajes.Detección de ideas principales y composición de resúmenes en inglés, español, portugués y ruso. 60 años de investigación es un libro que aborda la tarea de generación automática de resúmenes desde la perspectiva cualitativa y cuantitativa. Primero se presentan los resultados de las pruebas de los test de Turing realizados a las máquinas que actualmente generan resúmenes de forma automática en los lenguajes más hablados y escritos: inglés, español, portugués y ruso, para saber si un resumen hecho por una máquina tiene la calidad para confundir a un humano y que no se dé cuenta que el resumen lo hizo una máquina. Posteriormente, se presenta la integración y el reporte cuantitativo de los métodos novedosos desarrollados hasta el momento y la comparación con los sistemas que generan resúmenes automáticos. El libro está escrito en un lenguaje muy accesible por lo que cualquier persona puede leerlo, ya que a pesar de utilizar en algunas partes lenguaje técnico, éste se explica y se da el significado de cada término.Universidad Autónoma del Estado de Méxic