6 research outputs found

    Μάθηση βαθιών μοντέλων παραγωγής δεδομένων για τη βελτιστοποίηση της ταξινόμησης σημάτων με μη ισορροπημένη κατανομή κλάσεων

    No full text
    Accurately classifying different types of neuronal cells is crucial for comprehending their impact on brain functions. However, due to their biological complexity, automated and reliable classification of neuronal cell types remains a challenging task. Additionally, the inherent imbalanced distribution of neuronal cells in the brain poses another significant hurdle in the classification process. This can lead to unstable predictions and poor performance of most classification algorithms. The problem of imbalanced classification is not limited to neuronal cell-type classification alone, as it is a common issue in many real-world applications with limited labeled data and high class imbalance ratios, which results in a significant decrease in performance. Therefore, this dissertation aims to address both the challenge of automated neuronal cell-type classification and the design of robust generative models that can tackle the imbalanced classification problem by generating synthetic data. Typical methods for researching neuronal cell-type classification involve laborious and costly immunohistochemical analysis, which relies on molecular markers that may be expressed in several cell types. Additionally, algorithms that extract features based on cellular characteristics face the difficulty of identifying unique features for each class. Both methods demand substantial human intervention and are time-consuming. To overcome these challenges, this dissertation introduces the first automated neuronal cell type classification method based on deep learning and utilizing the time series of calcium (Ca2+) activity signals, a previously unexplored feature. The study focuses on two real-world datasets, the Goal Oriented Learning (GOL) task and the Random Foraging (RF) task, which describe different experiments on test animals. For the GOL task, we conduct a comparative research analysis of 1-Dimensional Convolutional Neural Networks (1D-CNNs), Recurrent Neural Networks (RNNs), and Long Short-Term Memory Networks (LSTMs). Additionally, we propose a simple data re-organization that significantly accelerates the training of RNNs and LSTMs, which typically require substantial training time when processing long time series data. For the RF task, we employ a 2D-CNN model, and we additionally utilize the novel features of animal velocity and the z-depth of each neuronal cell. The imbalanced classification problem has prompted the research community to propose three primary approaches: data-level, algorithmic-level, and hybrid methods that combine both. Data-level methods involve generative models, often based on Generative Adversarial Networks that rely on large quantities of data, while algorithmic-level methods require domain expert knowledge to develop effective learning objectives, which may be less accessible to users without such expertise. Usually, both these methods are applied to image data, and less frequently to time series data, but seldom to both. To address these limitations, we present GENDA, a Generative Neighborhood based Deep Autoencoder that is straightforward and effective in its design, and can be successfully applied to both image and time series data. GENDA learns latent representations based on the neighboring embedding space of the samples and can generate as many samples as necessary to balance the dataset, allowing for the efficient training of a classification-based model. Extensive experiments conducted on a variety of widely-used real datasets demonstrate the effectiveness of the proposed method. Finally, in order to enhance GENDA's performance and leverage the information that can be provided by a classifier model during the generative model's training process, we proposed GENDA-XL, a Generative Neighborhood-based Deep Autoencoder with eXtended Loss, which is the extension of GENDA. GENDA-XL features a more robust loss function compared to GENDA, as GENDA-XL uses a supervised similarity metric for learning efficient latent representations based on the neighboring embedding space of the samples, and also incorporates a pre-trained classifier model into its architecture that associates each generated sample with its specific label. Our experimental results demonstrate that GENDA-XL outperforms both GENDA and other methods that aim to address the imbalanced classification problem.Η αναγνώριση των διαφορετικών τύπων νευρωνικών κυττάρων (νευρώνων) μέσω της ακριβούς ταξινόμηση τους είναι μια απαραίτητη διαδικασία για την κατανόηση της συμβολής των συγκεκριμένων κυττάρων στις λειτουργίες του εγκεφάλου. Παρ’ όλα αυτά η αυτοματοποιημένη και αξιόπιστη ταξινόμηση τους παραμένει μια πρόκληση εξαιτίας κυρίως της βιολογικής τους πολυπλοκότητας. Ένα άλλο σημαντικό ζήτημα με την ταξινόμηση των νευρωνικών κυττάρων είναι η εγγενής μη ισορροπημένη κατανομή τους στον εγκέφαλο, η οποία επηρεάζει αρνητικά τη διαδικασία εκμάθησης των περισσότερων αλγορίθμων ταξινόμησης, το οποίο έχει ως αποτέλεσμα ασταθείς προβλέψεις και χαμηλή απόδοση. Ωστόσο, το πρόβλημα της μη ισορροπημένης ταξινόμησης δεν επηρεάζει μόνο την ταξινόμηση των νευρωνικών κυττάρων, καθώς τα επισημασμένα δεδομένα σε πολλές πραγματικές εφαρμογές είναι περιορισμένα με υψηλές αναλογίες ανισορροπίας μεταξύ των κλάσεων. Έτσι, σε αυτή τη διατριβή εστιάζουμε τόσο στη δημιουργία μιας αυτοματοποιημένης μεθόδου ταξινόμησης νευρωνικών κυττάρων όσο και στο σχεδιασμό ισχυρών μοντέλων δημιουργίας δεδομένων, τα οποία αντιμετωπίζουν το πρόβλημα της μη ισορροπημένης ταξινόμησης δημιουργώντας τεχνητά δεδομένα. Οι κλασικές μέθοδοι της κατηγοριοποίησης νευρωνικών κυττάρων περιλαμβάνουν επίπονη και δαπανηρή ανάλυση μέσω ανοσοϊστοχημικών μεθόδων, οι οποίες εξαρτώνται από μοριακούς δείκτες που εκφράζονται σε πολλούς τύπους κυττάρων. Επιπλέον, αλγόριθμοι εξαγωγής χαρακτηριστικών βασισμένοι στα κυτταρικά χαρακτηριστικά αντιμετωπίζουν τη δυσκολία της αναγνώρισης μοναδικών χαρακτηριστικών για κάθε κατηγορία. Και οι δύο μέθοδοι απαιτούν σημαντική ανθρώπινη επέμβαση και είναι χρονοβόρες. Για να ξεπεραστούν αυτές οι προκλήσεις, αυτή η διατριβή παρουσιάζει την πρώτη αυτόματη μέθοδο κατηγοριοποίησης τύπων νευρωνικών κυττάρων που βασίζεται στη βαθιά μάθηση και χρησιμοποιεί τη χρονοσειρά σημάτων δραστηριότητας ασβεστίου (Ca2+), ένα χαρακτηριστικό που δεν έχει προηγουμένως εξερευνηθεί. Συγκεκριμένα, η ερευνητική μας μελέτη επικεντρώνεται σε δύο διαφορετικά πραγματικά σύνολα δεδομένων. Το ένα σχετίζεται με την εκμάθηση ενός συγκεκριμένου στόχου από τα πειραματόζωα, ενώ το άλλο αναφέρεται στη τυχαία αναζήτηση της τροφής τους. Για το πείραμα εκμάθησης στόχου πραγματοποιούμε μια συγκριτική ερευνητική ανάλυση μεταξύ των μονοδιάστατων συνελικτικών νευρωνικών δικτύων, των επαναλαμβανόμενων νευρωνικών δικτύων και των δικτύων μακράς βραχυπρόθεσμης μνήμης. Προτείνουμε μια απλή αναδιοργάνωση των δεδομένων, η οποία επιταχύνει ουσιαστικά την εκπαίδευση των επαναλαμβανόμενων νευρωνικών δικτύων και των δικτύων μακράς βραχυπρόθεσμης μνήμης, τα οποία συνήθως απαιτούν μεγάλο χρόνο εκπαίδευσης κατά την επεξεργασία μακρών χρονοσειρών. Για το πείραμα τυχαίας αναζήτησης τροφής χρησιμοποιούμε ένα δισδιάστατο συνελικτικό νευρωνικό δίκτυο και αξιοποιούμε επίσης τα χαρακτηριστικά της ταχύτητας του ζώου και του βάθους z κάθε νευρωνικού κυττάρου. Το πρόβλημα της μη ισορροπημένης ταξινόμησης έχει οδηγήσει την ερευνητική κοινότητα στην πρόταση τριών κύριων προσεγγίσεων: μεθόδους σε επίπεδο δεδομένων, μεθόδους αλγοριθμικού επιπέδου και υβριδικές μεθόδους που συνδυάζουν και τις δύο. Οι μέθοδοι επιπέδου δεδομένων περιλαμβάνουν γενετικά μοντέλα συνήθως με βάση τα δίκτυα παραγωγικών ανταγωνιστικών δικτύων (GANs), τα οποία βασίζονται σε μεγάλες ποσότητες δεδομένων, ενώ οι μέθοδοι αλγοριθμικού επιπέδου απαιτούν τη γνώση εμπειρογνωμόνων για την ανάπτυξη αποτελεσματικών στόχων μάθησης, που μπορεί να είναι λιγότερο προσβάσιμες σε χρήστες χωρίς τέτοια εμπειρία. Συνήθως, και οι δύο αυτές μέθοδοι εφαρμόζονται σε δεδομένα εικόνων και λιγότερο συχνά σε δεδομένα χρονοσειρών, αλλά σπάνια και στα δύο. Για να αντιμετωπίσουμε τα παραπάνω ζητήματα, παρουσιάζουμε τον αλγόριθμο GENDA, ένα βαθύ αυτόματο κωδικοποιητή που δημιουργεί δεδομένα στηριζόμενος στη γειτονική πληροφορία που αναφέρεται σε αυτά τα δεδομένα. Ο προτεινόμενος αλγόριθμος είναι απλός αλλά αποτελεσματικός στη σχεδίασή του και μπορεί να εφαρμοστεί με επιτυχία τόσο σε δεδομένα εικόνας όσο και σε χρονοσειρές. Βασίζεται στην εκμάθηση λανθανουσών αναπαράστασεων που χρησιμοποιούν το γειτονικό χώρο των δειγμάτων, και μόλις εκπαιδευτεί μπορεί να χρησιμοποιηθεί για τη δημιουργία όσων δειγμάτων χρειάζονται, έτσι ώστε κάθε αλγόριθμος ταξινόμησης να μπορεί να εκπαιδευτεί με ένα σύνολο δεδομένων όπου θα υπάρχει ισορροπία ανάμεσα στις κλάσεις. Εκτεταμένα πειράματα που πραγματοποιήθηκαν σε ένα σύνολο από ευρέως χρησιμοποιούμενα πραγματικά δεδομένα δείχνουν την αποτελεσματικότητα της προτεινόμενης μεθόδου. Τέλος, για να βελτιώσουμε την απόδοση του GENDA και να αξιοποιήσουμε τις πληροφορίες που μπορεί να παρέχει ένας ταξινομητής κατά τη διαδικασία εκπαίδευσης του παραγωγικού μοντέλου, προτείνουμε τον αλγόριθμο GENDA-XL, ένα βαθύ αυτόματο κωδικοποιητή με μια εκτεταμένη συνάρτηση κόστους που δημιουργεί δεδομένα στηριζόμενος στη γειτονική πληροφορία των δεδομένων αυτών και είναι η επέκταση του GENDA. Ο GENDA-XL διαθέτει μια πιο αποτελεσματική συνάρτηση κόστους συγκριτικά με το GENDA, καθώς ο GENDA-XL χρησιμοποιεί μια μετρική εποπτεύομενης ομοιότητας για την εκμάθηση αποδοτικών λανθανουσών αναπαραστάσεων που χρησιμοποιούν το γειτονικό χώρο των δειγμάτων, καθώς επίσης ενσωματώνει και ένα προεκπαιδευμένο ταξινομητή στην αρχιτεκτονική του, ο οποίος συσχετίζει κάθε δείγμα που παράγεται με τη κλάση στην οποία ανήκει. Τα πειραματικά μας αποτελέσματα δείχνουν ότι ο GENDA-XL υπερτερεί του GENDA και των άλλων μεθόδων που αποσκοπούν στην αντιμετώπιση του προβλήματος της μη ισορροπημένης ταξινόμησης

    Working Group on Values

    No full text
    status: accepte

    SumMER: Structural Summarization for RDF/S KGs

    No full text
    Knowledge graphs are becoming more and more prevalent on the web, ranging from small taxonomies, to large knowledge bases containing a vast amount of information. To construct such knowledge graphs either automatically or manually, tools are necessary for their quick exploration and understanding. Semantic summaries have been proposed as a key technology enabling the quick understanding and exploration of large knowledge graphs. Among the methods proposed for generating summaries, structural methods exploit primarily the structure of the graph in order to generate the result summaries. Approaches in the area focus on identifying the most important nodes and usually employ a single centrality measure, capturing a specific perspective on the notion of a node’s importance. Moving from one centrality measure to many however, has the potential to generate a more objective view on nodes’ importance, leading to better summaries. In this paper, we present SumMER, the first structural summarization technique exploiting machine learning techniques for RDF/S KGs. SumMER explores eight centrality measures and then exploits machine learning techniques for optimally selecting the most important nodes. Then those nodes are linked formulating a subgraph out of the original graph. We experimentally show that combining centrality measures with machine learning effectively increases the quality of the generated summaries
    corecore