Kernel Support Vector Machine learning of imbalanced classes with application to reproductive medicine on the UK population

Abstract

Το θέμα της εργασίας αναφέρεται στην κατηγορία αλγορίθμων Μηχανικής Μάθησης Support Vector Machines (SVM) με την μέθοδο των πυρήνων (Kernel Support Vector Machines) για την ταξινόμηση δεδομένων που ανήκουν σε δύο κατηγορίες (τάξεις). Η μέθοδος εφαρμόζεται σε δεδομένα προερχόμενα από τον τομέας της υποβοηθούμενης αναπαραγωγής με σκοπό την πρόβλεψη επιτυχούς γέννησης νεογνού. Αρχικά, μελετώνται οι αλγόριθμοι Kernel SVM και τα προβλήματα που μπορεί να παρουσιαστούν όταν οι τάξεις έχουν διαφορετικό μέγεθος. Στην συνέχεια συζητούνται πιθανές μέθοδοι αντιμετώπισης του προβλήματος όπως αυτές εντοπίστηκαν στην βιβλιογραφία, υπογραμμίζονται τα πλεονεκτήματα και τα μειονεκτήματα κάθε μεθόδου. Προτείνεται επίσης μια νέα μεθοδολογία μείωσης των παρατηρήσεων (under-sampling) με βάση το cosine similarity, ένα μέτρο ομοιότητας μεταξύ των παρατηρήσεων. Στην συνέχεια, εφαρμόζονται οι παραπάνω μέθοδοι, τόσο οι προϋπάχουσες όσο και η νέα μέθοδος, σε δεδομένα που προέρχονται από τον τομέα της αναπαραγωγικής ιατρικής στον πληθυσμό του Ηνωμένου Βασιλείου, ώστε να προβλεφθεί το αποτέλεσμα της επιτυχούς γέννησης μετά από τεχνικές υποβοηθούμενης αναπαραγωγής. Συγκεκριμένα, τα δεδομένα παρέχονται από την Αρχή Ανθρώπινης Αναπαραγωγής και Εμβρυολογίας του Ηνωμένου Βασιλείου (Human Fertilization and Embryology Authority) και αφορούν κύκλους θεραπειών γονιμότητας που λαμβάνουν χώρα κάθε χρόνο στο Ηνωμένο Βασίλειο. Τα δεδομένα από την συγκεκριμένη αρχή συλλέγονται από το 1991 έως σήμερα και εφόσον είναι ανώνυμα, είναι διαθέσιμα για ερευνητικούς σκοπούς. Στα δεδομένα αυτά εφαρμόζονται επίσης κλασικές μέθοδοι ταξινόμησης της στατιστικής όπως η λογιστική παλινδρόμηση (logistic regression). Οι μέθοδοι που χρησιμοποιούνται για την ταξινόμηση των δεδομένων υποβοηθούμενης αναπαραγωγής εφαρμόζονται επίσης σε προσομοιωμένα δεδομένα, τόσο συνεχή όσο και μικτού τύπου (συνεχή και διακριτά) ώστε να επιβεβαιωθεί την απόδοση τους. Οι διαφορετικές μέθοδοι συγκρίνονται με την χρήση κατάλληλων μετρικών αξιολόγησης (evaluation metrics) καταλήγοντας στο συμπέρασμα ότι η προτεινόμενη μέθοδος υπερτερεί έναντι των άλλων κατά την ταξινόμηση του μικτού τύπου δεδομένων και των δεδομένων υποβοηθούμενης αναπαραγωγής, ενώ κατά την ταξινόμηση των συνεχών προσομοιωμένων δεδομένων έρχεται δεύτερη αποδοτικά.The subject of this project is the category of Machine Learning algorithms called Kernel Support Vector Machines (SVM) for the classification of data that belong to two classes. The method is applied to data that come from the field of Reproductive Medicine with the objective of predicting the Live Birth Occurrence of patients that undergo IVF treatment. Firstly, the Kernel SVM algorithms and the problems they face when the two classes are imbalanced are investigated. Next, various solutions of the literature to face the class imbalance problem are discussed, underlining the advantages and disadvantages of these methods. A new under-sampling method, called Cosine similarity Under-Sampling (CUS), based on the cosine similarity of the data, which is a similarity metric, is also proposed. Secondly, those methods are applied to data that come from the field of Reproductive Medicine in order to predict the Live Birth Occurrence of UK patients that undergo IVF treatment. Specifically, the data are collected by the Human Fertilization and Embryology Authority (HFEA) and are related to IVF cycles that take place every year in the UK. The data are collected from 1991 until today and provided that they are anonymized, they are available for research purposes. Other than the machine learning algorithms, classic classification methods, such as logistic regression, are also applied. The methods mentioned above are also applied to simulated data, continuous and mixed-type (continuous and discrete) in order to verify their performance. The different algorithms are compared with the use of appropriate evaluation metrics, leading to the conclusion that the novel method proposed (CUS) is better than other approaches when classifying mixed-type data and the IVF data, while it comes second when classifying the continuous simulated data

    Similar works