1 research outputs found

    Machine Learning-Assisted Unbiased miRNA Enrichment Analysis

    Get PDF
    Ένα αρκετά δημοφιλές θέμα στον κλάδο της βιοπληροφορικής είναι η διερεύνηση του ρόλου των μικρών βιομορίων που ονομάζονται microRNA(miRNA), τα οποία έχει αποδειχθεί ότι παίζουν σημαντικό ρόλο σε διάφορες σοβαρές ασθένειες (π.χ., καρκίνος ή Ηπατίτιδα C). Γι’ αυτό το λόγο είναι σημαντικό να αποσαφηνιστεί η σχέση μεταξύ των γκρουπ των miRNA και των βιολογικών διαδικασιών. Πολλές διαφορετικές στατιστικές μέθοδοι έχουν χρησιμοποιηθεί για να αποσαφηνίσουν αυτή την σχέση. Η πιο δημοφιλής είναι το Fisher extract test το οποίο υπολογίζει τις τιμές του p-value, ενός μέτρου που εκφράζει την συσχέτιση μεταξύ των γκρουπ των miRNA και των βιολογικών διαδικασιών χρησιμοποιώντας την υπεργεωμετρική κατανομή. Όμως η συγκεκριμένη κατανομή υποδηλώνει ότι τα miRNA έχουν ίδια πιθανότητα να στοχεύσουν κάθε γονίδιο. Αυτός ο ισχυρισμός οδήγησε στην χρήση μιας εμπειρικής κατανομής χρησιμοποιώντας τεστ τυχαιοποίησης. Παρόλα αυτά, τέτοιου είδους τεστ, χρειάζονται μεγάλο αριθμό επαναλήψεων για να παράγουν ακριβές αποτέλεσμα, καθιστώντας την ανάλυση υπολογιστικά μη αποδοτικό. Η παρούσα διπλωματική εργασία προτείνει μία καινοτόμα προσέγγιση για την ανάλυση εμπλουτισμού των miRNA χρησιμοποιώντας μεθόδους Μηχανικής Μάθησης για να προβλέπει τα p-values αντί να τα υπολογίζει με την χρήση των τεστ τυχαιοποίησης. Αυτή η προσέγγιση θα βοηθήσει τους αναλυτές να τρέχουν πολλαπλές αναλύσεις σε πολύ μικρό χρόνο, αποδοτικά. Η προσέγγιση μας αποτελείται από πολλά διαφορετικά μέρη. Αρχικά οριοθετήσαμε το πρόβλημα και δημιουργήσαμε το σύνολο των δεδομένων μας. Εν συνεχεία, κάναμε μία προ επεξεργασία στα δεδομένα μας και καταλήξαμε στην επιλογή μίας λίστας έξι πολλά υποσχόμενων αλγορίθμων για να ερευνήσουμε. Αυτοί είναι: η Γραμμική παλινδρόμηση, Δέντρα αποφάσεων, Random Forest και Adaboost, LightGBM και Multi-layer Perceptron που είναι και το μοναδικό νευρωνικό δίκτυο που χρησιμοποιείται. Οι συγκεκριμένοι αλγόριθμοι είναι υπεύθυνοι για να προβλέψουν αριθμητικές τιμές, στην συγκεκριμένη περίπτωση το p-value, δεδομένου ενός κατάλληλου συνόλου δεδομένων εκπαίδευσης. Εν συνεχεία, επιλέξαμε τις κατάλληλες τιμές για τις μεταβλητές του κάθε μοντέλου και τέλος αξιολογήσαμε τα υποψήφια μοντέλα βάσει των επόμενων τεσσάρων μετρικών: μέσο τετραγωνικό σφάλμα (MSE), μέσο απόλυτο σφάλμα (MAE), η ρίζα του μέσου τετραγωνικού σφάλματος (RMSE) και ο συντελεστής προσδιορισμού (R^2) Τα αποτελέσματα δείξανε ότι το καλύτερο μοντέλο είναι ο LightGBM που προβλέπει τις τιμές p-value με μεγάλη ακρίβεια. Συνοψίζοντας, τα αποτελέσματα της παρούσας εργασίας έδειξαν ότι οι τιμές p-value μπορούν να προβλεφθούν με την χρήση μοντέλων Μηχανικής Μάθησης με καλή ακρίβεια, ανοίγοντας τον δρόμο στην διεξαγωγή πολλαπλών αναλύσεων ταυτόχρονα και εξαλείφοντας το θέμα του χρόνου.A topic in bioinformatics is the investigation of the role of small biomolecules (~23 nucleotides (nt)) called microRNAs (miRNA) in biological functions, which have been proven to play an important role in different diseases (e.g., cancer or Hepatitis C). Thus, it is important to identify the association between groups of differentially expressed miRNAs and biological functions. Many statistical approaches have been used to identify this association. The most popular one is the Fisher's exact test which calculates p-value, a measurement to express the relationship between groups of miRNAs and biological functions, by exploiting the hypergeometric distribution. However, this distribution implies that a miRNA has an equal probability of targeting each gene. This implication led to the use of permutation/randomization tests (empirical distribution). However, these tests require large number of iterations to produce precise results which is computationally intensive. This master thesis suggests a novel approach for miRNA Enrichment Analysis by exploiting machine learning techniques to predict p_values instead of calculating them with randomization tests. This will help analysts perform multiple enrichment analyses in little time, efficiently. We run though several steps in our approach. Primarily we framed the problem and generated the data set. Next, we made some feature engineering and determined a shortlist of promising machine learning models. Six models used: Linear regression, Decision tree, Random Forest and Adaptive Boosting (Adaboost), Light Gradient Boosting (LightGBM) and the Multi-layer Perceptron (MLP) which is the unique Neural Network used. These algorithms are responsible for predicting numerical values, in our case the p_value given a training set. Then, we determined the best values for our models, and we evaluated the candidate ones based on the following evaluation metrics: Root Mean Squared Error (RMSE), Mean absolute error(MAE), Mean Squared Error(MSE) and the Coefficient of Determination (R^2). The results showed that the best model was the LightGBM model which predicts p_values with high accuracy. To sum up, the results from this research work indicated that p_value can be predicted using machine learning techniques with a good accuracy, helping in multiple enrichment analysis, and eliminating the time need in the previous approach of randomization tests
    corecore