376 research outputs found

    Ontology-based knowledge representation of experiment metadata in biological data mining

    Get PDF
    According to the PubMed resource from the U.S. National Library of Medicine, over 750,000 scientific articles have been published in the ~5000 biomedical journals worldwide in the year 2007 alone. The vast majority of these publications include results from hypothesis-driven experimentation in overlapping biomedical research domains. Unfortunately, the sheer volume of information being generated by the biomedical research enterprise has made it virtually impossible for investigators to stay aware of the latest findings in their domain of interest, let alone to be able to assimilate and mine data from related investigations for purposes of meta-analysis. While computers have the potential for assisting investigators in the extraction, management and analysis of these data, information contained in the traditional journal publication is still largely unstructured, free-text descriptions of study design, experimental application and results interpretation, making it difficult for computers to gain access to the content of what is being conveyed without significant manual intervention. In order to circumvent these roadblocks and make the most of the output from the biomedical research enterprise, a variety of related standards in knowledge representation are being developed, proposed and adopted in the biomedical community. In this chapter, we will explore the current status of efforts to develop minimum information standards for the representation of a biomedical experiment, ontologies composed of shared vocabularies assembled into subsumption hierarchical structures, and extensible relational data models that link the information components together in a machine-readable and human-useable framework for data mining purposes

    Biological Data Mining

    Get PDF

    Biological Data Mining and its Applications in Healthcare

    Get PDF
    Η εξόρυξη δεδομένων (data mining) αφορά την χρήση πληροφοριακού συστήματος βασισμένου σε υπολογιστή ( Computer-Based Information System, CBIS) με νέες τεχνικές, για εξαγωγή γνώσεων από δεδομένα (Vlahos et al., 2004). Συνδυάζει στατιστική, μηχανική μάθηση και τεχνητή νοημοσύνη για να φέρει σε πέρας αναλύσεις των δεδομένων. Όμως τα βιολογικά / κλινικά δεδομένα που είναι συνήθως άμεσα διαθέσιμα δεν πληρούν τις προϋπο θέσεις για καλές αναλύσεις. Στην εργασία αυτή πραγματοποιήθηκε εξόρυξη δεδομένων (data mining) σε Βιολογικό Σύνολο Δεδομένων για ασθενείς με Ηπατοκυτταρικό καρκίνωμα (HCCHepatocellular Carcinoma), που ήταν διαθέσιμο στο ψηφιακό αποθετήριο δεδομένων UCI. Η συλλογή του συνόλου δεδομένων, είχε γίνει με βάση τις οδηγίες κλινικής πράξης του Ευρωπαϊκού Συνδέσμου για την μελέτη του Ήπατος – Ευρωπαϊκό Οργανισμό για Έρευνα και Θεραπεία του Καρκίνου (European Association for the Study of the Liver - European Organisation for Research and Treatment of Cancer, EASL-EORTC). Το συγκεκριμένο σύνολο δεδομένων επιλέγχθηκε λόγω του ότι ήταν δωρεάν, άμεσα διαθέσιμο και συνδυάζει, αρκετές κακές ποιότητες που συναντώνται σε σύνολα βιολογικών / κλινικών δεδομένων (μη ισορροπημένη εκπροσώπηση όλων των τύπων ασθενώ ν που εξετάζονται και ελλειπούσες τιμές). Είναι ένα καλό παράδειγμα ρεαλιστικού συνόλου, πάνω στο οποίο αξιολογήθηκε η αποτελεσματικότητα διαφόρων μεθόδων εξόρυξης δεδομένων, ώστε τα ευρήματα να έχουν γενικότερο αντίκτυπο και πάνω σε αντίστοιχης, κακής ποιότητας δεδομένων, αναλύσεις (και για άλλες ασθένειες). Επιπλέον της εξόρυξης δεδομένων έγινε προετοιμασία του συνόλου δεδομένων (data preparation), γνωστή και ως προεπεξεργασία ή καθαρισμός (preprocessing / cleaning), κάτι που υπάγεται στο υπερσύνολο της Εξόρυξης Δεδομένων, την διαδικασία Ανακάλυψης Γνώσεων από Βάσεις Δεδομένων (KDD-Knowledge discovery from databases). Στο στάδιο αυτό, δοκιμάστηκε και μία νέα μέθοδος συμπλήρωσης κενών τιμών. Αναζητήθηκαν οι στρατηγικές προεπεξεργασίας των δεδομένων και μέθο δοι ταξινόμησης που κατηγοριοποιούν καλύτερα τους ασθενείς με βάση την μεταβλητή-στόχο (για την οποία έχουμε πρότερη γνώση), την επιβίωση στο 1 έτος. Οι ανωτέρω πορείες αξιολογήθηκαν με χρήση περισσότερων και ποικιλέστερων μετρικών αξιολόγησης της ταξινόμησης από ό,τι συμβαίνει συνήθως στην βιβλιογραφία, ώστε να έχουμε πληρέστερη και σφαιρικότερη αξιολόγηση. Μετά την επεξεργασία των αποτελεσμάτων διερευνήθηκαν τα ε ίδη εφαρμογών που προέκυψαν και αφορούν την Υγειονομική Περίθαλψη, τα εξής: • κατηγοριοποίηση των ασθενών με Ηπατοκυτταρικό καρκίνωμα (HCC) στην καθημερινή κλινική πράξη (για επιβίωση στο 1 έτος ), με βάση τα κλινικά ή βιολογικά χαρακτηριστικά που εξετάζονται από το σύνολο δεδομένων που αναλύσαμε, και συνακόλουθη • διευκόλυνση λήψης κλινικών αποφάσεων / ρίσκων εξαρτώμενων από τον κίνδυνο που έχουν οι ασθενείς από την ασθένεια (μη υπερθεραπεία με επικίδυνες αγωγές σε ασθενείς χαμηλού κινδύνου κατάληξης στο 1 έτος, μη υποθεραπεία σε ασθενείς υψηλού κινδύνου ) • τα διαγράμματα αξιολόγησης των τακτικών που ακολουθήθηκαν, είναι διαθέσιμα ώστε επιστήμονες της υγείας να μπορούν να διαλέξουν την τακτική προεπεξεργασίας-ταξινόμησης που κρίνουν αποτελεσματικότερη για σκοπούς δικών τους αναλύσεων (εάν επιθυμούν να χρησιμοποιήσουν κάποια από όσες δοκιμάστηκαν στην παρ ούσα εργασία).Data mining is the process implemented in a computer-based information system (CBIB) with new techniques in order to discover knowledge from data (Vlahos et al., 2004). Data mining combines statistics, machine learning and artificial intelligence during data analysis. However, the biological / clinical data that are usually readily available do not qualify for good data mining results. We performed data mining on a Biological dataset of Patients diagnosed with Hepatocellular Carcinoma (HCC), that was available at the UCI data mining repository . The collection of the data set was based on the clinical practice guidelines of the European Assoc iation for the Study of the Liver - European Organisation for Research and Treatment of Cancer, EASL-EORTC. The data set was selected since it was free, readily available and combined several poor qualities found in biological / clinical data sets (unbalanced representation of all patient types examined and missing values). It serves as a good example of a real biological / clinical set, upon which the effectiveness of various data mining methods has been evaluated, so that the findings can be of a more general impact on various analyzes of poor data quality (even for other types of disease). Apart from data mining, the data set was prepared as well, also known as preprocessing / cleaning, which is part of the KDD-Knowledge discovery from databases process. In addition, a novel method of missing values imputation was tested. We sought data preprocessing strategies and classification methods that best categorize patients based on the target variable survival after 1 year (of which we have solid knowledge). The above preprocessing and classification ways were evaluated in detail, using numerous and more varied classification metrics compared to what is often the case i n the literature. This provides complete and sperical evaluation. We noted the emerging applications that were related to Healthcare: • categorization of patients with HCC (survival after 1 year), based on the clinical or biological characteristics examined by the set we analyzed, and consequent • facilitation of clinical decision-making / risk-undertaking that is dependent to patient risk (no over-treatment with high-risk treatments for low-risk patients, no under-treatment for high-risk patients) • The evaluation charts of the tactics followed are available so that health professionals can choose the pre-processing / classification tactic they deem most effective for their own analysis purpo ses (in case they wish to use any of the ones tested in the current work

    Mining frequent biological sequences based on bitmap without candidate sequence generation

    Get PDF
    Biological sequences carry a lot of important genetic information of organisms. Furthermore, there is an inheritance law related to protein function and structure which is useful for applications such as disease prediction. Frequent sequence mining is a core technique for association rule discovery, but existing algorithms suffer from low efficiency or poor error rate because biological sequences differ from general sequences with more characteristics. In this paper, an algorithm for mining Frequent Biological Sequence based on Bitmap, FBSB, is proposed. FBSB uses bitmaps as the simple data structure and transforms each row into a quicksort list QS-list for sequence growth. For the continuity and accuracy requirement of biological sequence mining, tested sequences used during the mining process of FBSB are real ones instead of generated candidates, and all the frequent sequences can be mined without any errors. Comparing with other algorithms, the experimental results show that FBSB can achieve a better performance on both run time and scalability
    corecore