376 research outputs found
Ontology-based knowledge representation of experiment metadata in biological data mining
According to the PubMed resource from the U.S. National Library of Medicine,
over 750,000 scientific articles have been published in the ~5000 biomedical journals
worldwide in the year 2007 alone. The vast majority of these publications include results from hypothesis-driven experimentation in overlapping biomedical research domains. Unfortunately, the sheer volume of information being generated by the biomedical research enterprise has made it virtually impossible for investigators to stay aware of the latest findings in their domain of interest, let alone to be able to assimilate and mine data from related investigations for purposes of meta-analysis. While computers have the potential for assisting investigators in the extraction, management and analysis of these data, information contained in the traditional journal publication is still largely unstructured, free-text descriptions of study design, experimental application and results interpretation, making it difficult for computers to gain access to the content of what is being conveyed without significant manual intervention. In order to circumvent these roadblocks and make the most of the output from the biomedical research enterprise, a variety of related standards in knowledge representation are being developed, proposed and adopted in the biomedical community. In this chapter, we will explore the current status of efforts to develop minimum information standards for the representation of a biomedical experiment, ontologies composed of shared vocabularies assembled into subsumption hierarchical structures, and extensible relational data models that link the information components together in a machine-readable and human-useable framework for data mining purposes
Biological Data Mining and its Applications in Healthcare
Η εξόρυξη δεδομένων (data mining) αφορά την χρήση πληροφοριακού
συστήματος βασισμένου σε υπολογιστή ( Computer-Based Information System,
CBIS) με νέες τεχνικές, για εξαγωγή γνώσεων από δεδομένα (Vlahos et al., 2004).
Συνδυάζει στατιστική, μηχανική μάθηση και τεχνητή νοημοσύνη για να φέρει σε
πέρας αναλύσεις των δεδομένων. Όμως τα βιολογικά / κλινικά δεδομένα που είναι
συνήθως άμεσα διαθέσιμα δεν πληρούν τις προϋπο θέσεις για καλές αναλύσεις.
Στην εργασία αυτή πραγματοποιήθηκε εξόρυξη δεδομένων (data mining) σε
Βιολογικό Σύνολο Δεδομένων για ασθενείς με Ηπατοκυτταρικό καρκίνωμα (HCCHepatocellular Carcinoma), που ήταν διαθέσιμο στο ψηφιακό αποθετήριο
δεδομένων UCI. Η συλλογή του συνόλου δεδομένων, είχε γίνει με βάση τις οδηγίες
κλινικής πράξης του Ευρωπαϊκού Συνδέσμου για την μελέτη του Ήπατος –
Ευρωπαϊκό Οργανισμό για Έρευνα και Θεραπεία του Καρκίνου (European
Association for the Study of the Liver - European Organisation for Research and
Treatment of Cancer, EASL-EORTC). Το συγκεκριμένο σύνολο δεδομένων
επιλέγχθηκε λόγω του ότι ήταν δωρεάν, άμεσα διαθέσιμο και συνδυάζει, αρκετές
κακές ποιότητες που συναντώνται σε σύνολα βιολογικών / κλινικών
δεδομένων (μη ισορροπημένη εκπροσώπηση όλων των τύπων ασθενώ ν που
εξετάζονται και ελλειπούσες τιμές). Είναι ένα καλό παράδειγμα ρεαλιστικού
συνόλου, πάνω στο οποίο αξιολογήθηκε η αποτελεσματικότητα διαφόρων μεθόδων
εξόρυξης δεδομένων, ώστε τα ευρήματα να έχουν γενικότερο αντίκτυπο και πάνω
σε αντίστοιχης, κακής ποιότητας δεδομένων, αναλύσεις (και για άλλες ασθένειες).
Επιπλέον της εξόρυξης δεδομένων έγινε προετοιμασία του συνόλου δεδομένων
(data preparation), γνωστή και ως προεπεξεργασία ή καθαρισμός (preprocessing /
cleaning), κάτι που υπάγεται στο υπερσύνολο της Εξόρυξης Δεδομένων, την
διαδικασία Ανακάλυψης Γνώσεων από Βάσεις Δεδομένων (KDD-Knowledge
discovery from databases). Στο στάδιο αυτό, δοκιμάστηκε και μία νέα μέθοδος
συμπλήρωσης κενών τιμών.
Αναζητήθηκαν οι στρατηγικές προεπεξεργασίας των δεδομένων και μέθο δοι
ταξινόμησης που κατηγοριοποιούν καλύτερα τους ασθενείς με βάση την
μεταβλητή-στόχο (για την οποία έχουμε πρότερη γνώση), την επιβίωση στο 1
έτος. Οι ανωτέρω πορείες αξιολογήθηκαν με χρήση περισσότερων και
ποικιλέστερων μετρικών αξιολόγησης της ταξινόμησης από ό,τι συμβαίνει
συνήθως στην βιβλιογραφία, ώστε να έχουμε πληρέστερη και σφαιρικότερη
αξιολόγηση. Μετά την επεξεργασία των αποτελεσμάτων διερευνήθηκαν τα ε ίδη
εφαρμογών που προέκυψαν και αφορούν την Υγειονομική Περίθαλψη, τα εξής:
• κατηγοριοποίηση των ασθενών με Ηπατοκυτταρικό καρκίνωμα (HCC)
στην καθημερινή κλινική πράξη (για επιβίωση στο 1 έτος ), με βάση τα κλινικά
ή βιολογικά χαρακτηριστικά που εξετάζονται από το σύνολο δεδομένων που
αναλύσαμε,
και συνακόλουθη
• διευκόλυνση λήψης κλινικών αποφάσεων / ρίσκων εξαρτώμενων από τον
κίνδυνο που έχουν οι ασθενείς από την ασθένεια (μη υπερθεραπεία με
επικίδυνες αγωγές σε ασθενείς χαμηλού κινδύνου κατάληξης στο 1 έτος, μη
υποθεραπεία σε ασθενείς υψηλού κινδύνου )
• τα διαγράμματα αξιολόγησης των τακτικών που ακολουθήθηκαν, είναι
διαθέσιμα ώστε επιστήμονες της υγείας να μπορούν να διαλέξουν την
τακτική προεπεξεργασίας-ταξινόμησης που κρίνουν αποτελεσματικότερη
για σκοπούς δικών τους αναλύσεων (εάν επιθυμούν να χρησιμοποιήσουν
κάποια από όσες δοκιμάστηκαν στην παρ ούσα εργασία).Data mining is the process implemented in a computer-based information system
(CBIB) with new techniques in order to discover knowledge from data (Vlahos et
al., 2004). Data mining combines statistics, machine learning and artificial
intelligence during data analysis. However, the biological / clinical data that are
usually readily available do not qualify for good data mining results. We performed
data mining on a Biological dataset of Patients diagnosed with Hepatocellular
Carcinoma (HCC), that was available at the UCI data mining repository . The
collection of the data set was based on the clinical practice guidelines of the
European Assoc iation for the Study of the Liver - European Organisation for
Research and Treatment of Cancer, EASL-EORTC. The data set was selected since
it was free, readily available and combined several poor qualities found in
biological / clinical data sets (unbalanced representation of all patient types
examined and missing values). It serves as a good example of a real biological
/ clinical set, upon which the effectiveness of various data mining methods has
been evaluated, so that the findings can be of a more general impact on various
analyzes of poor data quality (even for other types of disease). Apart from data
mining, the data set was prepared as well, also known as preprocessing /
cleaning, which is part of the KDD-Knowledge discovery from databases
process. In addition, a novel method of missing values imputation was tested.
We sought data preprocessing strategies and classification methods that best
categorize patients based on the target variable survival after 1 year (of which
we have solid knowledge). The above preprocessing and classification ways were
evaluated in detail, using numerous and more varied classification metrics
compared to what is often the case i n the literature. This provides complete and
sperical evaluation. We noted the emerging applications that were related to
Healthcare:
• categorization of patients with HCC (survival after 1 year), based on the
clinical or biological characteristics examined by the set we analyzed,
and consequent
• facilitation of clinical decision-making / risk-undertaking that is
dependent to patient risk (no over-treatment with high-risk treatments for
low-risk patients, no under-treatment for high-risk patients)
• The evaluation charts of the tactics followed are available so that health
professionals can choose the pre-processing / classification tactic they
deem most effective for their own analysis purpo ses (in case they wish
to use any of the ones tested in the current work
Mining frequent biological sequences based on bitmap without candidate sequence generation
Biological sequences carry a lot of important genetic information of organisms. Furthermore, there is an inheritance law related to protein function and structure which is useful for applications such as disease prediction. Frequent sequence mining is a core technique for association rule discovery, but existing algorithms suffer from low efficiency or poor error rate because biological sequences differ from general sequences with more characteristics. In this paper, an algorithm for mining Frequent Biological Sequence based on Bitmap, FBSB, is proposed. FBSB uses bitmaps as the simple data structure and transforms each row into a quicksort list QS-list for sequence growth. For the continuity and accuracy requirement of biological sequence mining, tested sequences used during the mining process of FBSB are real ones instead of generated candidates, and all the frequent sequences can be mined without any errors. Comparing with other algorithms, the experimental results show that FBSB can achieve a better performance on both run time and scalability
- …