6 research outputs found

    Классификация экзонов генов человека с использованием алгоритмов автоматического выбора атрибутов экзонов

    Get PDF
    Volkov AV, Yatskov NN, Grinev VV Classification of exons of human genes using algorithms for automatic selection of exon attributesСекция 2. МЕТОДЫ И ТЕХНОЛОГИИ МАТЕМАТИЧЕСКОГО И ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ СИСТЕ

    Assessment of the Physiological Network in Sleep Apnea

    Get PDF
    Objective: Machine Learning models, in particular Artificial Neural Networks, have shown to be applicable in clinical research for tumor detection and sleep phase classification. Applications in systems medicine and biology, for example in Physiological Networks, could benefit from the ability of these methods to recognize patterns in high-dimensional data, but decisions of an Artificial Neural Network cannot be interpreted based on the model itself. In a medical context this is an undesirable characteristic, because hidden age, gender or other data biases negatively impact the model quality. If insights are based on a biased model, the ability of an independent study to come to similar conclusions is limited and therefore an essential property of scientific experiments, known as results reproducibility, is violated. Besides results reproducibility, methods reproducibility allows others to reproduce exact outputs of computational experiments, but requires data, code and runtime environments to be available. These challenges in interpretability and reproducibility are addressed as part of an assessment of the Physiological Network in Obstructive Sleep Apnea. Approach: A research platform is developed, that connects medical data, code and environ-ments to enable methods reproducibility. The platform employs a compute cluster or cloud to accelerate the demanding model training. Artificial Neural Networks are trained on the Physiological Network data of a healthy control group for age and gender prediction to verify the influence of these biases. In a subsequent study, an Artificial Neural Network is trained to classify the Physiological Networks in Obstructive Sleep Apnea and a healthy control group. The state-of-the-art interpretation method DeepLift is applied to explain model predictions. Results: An existing collaboration platform has been extended for sleep research data and modern container technologies are used to distribute training environments in compute clusters. Artificial Neural Network models predict the age of healthy subjects in a resolution of one decade and correctly classify the gender with 91% accuracy. Due to the verified biases, a matched dataset is created for the classification of Obstructive Sleep Apnea. The classification accuracy reaches 87% and DeepLift provides biomarkers as significant indicators towards or against the disorder. Analysis of misclassified samples shows potential Obstructive Sleep Apnea phenotypes. Significance: The presented platform is extensible for future use cases and focuses on the reproducibility of computational experiments, a concern across many disciplines. Machine learning approaches solve analysis tasks on high-dimensional data and novel interpretation techniques provide the required transparency for medical applications.Ziel: Methoden des maschinellen Lernens, insbesondere künstliche neuronale Netze, finden Anwendung in der klinischen Forschung, um beispielsweise Tumorzellen oder Schlafphasen zu klassifizieren. Anwendungen in der Systemmedizin und -biologie, wie physiologische Netzwerke, könnten von der Fähigkeit dieser Methoden, Muster in großen Merkmalsräumen zu finden, profitieren. Allerdings sind Entscheidungen eines künstlichen neuronalen Netzes nicht allein anhand des Modells interpretierbar. In einem medizinischen Kontext ist dies eine unerwünschte Charakteristik, weil die Daten, mit denen ein Modell trainiert wird, versteckte Einflüsse wie Alters- und Geschlechtsabhängigkeiten beinhalten können. Erkenntnisse, die auf einem beeinflussten Modell basieren, sind nur bedingt durch unabhängige Studien nach-vollziehbar, sodass keine Ergebnisreproduzierbarkeit gegeben ist. Neben der Ergebnisreproduzier-barkeit bezeichnet Methodenreproduzierbarkeit die Möglichkeit exakte Programmausgaben zu reproduzieren, was die Verfügbarkeit von Daten, Programmcode und Ausführungsumgebungen voraussetzt. Diese Promotion untersucht Veränderungen im physiologischen Netzwerk bei obstruktivem Schlafapnoesyndrom mit Methoden des maschinellen Lernens und adressiert dabei die genannten Herausforderungen der Interpretierbarkeit und Reproduzierbarkeit. Ansatz: Es wird eine Forschungsplattform entwickelt, die medizinische Daten, Programmcode und Ausführungsumgebungen verknüpft und damit Methodenreproduzierbarkeit ermöglicht. Die Plattform bindet zur Beschleunigung des ressourcenintensiven Modelltrainings verteilte Rechenressourcen in Form eines Clusters oder einer Cloud an. Künstliche neuronale Netze werden zur Bestimmung des Alters und des Geschlechts anhand der physiologischen Daten einer gesunden Kontrollgruppe trainiert, um den Einfluss der Alters- und Geschlechtsabhängigkeiten zu untersuchen. In einer Folgestudie werden die Unterschiede im physiologischen Netzwerk einer Gruppe mit obstruktivem Schlafapnoesyndrom und einer gesunden Kontrollgruppe klassifiziert. DeepLift, eine Interpretationsmethode nach aktuellem Stand der Technik, wird zur Erklärung der Modellvorhersagen angewendet. Ergebnisse: Eine existierende Forschungsplattform wurde für die Verarbeitung schlafbezogener Forschungsdaten erweitert und Containertechnologien ermöglichen die Bereitstellung der Ausführungsumgebung eines Experiments in einem Cluster. Künstliche neuronale Netze können anhand der physiologischen Daten das Alter einer Person bis auf eine Dekade genau bestimmen und eine Geschlechtsklassifikation erreicht eine Genauigkeit von 91%. Die Ergebnisse bestätigen den Einfluss der Alters- und Geschlechtsabhängigkeiten, sodass für Schlafapnoeklassifikationen zunächst eine Datenbasis geschaffen wird, in der die Geschlechts- und Altersverteilung zwischen gesunden und kranken Gruppen ausgeglichen ist. Die resultierenden Modelle erreichen eine Klassifikationsgenauigkeit von 87%. DeepLift weist auf Biomarker und mögliche physiologische Schlafapnoe-Phänotypen im Tiefschlaf hin. Signifikanz: Die vorgestellte Plattform ist für zukünftige Anwendungsfälle erweiterbar und ermöglicht Methodenreproduzierbarkeit, was über den Einsatz in der Medizin hinaus auch in anderen Disziplinen von Bedeutung ist. Maschinelles Lernen bietet sinnvolle Ansätze für die Analyse hochdimensionaler Daten und neue Interpretationstechniken schaffen die notwendige Transparenz für medizinische Anwendungszwecke

    Characterizing strip snap in cold rolling process using advanced data analytics

    Get PDF
    Among the undesirable quality incidents in the cold rolling process of strip products, strip snap could result in yield loss and reduced work speed. Therefore, it is necessary to reveal the factors influencing the occurrence of this failure for quality improvement. In this study, a data analytics approach was applied with the aim of determining relevant variables affecting snap occurrence. To validate this approach, a case study was conducted based on real-world data collected from an electrical steel reversing mill. The results suggested a selection of variables to characterize the quality issue of strip snap in the cold rolling process. This quality characterization study was performed as the preliminary stage of a quality improvement task

    Class discovery via feature selection in unsupervised settings

    Full text link
    Identifying genes linked to the appearance of certain types of cancers and their phenotypes is a well-known and challenging problem in bioinformatics. Discovering marker genes which, upon genetic mutation, drive the proliferation of different types and subtypes of cancer is critical for the development of advanced tests and therapies that will specifically identify, target, and treat certain cancers. Therefore, it is crucial to find methods that are successful in recovering "cancer-critical genes" from the (usually much larger) set of all genes in the human genome. We approach this problem in the statistical context as a feature (or variable) selection problem for clustering, in the case where the number of important features is typically small (or rare) and the signal of each important feature is typically minimal (or weak). Genetic datasets typically consist of hundreds of samples (n) each with tens of thousands gene-level measurements (p), resulting in the well-known statistical "large p small n" problem. The class or cluster identification is based on the clinical information associated with the type or subtype of the cancer (either known or unknown) for each individual. We discuss and develop novel feature ranking methods, which complement and build upon current methods in the field. These ranking methods are used to select features which contain the most significant information for clustering. Retaining only a small set of useful features based on this ranking aids in both a reduction in data dimensionality, as well as the identification of a set of genes that are crucial in understanding cancer subtypes. In this paper, we present an outline of cutting-edge feature selection methods, and provide a detailed explanation of our own contributions to the field. We explain both the practical properties and theoretical advantages of the new tools that we have developed. Additionally, we explore a well-developed case study applying these new feature selection methods to different levels of genetic data to explore their practical implementation within the field of bioinformatics
    corecore