262 research outputs found

    A normalization technique for next generation sequencing experiments

    Get PDF
    Next generation sequencing (NGS) are these days one of the key technologies in biology. NGS' cost effectiveness and capability of finding the smallest variations in the genome makes them increasingly popular. For studies aiming at genome assembly, differences in read count statistics do not affect the outcome. However, these differences bias the outcome if the goal is to identify structural DNA characteristics like copy number variations (CNVs). Thus a normalization step must removed such random read count variations subsequently read counts from different experiments are comparable. Especially after normalization the commonly used assumption of Poisson read count distribution in windows on the chromosomes is more justified. Strong deviations of read counts from the estimated mean Poisson distribution indicate CNVs

    Fr\'echet ChemNet Distance: A metric for generative models for molecules in drug discovery

    Full text link
    The new wave of successful generative models in machine learning has increased the interest in deep learning driven de novo drug design. However, assessing the performance of such generative models is notoriously difficult. Metrics that are typically used to assess the performance of such generative models are the percentage of chemically valid molecules or the similarity to real molecules in terms of particular descriptors, such as the partition coefficient (logP) or druglikeness. However, method comparison is difficult because of the inconsistent use of evaluation metrics, the necessity for multiple metrics, and the fact that some of these measures can easily be tricked by simple rule-based systems. We propose a novel distance measure between two sets of molecules, called Fr\'echet ChemNet distance (FCD), that can be used as an evaluation metric for generative models. The FCD is similar to a recently established performance metric for comparing image generation methods, the Fr\'echet Inception Distance (FID). Whereas the FID uses one of the hidden layers of InceptionNet, the FCD utilizes the penultimate layer of a deep neural network called ChemNet, which was trained to predict drug activities. Thus, the FCD metric takes into account chemically and biologically relevant information about molecules, and also measures the diversity of the set via the distribution of generated molecules. The FCD's advantage over previous metrics is that it can detect if generated molecules are a) diverse and have similar b) chemical and c) biological properties as real molecules. We further provide an easy-to-use implementation that only requires the SMILES representation of the generated molecules as input to calculate the FCD. Implementations are available at: https://www.github.com/bioinf-jku/FCDComment: Implementations are available at: https://www.github.com/bioinf-jku/FC

    Identifying Copy Number Variations based on Next Generation Sequencing Data by a Mixture of Poisson Model

    Get PDF
    Next generation sequencing (NGS) technologies have profoundly impacted biological research and are becoming more and more popular due to cost effectiveness and their speed. NGS can be utilized to identify DNA structural variants, namely copy number variations (CNVs) which showed association with diseases like HIV, diabetes II, or cancer.

There have been first approaches to detect CNVs in NGS data, where most of them detect a CNV by a significant difference of read counts within neighboring windows at the chromosome. However these methods suffer from systematical variations of the underlying read count distributions along the chromosome due to biological and technical noise. In contrast to these global methods, we locally model the read count distribution characteristics by a mixture of Poissons which allows to incorporate a linear dependence between copy numbers and read counts. Model selection is performed in a Bayesian framework by maximizing the posterior through an EM algorithm. We define a CNV call which indicates a deviation of the Poisson mixture parameters from the null hypothesis represented by the prior which is a model for constant copy number across the samples. A CNV call requires sufficient information in the data to push the model away from the null hypothesis given by the prior.

We test our approach on the HapMap cohort where we rediscovered previously found CNVs which validates our approach. It is then tested on the tumor genome data set where we are able to considerably increase the detection while reducing the false discoveries.
&#xa

    Principled Weight Initialisation for Input-Convex Neural Networks

    Full text link
    Input-Convex Neural Networks (ICNNs) are networks that guarantee convexity in their input-output mapping. These networks have been successfully applied for energy-based modelling, optimal transport problems and learning invariances. The convexity of ICNNs is achieved by using non-decreasing convex activation functions and non-negative weights. Because of these peculiarities, previous initialisation strategies, which implicitly assume centred weights, are not effective for ICNNs. By studying signal propagation through layers with non-negative weights, we are able to derive a principled weight initialisation for ICNNs. Concretely, we generalise signal propagation theory by removing the assumption that weights are sampled from a centred distribution. In a set of experiments, we demonstrate that our principled initialisation effectively accelerates learning in ICNNs and leads to better generalisation. Moreover, we find that, in contrast to common belief, ICNNs can be trained without skip-connections when initialised correctly. Finally, we apply ICNNs to a real-world drug discovery task and show that they allow for more effective molecular latent space exploration.Comment: Presented at NeurIPS 202

    Berufliche Interessen von Tourismus-Management-Studierenden

    Get PDF
    Ziel dieser Arbeit war die Erstellung eines Interessenprofils von Tourismus-Management-Studierenden und von Studierenden des Studiengangs Gesundheitsmanagement im Tourismus. Zum Einsatz dabei kam ein neu erstelltes Interesseninventar, der RIASEC-RRK, welcher im Zuge dieser Arbeit auch testtheoretisch überprüft wurde. Zunächst werden im theoretischen Teil die allgemeine Bedeutung des Interessenkonstrukts und die Entwicklung von Interessen angeführt. Da der RIASEC-RRK einerseits auf der Theorie von Holland (1997) aufbaut, wird diese ausführlich beschrieben. Andererseits basiert der RIASEC-RRK auf drei Verhaltensmodalitäten (REZeptiv, REProduktiv und KREativ), welche erstmals in der Generellen Interessen-Skala von Brickenkamp (1990) angewendet wurden. Zusätzlich werden noch andere Interesseninventare angeführt, auf Methoden und Anwendungsbereiche von Interesseninventaren eingegangen und geschlechtsspezifische Unterschiede von Interessen behandelt. Schließlich werden noch die Vor- und Nachteile von Online-Untersuchungen angeführt. Der RIASEC-RRK wurde online über das TestWeb vorgegeben, wobei die durchschnittliche Bearbeitungsdauer 12 Minuten betrug. Der in dieser Arbeit ermittelte Drei-Buchstaben-Code für Tourismus-Management-Studierende lautet EIA (unternehmerisch, intellektuell-forschend und künstlerisch-sprachlich), der ermittelte Code für Studierende des Studiengangs Gesundheitsmanagement im Tourismus lautet SEI (sozial, unternehmerisch und intellektuell-forschend). Die Durchführungs- und die Auswertungsobjektivität sind durch die Online-Vorgabe des RIASEC-RRK gegeben. Die Reliabilität der Hauptskalen RIASEC und RRK ist mit durchwegs hohen inneren Konsistenzen ebenfalls gegeben. Den Ergebnissen zufolge unterscheiden die Interessenskalen RIASEC gut zwischen den Kriterien Studium und Geschlecht. Die Analyse der Verhaltensmodalitäten zeigt, dass generell die Rezeptive Skala am höchsten, die Reproduktive Skala am zweithöchsten und die Kreative Skala am niedrigsten ausgeprägt ist. Unterschiede bezüglich des Geschlechts konnten nicht nachgewiesen werden. Schließlich wurde noch die Kongruenz des erhaltenen Codes für Tourismus-Management-Studierende (EIA) mit dem Berufsregistercode von Bergmann und Eder (2005) und mit einem Code von Harsha (1991) ermittelt

    Russland und die Steppe

    Get PDF
    Besonders im Selbstbild Russlands nimmt der Raum eine zentrale Bedeutung ein, wird zu Vergleichsgröße, identitätskonstitutiver Komponente, Grundlage und Axiom philosophischer, historischer und politischer Theorien. Wissenschaftliche Arbeiten zu verschiedenen Raumproblematiken wie zum Beispiel der Bedeutung der „Hauptstädte“ oder dem Verhältnis zwischen Stadt und Peripherie geben Aufschluss über den Stellenwert von Orten und Örtlichkeiten in der Literatur. Findet die Steppe in diesem Diskurs Erwähnung, dann meist als notwendige Vergleichsgröße, um eine oppositionelle Dichotomie zwischen Ost und West, Zivilisation und Barbarei, Europa und Asien aufrechtzuerhalten. In meiner Arbeit sollen literarische Steppenbilder gezeigt werden, denen ein anderer Zugang zugrunde liegt, in welchen die Landschaft nicht nur als Schauplatz, auf dem Handlung stattfindet, fungiert, sondern selbst zu Handlungsträger, agierender und lebendiger Größe wird. Das erste Kapitel soll einen Einblick in die sozial- und kulturwissenschaftliche Raumtheorie geben. Die dort behandelten Ansätze werden als Grundlage für die darauf folgende Analyse der literarischen Landschaftsbilder dienen. Hierbei soll zunächst die Erzählung „Step'“ von Anton Pavlovič Čechov behandelt werden. In den darauffolgenden Kapiteln soll die Rolle der Steppe im Leben und Werk Maksimilian Aleksandrovič Vološins und der Kosaken aufgezeigt werden. Als Quelle dienen neben der bereits erwähnte Erzählung „Step'“ von Anton Pavlovič Čechov diverse Sammelbände mit Gedichten und Artikel von Maksimilian Aleksandrovič Vološin sowie seine Tagebuchaufzeichnungen, Reisenotizen und Briefe. Aus der Kosakenliteratur werden vor allem Gedichte aus Zeitschriften und Sammelbänden zur Analyse herangezogen
    corecore