27 research outputs found

    Modeling the polygenic architecture of complex traits

    Get PDF
    Die Genomforschung ist innerhalb der letzten Jahre stark gewachsen. Fortschritte in der Sequenzierungstechnologie haben zu einer wahren Flut von genomweiten Daten geführt, die es uns ermöglichen, die genetische Architektur von komplexen Phänotypen detaillierter als jemals zuvor zu untersuchen. Selbst die modernsten Analysemethoden stoßen jedoch an ihre Grenzen, wenn die Effektgrößen zwischen den Markern zu stark schwanken, Störfaktoren die Analyse erschweren, oder die Abhängigkeiten zwischen verwandten Phänotypen ignoriert werden. Das Ziel dieser Arbeit ist es, mehrere Methoden zu entwickeln, die diese Herausforderungen effizient bewältigen können. Unser erster Beitrag ist der LMM-Lasso, ein Hybrid-Modell, das die Vorteile von Variablenselektion mit linearen gemischten Modellen verbindet. Dafür zerlegt er die phänotypische Varianz in zwei Komponenten: die erste besteht aus individuellen genetischen Effekten. Die zweite aus Effekten, die entweder durch Störfaktoren hervorgerufen werden oder zwar genetischer Natur sind, sich aber nicht auf individuelle Marker zurückführen lassen. Der Vorteil unseres Modells ist zum einen, dass die selektierten Koeffizienten leichter zu interpretieren sind als bei etablierte Standardverfahren und zum anderem diese auch an Vorhersagegenauigkeit übertroffen werden. Der zweite Beitrag beschreibt eine kritische Evaluierung verschiedener Lasso- Methoden, die a-priori bekannte strukturelle Informationen über die genetische Marker und den untersuchten Phänotypen benutzen. Wir bewerten die verschiedenen Ansätze auf Grund ihrer Vorhersagegenauigkeit auf simulierten Daten und auf Genexpressionsdaten in Hefe. Beide Experimente zeigen, dass Strukturinformationen nur dann helfen, wenn ihre Annahmen gerechtfertigt sind – sobald die Annahmen verletzt sind, hat die Zuhilfenahme der Strukturinformation den gegenteiligen Effekt. Um dem vorzubeugen, schlagen wir in unserem nächstem Beitrag vor, die Struktur zwischen den Phänotypen aus den Daten zu lernen. Im dritten Beitrag stellen wir ein effizientes Rechenverfahren für Multi-Task Gauss-Prozesse auf, das sowohl die genetische Verwandtschaft zwischen den Phänotypen als auch die Verwandtschaft der Residuen lernt. Unser Inferenzverfahren zeichnet sich durch einen verminderten Laufzeit- und Speicherbedarf aus und ermöglicht uns damit, die gemeinsame Heritabilität von Phänotypen auf großen Datensätzen zu untersuchen. Das Kapitel wird durch zwei Versuchsstudien vervollständigt; einer genomweiten Assoziationsstudie von Arabidopsis thaliana und einer Genexpressionsanalyse in Hefe, die bestätigen dass die neue Methode bessere Vorhersagen liefert. Die Vorteile der gemeinsamen Modellierung von Variablenselektion und Störfaktoren, sowie von Multi-Task Learning, werden in all unseren Versuchsreihen deutlich. Während sich unsere Experimente vor allem auf Anwendungen aus dem Bereich der Genomik konzentrieren, sind die von uns entwickelten Methoden jedoch allgemeingültig und können auch in anderen Feldern Anwendung finden

    Pruning population size in XCS for complex problems

    Get PDF
    In this report, we show how to prune the population size of the Learning Classifier System XCS for complex problems. We say a problem is complex, when the number of specified bits of the optimal start classifiers (the prob lem dimension) is not constant. First, we derive how to estimate an equiv- alent problem dimension for complex problems based on the optimal start classifiers. With the equivalent problem dimension, we calculate the optimal maximum population size just like for regular problems, which has already been done. We empirically validate our results. Furthermore, we introduce a subsumption method to reduce the number of classifiers. In contrast to existing methods, we subsume the classifiers after the learning process, so subsuming does not hinder the evolution of optimal classifiers, which has been reported previously. After subsumption, the number of classifiers drops to about the order of magnitude of the optimal classifiers while the correctness rate nearly stays constant

    Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving

    Full text link
    In autonomous driving tasks, scene understanding is the first step towards predicting the future behavior of the surrounding traffic participants. Yet, how to represent a given scene and extract its features are still open research questions. In this study, we propose a novel text-based representation of traffic scenes and process it with a pre-trained language encoder. First, we show that text-based representations, combined with classical rasterized image representations, lead to descriptive scene embeddings. Second, we benchmark our predictions on the nuScenes dataset and show significant improvements compared to baselines. Third, we show in an ablation study that a joint encoder of text and rasterized images outperforms the individual encoders confirming that both representations have their complementary strengths

    Hybrid modeling design patterns

    No full text
    Design patterns provide a systematic way to convey solutions to recurring modeling challenges. This paper introduces design patterns for hybrid modeling, an approach that combines modeling based on first principles with data-driven modeling techniques. While both approaches have complementary advantages there are often multiple ways to combine them into a hybrid model, and the appropriate solution will depend on the problem at hand. In this paper, we provide four base patterns that can serve as blueprints for combining data-driven components with domain knowledge into a hybrid approach. In addition, we also present two composition patterns that govern the combination of the base patterns into more complex hybrid models. Each design pattern is illustrated by typical use cases from application areas such as climate modeling, engineering, and physics.ISSN:2190-598

    Combining Slow and Fast: Complementary Filtering for Dynamics Learning

    No full text
    Modeling an unknown dynamical system is crucial in order to predict the future behavior of the system. A standard approach is training recurrent models on measurement data. While these models typically provide exact short-term predictions, accumulating errors yield deteriorated long-term behavior. In contrast, models with reliable long-term predictions can often be obtained, either by training a robust but less detailed model, or by leveraging physics-based simulations. In both cases, inaccuracies in the models yield a lack of short-time details. Thus, different models with contrastive properties on different time horizons are available. This observation immediately raises the question: Can we obtain predictions that combine the best of both worlds? Inspired by sensor fusion tasks, we interpret the problem in the frequency domain and leverage classical methods from signal processing, in particular complementary filters. This filtering technique combines two signals by applying a high-pass filter to one signal, and low-pass filtering the other. Essentially, the high-pass filter extracts high-frequencies, whereas the low-pass filter extracts low frequencies. Applying this concept to dynamics model learning enables the construction of models that yield accurate long- and short-term predictions. Here, we propose two methods, one being purely learning-based and the other one being a hybrid model that requires an additional physics-based simulator

    Traversing Time with Multi-Resolution Gaussian Process State-Space Models

    No full text
    Gaussian Process state-space models capture complex temporal dependencies in a principled manner by placing a Gaussian Process prior on the transition function. These models have a natural interpretation as discretized stochastic differential equations, but inference for long sequences with fast and slow transitions is difficult. Fast transitions need tight discretizations whereas slow transitions require backpropagating the gradients over long subtrajectories. We propose a novel Gaussian process state-space architecture composed of multiple components, each trained on a different resolution, to model effects on different timescales. The combined model allows traversing time on adaptive scales, providing efficient inference for arbitrarily long sequences with complex dynamics. We benchmark our novel method on semi-synthetic data and on an engine modeling task. In both experiments, our approach compares favorably against its state-of-the-art alternatives that operate on a single time-scale only.Peer reviewe
    corecore