914 research outputs found

    Consistent probabilistic outputs for protein function prediction

    Get PDF
    In predicting hierarchical protein function annotations, such as terms in the Gene Ontology (GO), the simplest approach makes predictions for each term independently. However, this approach has the unfortunate consequence that the predictor may assign to a single protein a set of terms that are inconsistent with one another; for example, the predictor may assign a specific GO term to a given protein ('purine nucleotide binding') but not assign the parent term ('nucleotide binding'). Such predictions are difficult to interpret. In this work, we focus on methods for calibrating and combining independent predictions to obtain a set of probabilistic predictions that are consistent with the topology of the ontology. We call this procedure 'reconciliation'. We begin with a baseline method for predicting GO terms from a collection of data types using an ensemble of discriminative classifiers. We apply the method to a previously described benchmark data set, and we demonstrate that the resulting predictions are frequently inconsistent with the topology of the GO. We then consider 11 distinct reconciliation methods: three heuristic methods; four variants of a Bayesian network; an extension of logistic regression to the structured case; and three novel projection methods - isotonic regression and two variants of a Kullback-Leibler projection method. We evaluate each method in three different modes - per term, per protein and joint - corresponding to three types of prediction tasks. Although the principal goal of reconciliation is interpretability, it is important to assess whether interpretability comes at a cost in terms of precision and recall. Indeed, we find that many apparently reasonable reconciliation methods yield reconciled probabilities with significantly lower precision than the original, unreconciled estimates. On the other hand, we find that isotonic regression usually performs better than the underlying, unreconciled method, and almost never performs worse; isotonic regression appears to be able to use the constraints from the GO network to its advantage. An exception to this rule is the high precision regime for joint evaluation, where Kullback-Leibler projection yields the best performance

    Sublinear-Time Cellular Automata and Connections to Complexity Theory

    Get PDF
    Im Gebiet des verteilten Rechnens werden Modelle untersucht, in denen sich mehrere Berechnungseinheiten koordinieren, um zusammen ein gemeinsames Ziel zu erreichen, wobei sie aber nur ĂŒber begrenzte Ressourcen verfĂŒgen — sei diese Zeit-, Platz- oder KommunikationskapazitĂ€ten. Das Hauptuntersuchungsobjekt dieser Dissertation ist das wohl einfachste solche Modell ĂŒberhaupt: (eindimensionale) Zellularautomaten. Unser Ziel ist es, einen besseren Überblick ĂŒber die FĂ€higkeiten und EinschrĂ€nkungen des Modells und ihrer Varianten zu erlangen in dem Fall, dass die gesamte Bearbeitungszeit deutlich kleiner als die GrĂ¶ĂŸe der Eingabe ist (d. h. Sublinear-Zeit). Wir fĂŒhren unsere Analyse von dem Standpunkt der KomplexitĂ€tstheorie und stellen dabei auch BezĂŒge zwischen Zellularautomaten und anderen Gebieten wie verteiltes Rechnen und Streaming-Algorithmen her. Sublinear-Zeit Zellularautomaten. Ein Zellularautomat (ZA) besteht aus identischen Zellen, die entlang einer Linie aneinandergereiht sind. Jede Zelle ist im Wesentlichen eine sehr primitive Berechnungseinheit (nĂ€mlich ein deterministischer endlicher Automat), die mit deren beiden Nachbarn interagieren kann. Die Berechnung entsteht durch die Aktualisierung der ZustĂ€nde der Zellen gemĂ€ĂŸ derselben ZustandsĂŒberfĂŒhrungsfunktion, die gleichzeitig ĂŒberall im Automaten angewendet wird. Die von uns betrachteten Varianten sind unter anderem schrumpfende ZAs, die (gewissermaßen) dynamisch rekonfigurierbar sind, sowie eine probabilistische Variante, in der jede Zelle mit Zugriff auf eine faire MĂŒnze ausgestattet ist. Trotz ĂŒberragendem Interesse an Linear- und Real-Zeit-ZAs scheint der Fall von Sublinear-Zeit im Großen und Ganzen von der wissenschaftlichen Gemeinschaft vernachlĂ€ssigt worden zu sein. Wir arbeiten die ĂŒberschaubare Anzahl an Vorarbeiten zu dem Thema auf, die vorhanden ist, und entwickeln die daraus stammenden Techniken weiter, sodass deren Spektrum an Anwendungsmöglichkeiten wesentlich breiter wird. Durch diese BemĂŒhungen entsteht unter anderem ein Zeithierarchiesatz fĂŒr das deterministische Modell. Außerdem ĂŒbertragen wir Techniken zum Beweis unterer Schranken aus der KomplexitĂ€tstheorie auf das Modell der schrumpfenden ZAs und entwickeln neue Techniken, die auf probabilistische Sublinear-Zeit-ZAs zugeschnitten sind. Ein Bezug zu HĂ€rte-Magnifizierung. Ein Bezug zu KomplexitĂ€tstheorie, die wir im Laufe unserer Untersuchungen herstellen, ist ein Satz ĂŒber HĂ€rte-Magnifizierung (engl. hardness magnification) fĂŒr schrumpfende ZAs. Hier bezieht sich HĂ€rte-Magnifizierung auf eine Reihe neuerer Arbeiten, die bezeugen, dass selbst geringfĂŒgig nicht-triviale untere Schranken sehr beeindruckende Konsequenzen in der KomplexitĂ€tstheorie haben können. Unser Satz ist eine Abwandlung eines neuen Ergebnisses von McKay, Murray und Williams (STOC, 2019) fĂŒr Streaming-Algorithmen. Wie wir zeigen kann die Aussage dabei genauso in Bezug auf schrumpfende ZAs formuliert werden, was sie auch beweisbar verstĂ€rkt. Eine Verbindung zu Sliding-Window Algorithmen. Wir verknĂŒpfen das verteilte Zellularautomatenmodell mit dem sequenziellen Streaming-Algorithmen-Modell. Wie wir zeigen, können (gewisse Varianten von) ZAs von Streaming-Algorithmen simuliert werden, die bestimmten LokalitĂ€tseinschrĂ€nkungen unterliegen. Konkret ist der aktuelle Zustand des Algorithmus vollkommen bestimmt durch den Inhalt eines Fensters fester GrĂ¶ĂŸe, das wenige letzte Symbole enthĂ€lt, die vom Algorithmus verarbeitet worden sind. Dementsprechend nennen wir diese eingeschrĂ€nkte Form eines Streaming-Algorithmus einen Sliding-Window-Algorithmus. Wir zeigen, dass Sliding-Window-Algorithmen ZAs sehr effizient simulieren können und insbesondere in einer solchen Art und Weise, dass deren PlatzkomplexitĂ€t eng mit der ZeitkomplexitĂ€t des simulierten ZA verbunden ist. Derandomisierungsergebnisse. Wir zeigen Derandomisierungsergebnisse fĂŒr das Modell von Sliding-Window-Algorithmen, die Zufall aus einer binĂ€ren Zufallsquelle beziehen. Dazu stĂŒtzen wir uns auf die robuste Maschinerie von Branching-Programmen, die den gĂ€ngigen Ansatz zur Derandomisierung von Platz-beschrĂ€nkten Maschinen in der KomplexitĂ€tstheorie darstellen. Als eine Anwendung stellen sich Derandomisierungsergebnisse fĂŒr probabilistische Sublinear-Zeit-ZAs heraus, die durch die oben genannten VerknĂŒpfung erlangt werden. Vorhersageproblem fĂŒr Pilz-Sandhaufen. Ein letztes Problem, das wir behandeln und das auch einen Bezug zu Sublinear-ZeitkomplexitĂ€t im Rahmen von Zellularautomaten hat (obwohl nicht zu Sublinear-Zeit-Zellularautomaten selber), ist das Vorhersageproblem fĂŒr Sandhaufen-Zellularautomaten. Diese Automaten sind basierend auf zweidimensionalen ZAs definiert und modellieren einen deterministischen Prozess, in dem sich Partikel (in der Regel denkt man an Sandkörnern) durch den Raum verbreiten. Das Vorhersageproblem fragt ob, gegeben eine Zellennummer yy und eine initiale Konfiguration fĂŒr den Sandhaufen, die Zelle mit Nummer yy irgendwann vor einer gewissen Zeitschranke einen von Null verschiedenen Zustand erreichen wird. Die KomplexitĂ€t dieses mindestens zwei Jahrzehnte alten Vorhersageproblems ist fĂŒr zweidimensionelle Sandhaufen bemerkenswerterweise nach wie vor offen. Wir lösen diese Frage im Wesentlichen fĂŒr eine neue Variante von Sandhaufen namens Pilz-Sandhaufen, die von Goles u. a. (Phys. Lett. A, 2020) vorgeschlagen worden ist. Unser Ergebnis ist besonders relevant, weil es innovative Erkenntnisse und neue Techniken liefert, die fĂŒr die Lösung des offenen Problems im allgemeinen Fall von hoher Relevanz sein könnten

    Imaging synaptic plasticity

    Get PDF
    Over the past decade, the use and development of optical imaging techniques has advanced our understanding of synaptic plasticity by offering the spatial and temporal resolution necessary to examine long-term changes at individual synapses. Here, we review the use of these techniques in recent studies of synaptic plasticity and, in particular, long-term potentiation in the hippocampus

    Discovering transcriptional modules by Bayesian data integration

    Get PDF
    Motivation: We present a method for directly inferring transcriptional modules (TMs) by integrating gene expression and transcription factor binding (ChIP-chip) data. Our model extends a hierarchical Dirichlet process mixture model to allow data fusion on a gene-by-gene basis. This encodes the intuition that co-expression and co-regulation are not necessarily equivalent and hence we do not expect all genes to group similarly in both datasets. In particular, it allows us to identify the subset of genes that share the same structure of transcriptional modules in both datasets. Results: We find that by working on a gene-by-gene basis, our model is able to extract clusters with greater functional coherence than existing methods. By combining gene expression and transcription factor binding (ChIP-chip) data in this way, we are better able to determine the groups of genes that are most likely to represent underlying TMs
    • 

    corecore