592 research outputs found

    Novel Methods for Analyzing and Visualizing Phylogenetic Placements

    Get PDF
    Die DNS (englisch: DNA) bildet die vererbbare Grundlage allen bekannten Lebens auf dem Planeten. Entsprechend wichtig ist ihre "Entschlüsselung" für die Biologie im Allgemeinen, und für die Erforschung der evolutionären Zusammenhänge verschiedener biologischer Artern im Besonderen. In den letzten Jahrzehnten hat eine rasante technologische Entwicklung im Bereich der DNS-Sequenzierung stattgefunden, die auch auf absehbare Zeit noch nicht zum Stillstand kommen wird. Die biologische Forschung hat daher den Bedarf an computer-gestützten Methoden erkannt, sowohl in Bezug auf die Speicherung und Verarbeitung der immensen Datenmengen, die bei der Sequenzierung anfallen, als auch in Bezug auf deren Analyse und Visualisierung. Eine grundlegene Fragestellung ist dabei die nach dem Stammbaum des Lebens, der die evolutionäre Verwandtschaft der Arten beschreibt. Diese Wissenschaft wird Phylogenetik, und die resultierenden Strukturen phylogenetische Bäume genannt. Häufig basieren diese Bäume auf dem Vergleich von DNS-Sequenzen der Arten, mit der Idee, dass Arten mit ähnlicher DNS auch im Baum nah beieinander liegen. Die Berechnung eines solchen Baumes aus DNS-Daten kann als Optimierungsproblem formuliert werden, das durch die stetig wachsende Menge an Daten für die Informatik eine Herausforderung darstellt. Aktuell beschäftigt sich die Mikrobiologie zum Beispiel mit der Erkundung und Erforschung von Proben (Samples), die aus Meereswasser, dem Erdreich, dem menschlichen Körper, und ähnlichen Umgebungen gewonnen wurden: Welche mikrobischen Arten, Bakterien und andere Einzeller, bewohnen diese Umgebungen und Proben? Das zugehörige Forschungsfeld ist die Meta-Genetik. Einen verlässlichen Stammbaum für die aber-millionen an Sequenzen aus solchen Proben zu errechnen ist praktisch unmöglich. Eine Alternative bietet die phylogenetische Platzierung der Sequenzen auf einem gegebenen Referenz-Baum von bekannten Arten (so genanntes phylogenetisches Placement): Hierbei wird ein Stammbaum aus Referenz-Sequenzen bekannter Arten gewählt, der möglichst viel der in den Proben zu erwartenden Artenvielfalt abdeckt, und dann für jede Sequenz aus den Proben die nächste Verwandtschaft innerhalb des Baumes bestimmt. Dies resultiert in einer Zuordnung von Sequenzen auf die Positionen verwandter Arten im Referenz-Baum. Diese Zuordnung kann auch als Verteilung der Sequenzen auf dem Baum verstanden werden: In dieser Interpretation kann man beispielsweise erkennen, welche Arten (und deren Verwandtschaft) besonders häufig in den Proben vertreten sind. Diese Arbeit beschäftigt sich mit neuen Methoden zur Vor- und Nachbereitung, Analyse, und Visualisierung rund um den Kernbereich des phylogenetischen Placements von DNS-Sequenzen. Zunächst stellen wir eine Methode vor, die einen geeigneten Referenz-Baum für die Platzierung liefern kann. Die Methode heißt PhAT (Phylogenetic Automatic (Reference) Trees), und nutzt Datenbanken bekannter DNS-Sequenzen, um geeigenete Referenz-Sequenzen für den Baum zu bestimmen. Die durch PhAT produzierten Bäume sind beispielsweise dann interessant, wenn die in den Proben zu erwartende Artenvielfalt noch nicht bekannt ist: In diesem Fall kann ein breiter Baum, der viele der bekannten Arten abdeckt, helfen, neue, unbekannte Arten zu entdecken. Im gleichen Kapitel stellen wir außerdem zwei Behilfs-Methoden vor, um den Prozess und die Berechnungen der Placements von großen Datensätzen zu beschleunigen und zu ermöglichen. Zum einen stellen wir Multilevel-Placement vor, mit dem besonders große Referenz-Bäume in kleinere, geschachtelte Bäume aufgeteilt werden können, um so schnellere und detalliertere Platzierungen vornehmen können, als auf einem einzelnen großen Baum möglich wären. Zum anderen beschreiben wir eine Pipeline, die durch geschickte Lastverteilung und Vermeidung von Duplikaten den Prozess weiter beschleunigen kann. Dies eignet sich insbesondere für große Datensätze von zu platzierenden Sequenzen, und hat die Berechnungen erst ermöglicht, die wir zum testen der im weiteren vorgestellten Methoden benötigt haben. Im Anschluss stellen wir zwei Methoden vor, um die Placement-Ergebnisse verschiedener Proben miteinander zu vergleichen. Die Methoden, Edge Dispersion und Edge Correlation, visualisieren den Referenz-Baum derart, dass die in Bezug auf die Proben interessanten und relevanten Regionen des Baumes sichtbar werden. Edge Dispersion zeigt dabei Regionen, in denen sich die Häufigkeit der in den Proben vorhandenen mikrobischen Arten besonders stark zwischen den einzelnen Proben unterscheided. Dies kann als erste Erkundung von neuen Datensätzen dienen, und gibt Aufschluss über die Varianz der Häufigkeit bestimmter Arten. Edge Correlation hingegen bezieht zusätzlich Meta-Daten mit ein, die zu den Proben gesammelt wurden. Dadurch können beispielsweise Abhängigkeiten zwischen Häufigkeiten von Arten und Faktoren wie dem pH-Wert des Bodens oder dem Nitrat-Gehalt des Wassers, aus dem die Proben stammen, aufgezeigt werden. Es hat damit ähnlichkeiten zu einer bestehenden Methode names Edge PCA, die ebenfalls relevante Regionen des Baumen identifizieren kann, allerdings die vorhandenen Meta-Daten nur indirekt einbeziehen kann. Eine weitere Fragestellung ist die Gruppierung (Clustering) von Proben anhand von Gemeinsamkeiten, wie beispielweise einer ähnlichen Verteilungen der Sequenzen auf dem Referenz-Baum. Anhand geeigneter Distanz-Maße wie der Kantorovich-Rubinstein-Distanz (KR-Distanz) können ähnlichkeiten zwischen Proben quantifiziert werden, und somit ein Clustering erstellt werden. Für große Datensätze mit hunderten und tausenden von einzlnen Proben stoßen bestehende Methoden für diesen Einsatzzweck, wie zum Beispiel das so genannte Squash Clustering, an ihre Grenzen. Wir haben daher die kk-means-Methode derart erweitert, dass sie für Placement-Daten genutzt werden kann. Dazu präsentieren wir zwei Methoden, Phylogenetic kk-means und Imbalance kk-means, die verschiedene Distanzmaße zwischen Proben (KR-Distanz, und ein weiteres geeignetes Maß) nutzen, um Bäume mit ähnlichen Verteilungen von platzierten Sequenzen zu gruppieren. Sie betrachten jede Probe als einen Datenpunkt, und nutzen die zugrunde liegende Struktur des Referenz-Baumes für die Berechnungen. Mit diesen Methoden können auch Datensätze mit zehntausenden Proben verarbeitet werden, und Clusterings und ähnlichkeiten von Proben erkannt und visualisiert werden. Wir haben außerdem ein Konzept namens Balances für Placement-Daten adaptiert, welches ursprünglich für so genannte OTU-Sequenzen (Operational Taxonomic Units) entwickelt wurde. Balances erlauben eine Beschreibung des Referenz-Baumes und der darauf platzierten Sequenzen, die ganze Gruppen von Referenz-Arten zusammenfasst, statt jede Art einzeln in die Berechnungen einfließen zu lassen. Diese Beschreibung der Daten bietet verschiedene Vorteile für die darauf basierenden Analysen, wie zum Beispiel eine Robustheit gegenüber der exakten Wahl der Referenz-Sequenzen, und einer anschaulichen Beschreibung und Visualisierung der Ergebnisse. Insbesondere aus mathematischer Sicht sind Balances für die Analyse interessant, da sie problematische Artefakte aufgrund der kompositionellen Natur meta-genetischer Daten beheben. Im Zuge dieser Arbeit dienen Balances hauptsächlich als Zwischenschritt zur Daten-Repräsentation. Eine Anwendung von Balances ist die so genannte Phylofactorization. Diese recht neue Methode teilt einen gegebenen Baum derart in Sub-Bäume ein, dass jeder Sub-Baum eine Gruppe von Arten darstellt, die in Bezug auf gegebene Meta-Daten pro Probe relevant sind. Dadurch können beispielsweise Gruppen identifiziert werden, deren evolutionäre Merkmale sich in Abhängigkeit von Meta-Daten wie pH-Wert angepasst haben im Vergleich zu anderen Gruppen. Dies ist ähnlich zur oben genannten Edge Correlation, aber kann zum einen durch geschickte mathematische Ansätze (insbesondere der Nutzung von Generalized Linear Models) mehrere Meta-Daten gleichzeitig einbeziehen, und zum anderen auch verschachtelte Gruppen finden. Die zugrunde liegenden Ideen dieser Methoden bieten einen großen Spielraum sowohl für Analysen von Daten, als auch für Weiterentwicklungen und Ergänzungen für verwandte Fragestellungen. Wir haben diese Methode für Placement-Daten adaptiert und erweitert, und stellen diese Variante, genannt Placement-Factorization, vor. Im Zuge dieser Adaption haben wir außerdem verschiedene ergänzende Berechnungen und Visalisierungen entwickelt, die auch für die ursprüngliche Phylofactorization nützlich sind. Alle genannten neuen Methoden wurden ausführlich getestet in Bezug auf ihre Eignung zur Erforschung von mikrobiologischen Zusammenhängen. Wir haben dazu verschiedene bekannte Datzensätze von DNS-Sequenzen aus Wasser- und Bodenproben, sowie Proben des menschlichen Mikrobioms, verwendet und diese auf geeigneten Referenz-Bäumen platziert. Anhand dieser Daten haben wir zum einen die Plausibilität der durch unsere Analysen erzielten Ergebnisse geprüft, als auch Vergleiche der Ergebnisse mit ähnlichen, etablierten Methoden vorgenommen. Sämtliche Analysen, Visualisierungen, und Vergleiche werden in den jeweils entsprechenden Kapiteln vorgestellt, und die Ergebnisse dargestellt. Alle Tests zeigen, dass unsere Methoden auf den getesteten Datensätzen zu Resultaten führen, die konsistent mit anderen Analysen sind, und geeignet sind, um neue biologische Erkenntnisse zu gewinnen. Sämtliche hier vorgestellten Methoden sind in unserer Software-Bibliothek genesis implementiert, die wir im Zuge dieser Arbeit entwickelt haben. Die Bibliothek ist in modernem C++11 geschrieben, hat einen modularen und funktions-orientierten Aufbau, ist auf Speichernutzung und Rechengeschwindigkeit optimiert, und nutzt vorhandene Multi-Prozessor-Umgebungen. Sie eignet sich daher sowohl für schnelle Tests von Prototypen, als auch zur Entwicklung von Analyse-Software für Endanwender. Wir haben genesis bereits erfolgreich in vielen unserer Projekte eingesetzt. Insbesondere bieten wir sämtliche hier präsentierten Methoden über unser Software-Tool gappa an, das intern auf genesis basiert. Das Tool stellt einen einfachen Kommandozeilen-Zugriff auf die vorhandenen Analysemethoden bereit, und bietet ausreichend Optionen für die Analysen der meisten End-Anwender. Im abschließenden Kapitel wagen wir einen Ausblick in weitere Forschungsmöglichkeiten im Bereich der Methoden-Entwicklung für meta-genetische Fragestellungen im Allgemeinen, und der placement-basierten Methoden im Speziellen. Wir benennen verschiedene Herausforderungen in Bezug auf die Nutzbarkeit solcher Methoden für Anwender und ihrer Skalierbarkeit für immer größer werdende Datensätze. Außerdem schlagen wir verschiedene weitergehende Ansätze vor, die zum Beispiel auf neuronalen Netzwerken und Deep Learning basieren könnten. Mit aktuellen Datensätzen wären solche Methoden nicht robust trainierbar; durch das in Zukuft zu erwartenden Wachstum an Daten kann dies allerdings bald in den Bereich des Möglichen kommen. Schließlich identifizierenden wir einige tiefer gehende Forschungsfragen aus der Biologie und Medizin, bei deren Beantwortung unsere Methoden in Zukunft helfen können

    Recent Advances in Multi Robot Systems

    Get PDF
    To design a team of robots which is able to perform given tasks is a great concern of many members of robotics community. There are many problems left to be solved in order to have the fully functional robot team. Robotics community is trying hard to solve such problems (navigation, task allocation, communication, adaptation, control, ...). This book represents the contributions of the top researchers in this field and will serve as a valuable tool for professionals in this interdisciplinary field. It is focused on the challenging issues of team architectures, vehicle learning and adaptation, heterogeneous group control and cooperation, task selection, dynamic autonomy, mixed initiative, and human and robot team interaction. The book consists of 16 chapters introducing both basic research and advanced developments. Topics covered include kinematics, dynamic analysis, accuracy, optimization design, modelling, simulation and control of multi robot systems

    Deep learning for internet of underwater things and ocean data analytics

    Get PDF
    The Internet of Underwater Things (IoUT) is an emerging technological ecosystem developed for connecting objects in maritime and underwater environments. IoUT technologies are empowered by an extreme number of deployed sensors and actuators. In this thesis, multiple IoUT sensory data are augmented with machine intelligence for forecasting purposes

    HPCCP/CAS Workshop Proceedings 1998

    Get PDF
    This publication is a collection of extended abstracts of presentations given at the HPCCP/CAS (High Performance Computing and Communications Program/Computational Aerosciences Project) Workshop held on August 24-26, 1998, at NASA Ames Research Center, Moffett Field, California. The objective of the Workshop was to bring together the aerospace high performance computing community, consisting of airframe and propulsion companies, independent software vendors, university researchers, and government scientists and engineers. The Workshop was sponsored by the HPCCP Office at NASA Ames Research Center. The Workshop consisted of over 40 presentations, including an overview of NASA's High Performance Computing and Communications Program and the Computational Aerosciences Project; ten sessions of papers representative of the high performance computing research conducted within the Program by the aerospace industry, academia, NASA, and other government laboratories; two panel sessions; and a special presentation by Mr. James Bailey

    Learning the dynamics of deformable objects and recursive boundary estimation using curve evolution techniques

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2005.This electronic version was submitted by the student author. The certified thesis is available in the Institute Archives and Special Collections.Includes bibliographical references (p. 161-176).The primary objective of this thesis is to develop robust algorithms for the incorporation of statistical information in the problem of estimating object boundaries in image data. We propose two primary algorithms, one which jointly estimates the underlying field and boundary in a static image and another which performs image segmentation across a temporal sequence. Some motivating applications come from the earth sciences and medical imaging. In particular, we examine the problems of oceanic front and sea surface temperature estimation in oceanography, soil boundary and moisture estimation in hydrology, and left ventricle boundary estimation across a cardiac cycle in medical imaging. To accomplish joint estimation in a static image, we introduce a variational technique that incorporates the spatial statistics of the underlying field to segment the boundary and estimate the field on either side of the boundary. For image segmentation across a sequence of frames, we propose a method for learning the dynamics of a deformable boundary that uses these learned dynamics to recursively estimate the boundary in each frame over time. In the recursive estimation algorithm, we extend the traditional particle filtering approach by applying sample-based methods to a complex shape space.(cont.) We find a low-dimensional representation for this shape-shape to make the learning of the dynamics tractable and then incorporate curve evolution into the state estimates to recursively estimate the boundaries. Experimental results are obtained on cardiac magnetic resonance images, sea surface temperature data, and soil moisture maps. Although we focus on these application areas, the underlying mathematical principles posed in the thesis are general enough that they can be applied to other applications as well. We analyze the algorithms on data of differing quality, with both high and low SNR data and also full and sparse observations.by Walter Sun.Ph.D

    Aeronautical Engineering: A continuing bibliography with indexes, supplement 174

    Get PDF
    This bibliography lists 466 reports, articles and other documents introduced into the NASA scientific and technical information system in April 1984

    EG-ICE 2021 Workshop on Intelligent Computing in Engineering

    Get PDF
    The 28th EG-ICE International Workshop 2021 brings together international experts working at the interface between advanced computing and modern engineering challenges. Many engineering tasks require open-world resolutions to support multi-actor collaboration, coping with approximate models, providing effective engineer-computer interaction, search in multi-dimensional solution spaces, accommodating uncertainty, including specialist domain knowledge, performing sensor-data interpretation and dealing with incomplete knowledge. While results from computer science provide much initial support for resolution, adaptation is unavoidable and most importantly, feedback from addressing engineering challenges drives fundamental computer-science research. Competence and knowledge transfer goes both ways

    Automated feature extraction in oceanographic visualization

    Get PDF
    Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of Ocean Engineering; and, (S.M.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2004.Includes bibliographical references (leaves 141-147).The ocean is characterized by a multitude of powerful, sporadic biophysical dynamical events; scientific research has reached the stage that their interpretation and prediction is now becoming possible. Ocean prediction, analogous to atmospheric weather prediction but combining biological, chemical and physical features is able to help us understand the complex coupled physics, biology and acoustics of the ocean. Applications of the prediction of the ocean environment include exploitation and management of marine resources, pollution control such as planning of maritime and naval operations. Given the vastness of ocean, it is essential for effective ocean prediction to employ adaptive sampling to best utilize the available sensor resources in order to minimize the forecast error. It is important to concentrate measurements to the regions where one can witness features of physical or biological significance in progress. Thus automated feature extraction in oceanographic visualization can facilitate adaptive sampling by presenting the physically relevant features directly to the operation planners. Moreover it could be used to help automate adaptive sampling. Vortices (eddies and gyres) and upwelling, two typical and important features of the ocean, are studied.(cont.) A variety of feature extraction methods are presented, and those more pertinent to this study are implemented, including derived field generation and attribute set extraction. Detection results are evaluated in terms of accuracy, computational efficiency, clarity and usability. Vortices, a very important flow feature is the primary focus of this study. Several point-based and set-based vortex detection methods are reviewed. A set-based vortex core detection method based on geometric properties of vortices is applied to both classical vortex models and real ocean models. The direction spanning property, which is a geometric property, guides the detection of all the vortex core candidates, and the conjugate pair eigenvalue method is responsible for filtering out the false positives from the candidate set. Results show the new method to be analytically accurate and practically feasible, and superior to traditional point-based vortex detection methods. Detection methods of streamlines are also discussed. Using the novel cross method or the winding angle method, closed streamlines around vortex cores can be detected.(cont.) Therefore, the whole vortex area, i.e., the combination of vortex core and surrounding streamlines, is detected. Accuracy and feasibility are achieved through automated vortex detection requiring no human inspection. The detection of another ocean feature, upwelling, is also discussed.by Da Guo.S.M

    Optimal Surface Fitting of Point Clouds Using Local Refinement

    Get PDF
    This open access book provides insights into the novel Locally Refined B-spline (LR B-spline) surface format, which is suited for representing terrain and seabed data in a compact way. It provides an alternative to the well know raster and triangulated surface representations. An LR B-spline surface has an overall smooth behavior and allows the modeling of local details with only a limited growth in data volume. In regions where many data points belong to the same smooth area, LR B-splines allow a very lean representation of the shape by locally adapting the resolution of the spline space to the size and local shape variations of the region. The iterative method can be modified to improve the accuracy in particular domains of a point cloud. The use of statistical information criterion can help determining the optimal threshold, the number of iterations to perform as well as some parameters of the underlying mathematical functions (degree of the splines, parameter representation). The resulting surfaces are well suited for analysis and computing secondary information such as contour curves and minimum and maximum points. Also deformation analysis are potential applications of fitting point clouds with LR B-splines.publishedVersio
    corecore