138 research outputs found

    Uncommon Problems in Phylogenetic Inference

    Get PDF
    Die Phylogenetik ist die Lehre der Entwicklung des Lebens auf der Erde. Das Auf- decken alter evolutionärer Beziehungen zwischen lebenden Arten ist von großem Wert, da sie zu wichtigen Entdeckungen in der Biologie führte, wie beispielsweise zur Entwicklung neuer Medikamente, zur Nachverfolgung der Dynamik einer globa- len Pandemie sowie zu Erkenntnissen über den Ursprung der Menschheit. Heutzu- tage werden phylogenetische Analysen typischerweise mit Hilfe statistischer Modelle durchgeführt, wobei Sequenzdaten, in der Regel molekulare Sequenzen, als Einga- bedaten verwendet werden. Basierend auf diesen statistischen Modellen wird die wahrscheinlichste Erklärung für die Eingabedaten berechnet. Das heißt, der (ver- meintlich) korrekte phylogenetische Baum ist der Baum, der gemäß eines bestimm- ten Modells der Sequenzentwicklung am wahrscheinlichsten ist. Die rasche Zunahme verfügbarer Daten in den letzten Jahren ermöglicht wesentlich kompliziertere phylogenetische Analysen. Paradoxerweise hat diese massive Zunah- me der für die Analyse verfügbaren Daten nicht in allen Fällen zu einer endgültigen Schlussfolgerung geführt, d. h. das verwendete Modell ist unsicher bezüglich der wahrscheinlichsten Schlussfolgerung. Dies kann auf eine Vielzahl von Faktoren zu- rückzuführen sein, wie beispielsweise hochkomplexe Modelle, Rauschen in einigen oder allen Daten sowie physikalische Prozesse, die durch das Modell nicht angemes- sen berücksichtigt werden. Schwierigkeiten aufgrund von Ungewissheit sind weder in der Phylogenetik noch in der Wissenschaft im Allgemeinen neu, doch die Entwick- lung komplizierterer Analysemethoden fordert neue Methoden zur Angabe, Analyse und Integration von Unsicherheiten. Die vorliegende Arbeit präsentiert drei Beiträge zur Verbesserung der Unsicherheits- bewertung. Der erste Beitrag betrifft die Bestimmung der Wurzel von ungewurzelten phylogenetischen Bäumen. Phylogenetische Bäume sind entweder bezüglich der Zeit orientiert, in diesem Fall nennt man sie verwurzelt, oder sie haben keine Orientie- rung, in diesem Fall sind sie unverwurzelt. Die meisten Programme zur Bestimmung phylogenetischer Bäume erzeugen aus rechnerischen Gründen einen ungewurzelten phylogenetischen Baum. Ich habe das Open-Source-Softwaretool RootDigger entwi- ckelt, das sowohl einen ungewurzelten phylogenetischen Baum, als auch eine Vertei- lung der wahrscheinlichen Wurzeln berechnet. Darüber hinaus verfügt RootDigger über ein Parallelisierungsschema mit verteiltem Speicher, welches auch die Analyse großer Datensätze erlaubt, wie beispielsweise die Bestimmung eines phylogenetischen Baumes aus 8736 SARS-CoV-2-Virussequenzen. Mein zweiter Beitrag in der vorliegenden Arbeit ist das Open-Source-Softwaretool Phylourny zur Berechnung des wahrscheinlichsten Gewinners eines Knock-out-Turniers. Der Algorithmus in Phylourny ist angelehnt an den Felsenstein Pruning Algorith- mus, einen dynamischen Programmierungsalgorithmus zur Berechnung der Wahr- scheinlichkeit eines phylogenetischen Baums. Die Verwendung dieses Algorithmus erlaubt eine erhebliche Beschleunigung der Berechnung im Vergleich zu Standard- Turniersimulationen. Mit dieser beschleunigten Methode untersucht Phylourny auch den Parameterraum des Modells mit Hilfe einer MCMC-Methode, um Ergebnisse zu bewerten und zusammenzufassen, die eine ähnliche Wahrscheinlichkeit des Auftre- tens haben. Diese Ergebnisse weichen oft erheblich vom wahrscheinlichsten Ergebnis ab. In der vorliegenden Arbeit präsentiere ich die Performanz von Phylourny anhand zweier realer Fußball- und Basketballturniere. Der finale Beitrag in dieser Arbeit ist die Neugestaltung und Neuimplementierung eines bekannten Tools für historische Biogeografie, mit dem sich Rückschlüsse auf die Verteilung der angestammten Verbreitungsgebiete ziehen lassen. Ein Hauptin- teresse der Biogeographie besteht in der Bestimmung der Verbreitungsgebiete von Arten. Die historische Biogeografie befasst sich daher häufig mit der Ableitung des Verbreitungsgebiets der Vorfahren lebender Arten. Diese Verteilungen des Verbrei- tungsgebiets der Vorfahren sind ein häufiges Ergebnis von biogeografischen Studien, die oft mit einem Modell abgeleitet werden, das zahlreiche Ähnlichkeiten mit Mo- dellen der Sequenzevolution aufweist. Meine neue Version, Lagrange-NG, berechnet die Ergebnisse bis zu 50 Mal schneller als die vorherige Version und bis zu zwei Grö- ßenordnungen schneller als das beliebte analoge Tool BioGeoBEARS. Darüber hinaus habe ich eine neue Abstandsmetrik entwickelt, die es erlaubt Ergebnisse alternativer Tools und Algorithmen zu vergleichen

    Technologies and Applications for Big Data Value

    Get PDF
    This open access book explores cutting-edge solutions and best practices for big data and data-driven AI applications for the data-driven economy. It provides the reader with a basis for understanding how technical issues can be overcome to offer real-world solutions to major industrial areas. The book starts with an introductory chapter that provides an overview of the book by positioning the following chapters in terms of their contributions to technology frameworks which are key elements of the Big Data Value Public-Private Partnership and the upcoming Partnership on AI, Data and Robotics. The remainder of the book is then arranged in two parts. The first part “Technologies and Methods” contains horizontal contributions of technologies and methods that enable data value chains to be applied in any sector. The second part “Processes and Applications” details experience reports and lessons from using big data and data-driven approaches in processes and applications. Its chapters are co-authored with industry experts and cover domains including health, law, finance, retail, manufacturing, mobility, and smart cities. Contributions emanate from the Big Data Value Public-Private Partnership and the Big Data Value Association, which have acted as the European data community's nucleus to bring together businesses with leading researchers to harness the value of data to benefit society, business, science, and industry. The book is of interest to two primary audiences, first, undergraduate and postgraduate students and researchers in various fields, including big data, data science, data engineering, and machine learning and AI. Second, practitioners and industry experts engaged in data-driven systems, software design and deployment projects who are interested in employing these advanced methods to address real-world problems

    Understanding Quantum Technologies 2022

    Full text link
    Understanding Quantum Technologies 2022 is a creative-commons ebook that provides a unique 360 degrees overview of quantum technologies from science and technology to geopolitical and societal issues. It covers quantum physics history, quantum physics 101, gate-based quantum computing, quantum computing engineering (including quantum error corrections and quantum computing energetics), quantum computing hardware (all qubit types, including quantum annealing and quantum simulation paradigms, history, science, research, implementation and vendors), quantum enabling technologies (cryogenics, control electronics, photonics, components fabs, raw materials), quantum computing algorithms, software development tools and use cases, unconventional computing (potential alternatives to quantum and classical computing), quantum telecommunications and cryptography, quantum sensing, quantum technologies around the world, quantum technologies societal impact and even quantum fake sciences. The main audience are computer science engineers, developers and IT specialists as well as quantum scientists and students who want to acquire a global view of how quantum technologies work, and particularly quantum computing. This version is an extensive update to the 2021 edition published in October 2021.Comment: 1132 pages, 920 figures, Letter forma

    BIG DATA и анализ высокого уровня

    Get PDF
    В сборнике опубликованы результаты научных исследований и разработок в области BIG DATA and Advanced Analytics для оптимизации IT-решений и бизнес-решений, а также тематических исследований в области медицины, образования и экологии

    Evaluation of Distributed Programming Models and Extensions to Task-based Runtime Systems

    Get PDF
    High Performance Computing (HPC) has always been a key foundation for scientific simulation and discovery. And more recently, deep learning models\u27 training have further accelerated the demand of computational power and lower precision arithmetic. In this era following the end of Dennard\u27s Scaling and when Moore\u27s Law seemingly still holds true to a lesser extent, it is not a coincidence that HPC systems are equipped with multi-cores CPUs and a variety of hardware accelerators that are all massively parallel. Coupling this with interconnect networks\u27 speed improvements lagging behind those of computational power increases, the current state of HPC systems is heterogeneous and extremely complex. This was heralded as a great challenge to the software stacks and their ability to extract performance from these systems, but also as a great opportunity to innovate at the programming model level to explore the different approaches and propose new solutions. With usability, portability, and performance as the main factors to consider, this dissertation first evaluates some of the widely used parallel programming models (MPI, MPI+OpenMP, and task-based runtime systems) ability to manage the load imbalance among the processes computing the LU factorization of a large dense matrix stored in the Block Low-Rank (BLR) format. Next I proposed a number of optimizations and implemented them in PaRSEC\u27s Dynamic Task Discovery (DTD) model, including user-level graph trimming and direct Application Programming Interface (API) calls to perform data broadcast operation to further extend the limit of STF model. On the other hand, the Parameterized Task Graph (PTG) approach in PaRSEC is the most scalable approach for many different applications, which I then explored the possibility of combining both the algorithmic approach of Communication-Avoiding (CA) and the communication-computation overlapping benefits provided by runtime systems using 2D five-point stencil as the test case. This broad programming models evaluation and extension work highlighted the abilities of task-based runtime system in achieving scalable performance and portability on contemporary heterogeneous HPC systems. Finally, I summarized the profiling capability of PaRSEC runtime system, and demonstrated with a use case its important role in the performance bottleneck identification leading to optimizations

    Lightning Modeling and Its Effects on Electric Infrastructures

    Get PDF
    When it comes to dealing with high voltages or issues of high electric currents, infrastructure security and people’s safety are of paramount importance. These kinds of phenomena have dangerous consequences, therefore studies concerning the effects of lightning are crucial. The normal operation of transmission and distribution systems is greatly affected by lightning, which is one of the major causes of power interruptions: direct or nearby indirect strikes can cause flashovers in overhead transmission and distribution lines, resulting in over voltages on the line conductors. Contributions to this Special Issue have mainly focused on modelling lightning activity, investigating physical causes, and discussing and testing mathematical models for the electromagnetic fields associated with lighting phenomena. In this framework, two main topics have emerged: 1) the interaction between lightning phenomena and electrical infrastructures, such as wind turbines and overhead lines; and 2) the computation of lightning electromagnetic fields in the case of particular configuration, considering a negatively charged artificial thunderstorm or considering a complex terrain with arbitrary topograph

    Multiscale, Multiphysics Modelling of Coastal Ocean Processes: Paradigms and Approaches

    Get PDF
    This Special Issue includes papers on physical phenomena, such as wind-driven flows, coastal flooding, and turbidity currents, and modeling techniques, such as model comparison, model coupling, parallel computation, and domain decomposition. These papers illustrate the need for modeling coastal ocean flows with multiple physical processes at different scales. Additionally, these papers reflect the current status of such modeling of coastal ocean flows, and they present a roadmap with numerical methods, data collection, and artificial intelligence as future endeavors

    Supercomputing Frontiers

    Get PDF
    This open access book constitutes the refereed proceedings of the 7th Asian Conference Supercomputing Conference, SCFA 2022, which took place in Singapore in March 2022. The 8 full papers presented in this book were carefully reviewed and selected from 21 submissions. They cover a range of topics including file systems, memory hierarchy, HPC cloud platform, container image configuration workflow, large-scale applications, and scheduling

    Proyecto Docente e Investigador, Trabajo Original de Investigación y Presentación de la Defensa, preparado por Germán Moltó para concursar a la plaza de Catedrático de Universidad, concurso 082/22, plaza 6708, área de Ciencia de la Computación e Inteligencia Artificial

    Full text link
    Este documento contiene el proyecto docente e investigador del candidato Germán Moltó Martínez presentado como requisito para el concurso de acceso a plazas de Cuerpos Docentes Universitarios. Concretamente, el documento se centra en el concurso para la plaza 6708 de Catedrático de Universidad en el área de Ciencia de la Computación en el Departamento de Sistemas Informáticos y Computación de la Universitat Politécnica de València. La plaza está adscrita a la Escola Técnica Superior d'Enginyeria Informàtica y tiene como perfil las asignaturas "Infraestructuras de Cloud Público" y "Estructuras de Datos y Algoritmos".También se incluye el Historial Académico, Docente e Investigador, así como la presentación usada durante la defensa.Germán Moltó Martínez (2022). Proyecto Docente e Investigador, Trabajo Original de Investigación y Presentación de la Defensa, preparado por Germán Moltó para concursar a la plaza de Catedrático de Universidad, concurso 082/22, plaza 6708, área de Ciencia de la Computación e Inteligencia Artificial. http://hdl.handle.net/10251/18903

    Deployment and Operation of Complex Software in Heterogeneous Execution Environments

    Get PDF
    This open access book provides an overview of the work developed within the SODALITE project, which aims at facilitating the deployment and operation of distributed software on top of heterogeneous infrastructures, including cloud, HPC and edge resources. The experts participating in the project describe how SODALITE works and how it can be exploited by end users. While multiple languages and tools are available in the literature to support DevOps teams in the automation of deployment and operation steps, still these activities require specific know-how and skills that cannot be found in average teams. The SODALITE framework tackles this problem by offering modelling and smart editing features to allow those we call Application Ops Experts to work without knowing low level details about the adopted, potentially heterogeneous, infrastructures. The framework offers also mechanisms to verify the quality of the defined models, generate the corresponding executable infrastructural code, automatically wrap application components within proper execution containers, orchestrate all activities concerned with deployment and operation of all system components, and support on-the-fly self-adaptation and refactoring
    corecore