138 research outputs found
Uncommon Problems in Phylogenetic Inference
Die Phylogenetik ist die Lehre der Entwicklung des Lebens auf der Erde. Das Auf-
decken alter evolutionärer Beziehungen zwischen lebenden Arten ist von großem
Wert, da sie zu wichtigen Entdeckungen in der Biologie führte, wie beispielsweise
zur Entwicklung neuer Medikamente, zur Nachverfolgung der Dynamik einer globa-
len Pandemie sowie zu Erkenntnissen über den Ursprung der Menschheit. Heutzu-
tage werden phylogenetische Analysen typischerweise mit Hilfe statistischer Modelle
durchgeführt, wobei Sequenzdaten, in der Regel molekulare Sequenzen, als Einga-
bedaten verwendet werden. Basierend auf diesen statistischen Modellen wird die
wahrscheinlichste Erklärung für die Eingabedaten berechnet. Das heißt, der (ver-
meintlich) korrekte phylogenetische Baum ist der Baum, der gemäß eines bestimm-
ten Modells der Sequenzentwicklung am wahrscheinlichsten ist.
Die rasche Zunahme verfügbarer Daten in den letzten Jahren ermöglicht wesentlich
kompliziertere phylogenetische Analysen. Paradoxerweise hat diese massive Zunah-
me der für die Analyse verfügbaren Daten nicht in allen Fällen zu einer endgültigen
Schlussfolgerung geführt, d. h. das verwendete Modell ist unsicher bezüglich der
wahrscheinlichsten Schlussfolgerung. Dies kann auf eine Vielzahl von Faktoren zu-
rückzuführen sein, wie beispielsweise hochkomplexe Modelle, Rauschen in einigen
oder allen Daten sowie physikalische Prozesse, die durch das Modell nicht angemes-
sen berücksichtigt werden. Schwierigkeiten aufgrund von Ungewissheit sind weder in
der Phylogenetik noch in der Wissenschaft im Allgemeinen neu, doch die Entwick-
lung komplizierterer Analysemethoden fordert neue Methoden zur Angabe, Analyse
und Integration von Unsicherheiten.
Die vorliegende Arbeit präsentiert drei Beiträge zur Verbesserung der Unsicherheits-
bewertung. Der erste Beitrag betrifft die Bestimmung der Wurzel von ungewurzelten
phylogenetischen Bäumen. Phylogenetische Bäume sind entweder bezüglich der Zeit
orientiert, in diesem Fall nennt man sie verwurzelt, oder sie haben keine Orientie-
rung, in diesem Fall sind sie unverwurzelt. Die meisten Programme zur Bestimmung
phylogenetischer Bäume erzeugen aus rechnerischen Gründen einen ungewurzelten
phylogenetischen Baum. Ich habe das Open-Source-Softwaretool RootDigger entwi-
ckelt, das sowohl einen ungewurzelten phylogenetischen Baum, als auch eine Vertei-
lung der wahrscheinlichen Wurzeln berechnet. Darüber hinaus verfügt RootDigger
über ein Parallelisierungsschema mit verteiltem Speicher, welches auch die Analyse
großer Datensätze erlaubt, wie beispielsweise die Bestimmung eines phylogenetischen
Baumes aus 8736 SARS-CoV-2-Virussequenzen.
Mein zweiter Beitrag in der vorliegenden Arbeit ist das Open-Source-Softwaretool
Phylourny zur Berechnung des wahrscheinlichsten Gewinners eines Knock-out-Turniers.
Der Algorithmus in Phylourny ist angelehnt an den Felsenstein Pruning Algorith-
mus, einen dynamischen Programmierungsalgorithmus zur Berechnung der Wahr-
scheinlichkeit eines phylogenetischen Baums. Die Verwendung dieses Algorithmus
erlaubt eine erhebliche Beschleunigung der Berechnung im Vergleich zu Standard-
Turniersimulationen. Mit dieser beschleunigten Methode untersucht Phylourny auch
den Parameterraum des Modells mit Hilfe einer MCMC-Methode, um Ergebnisse zu
bewerten und zusammenzufassen, die eine ähnliche Wahrscheinlichkeit des Auftre-
tens haben. Diese Ergebnisse weichen oft erheblich vom wahrscheinlichsten Ergebnis
ab. In der vorliegenden Arbeit präsentiere ich die Performanz von Phylourny anhand
zweier realer Fußball- und Basketballturniere.
Der finale Beitrag in dieser Arbeit ist die Neugestaltung und Neuimplementierung
eines bekannten Tools für historische Biogeografie, mit dem sich Rückschlüsse auf
die Verteilung der angestammten Verbreitungsgebiete ziehen lassen. Ein Hauptin-
teresse der Biogeographie besteht in der Bestimmung der Verbreitungsgebiete von
Arten. Die historische Biogeografie befasst sich daher häufig mit der Ableitung des
Verbreitungsgebiets der Vorfahren lebender Arten. Diese Verteilungen des Verbrei-
tungsgebiets der Vorfahren sind ein häufiges Ergebnis von biogeografischen Studien,
die oft mit einem Modell abgeleitet werden, das zahlreiche Ähnlichkeiten mit Mo-
dellen der Sequenzevolution aufweist. Meine neue Version, Lagrange-NG, berechnet
die Ergebnisse bis zu 50 Mal schneller als die vorherige Version und bis zu zwei Grö-
ßenordnungen schneller als das beliebte analoge Tool BioGeoBEARS. Darüber hinaus
habe ich eine neue Abstandsmetrik entwickelt, die es erlaubt Ergebnisse alternativer
Tools und Algorithmen zu vergleichen
Technologies and Applications for Big Data Value
This open access book explores cutting-edge solutions and best practices for big data and data-driven AI applications for the data-driven economy. It provides the reader with a basis for understanding how technical issues can be overcome to offer real-world solutions to major industrial areas. The book starts with an introductory chapter that provides an overview of the book by positioning the following chapters in terms of their contributions to technology frameworks which are key elements of the Big Data Value Public-Private Partnership and the upcoming Partnership on AI, Data and Robotics. The remainder of the book is then arranged in two parts. The first part “Technologies and Methods” contains horizontal contributions of technologies and methods that enable data value chains to be applied in any sector. The second part “Processes and Applications” details experience reports and lessons from using big data and data-driven approaches in processes and applications. Its chapters are co-authored with industry experts and cover domains including health, law, finance, retail, manufacturing, mobility, and smart cities. Contributions emanate from the Big Data Value Public-Private Partnership and the Big Data Value Association, which have acted as the European data community's nucleus to bring together businesses with leading researchers to harness the value of data to benefit society, business, science, and industry. The book is of interest to two primary audiences, first, undergraduate and postgraduate students and researchers in various fields, including big data, data science, data engineering, and machine learning and AI. Second, practitioners and industry experts engaged in data-driven systems, software design and deployment projects who are interested in employing these advanced methods to address real-world problems
Understanding Quantum Technologies 2022
Understanding Quantum Technologies 2022 is a creative-commons ebook that
provides a unique 360 degrees overview of quantum technologies from science and
technology to geopolitical and societal issues. It covers quantum physics
history, quantum physics 101, gate-based quantum computing, quantum computing
engineering (including quantum error corrections and quantum computing
energetics), quantum computing hardware (all qubit types, including quantum
annealing and quantum simulation paradigms, history, science, research,
implementation and vendors), quantum enabling technologies (cryogenics, control
electronics, photonics, components fabs, raw materials), quantum computing
algorithms, software development tools and use cases, unconventional computing
(potential alternatives to quantum and classical computing), quantum
telecommunications and cryptography, quantum sensing, quantum technologies
around the world, quantum technologies societal impact and even quantum fake
sciences. The main audience are computer science engineers, developers and IT
specialists as well as quantum scientists and students who want to acquire a
global view of how quantum technologies work, and particularly quantum
computing. This version is an extensive update to the 2021 edition published in
October 2021.Comment: 1132 pages, 920 figures, Letter forma
BIG DATA и анализ высокого уровня
В сборнике опубликованы результаты научных исследований и разработок в области BIG DATA and Advanced Analytics для оптимизации IT-решений и бизнес-решений, а также тематических исследований в области медицины, образования и экологии
Evaluation of Distributed Programming Models and Extensions to Task-based Runtime Systems
High Performance Computing (HPC) has always been a key foundation for scientific simulation and discovery. And more recently, deep learning models\u27 training have further accelerated the demand of computational power and lower precision arithmetic. In this era following the end of Dennard\u27s Scaling and when Moore\u27s Law seemingly still holds true to a lesser extent, it is not a coincidence that HPC systems are equipped with multi-cores CPUs and a variety of hardware accelerators that are all massively parallel. Coupling this with interconnect networks\u27 speed improvements lagging behind those of computational power increases, the current state of HPC systems is heterogeneous and extremely complex.
This was heralded as a great challenge to the software stacks and their ability to extract performance from these systems, but also as a great opportunity to innovate at the programming model level to explore the different approaches and propose new solutions. With usability, portability, and performance as the main factors to consider, this dissertation first evaluates some of the widely used parallel programming models (MPI, MPI+OpenMP, and task-based runtime systems) ability to manage the load imbalance among the processes computing the LU factorization of a large dense matrix stored in the Block Low-Rank (BLR) format.
Next I proposed a number of optimizations and implemented them in PaRSEC\u27s Dynamic Task Discovery (DTD) model, including user-level graph trimming and direct Application Programming Interface (API) calls to perform data broadcast operation to further extend the limit of STF model. On the other hand, the Parameterized Task Graph (PTG) approach in PaRSEC is the most scalable approach for many different applications, which I then explored the possibility of combining both the algorithmic approach of Communication-Avoiding (CA) and the communication-computation overlapping benefits provided by runtime systems using 2D five-point stencil as the test case. This broad programming models evaluation and extension work highlighted the abilities of task-based runtime system in achieving scalable performance and portability on contemporary heterogeneous HPC systems. Finally, I summarized the profiling capability of PaRSEC runtime system, and demonstrated with a use case its important role in the performance bottleneck identification leading to optimizations
Lightning Modeling and Its Effects on Electric Infrastructures
When it comes to dealing with high voltages or issues of high electric currents, infrastructure security and people’s safety are of paramount importance. These kinds of phenomena have dangerous consequences, therefore studies concerning the effects of lightning are crucial. The normal operation of transmission and distribution systems is greatly affected by lightning, which is one of the major causes of power interruptions: direct or nearby indirect strikes can cause flashovers in overhead transmission and distribution lines, resulting in over voltages on the line conductors. Contributions to this Special Issue have mainly focused on modelling lightning activity, investigating physical causes, and discussing and testing mathematical models for the electromagnetic fields associated with lighting phenomena. In this framework, two main topics have emerged: 1) the interaction between lightning phenomena and electrical infrastructures, such as wind turbines and overhead lines; and 2) the computation of lightning electromagnetic fields in the case of particular configuration, considering a negatively charged artificial thunderstorm or considering a complex terrain with arbitrary topograph
Multiscale, Multiphysics Modelling of Coastal Ocean Processes: Paradigms and Approaches
This Special Issue includes papers on physical phenomena, such as wind-driven flows, coastal flooding, and turbidity currents, and modeling techniques, such as model comparison, model coupling, parallel computation, and domain decomposition. These papers illustrate the need for modeling coastal ocean flows with multiple physical processes at different scales. Additionally, these papers reflect the current status of such modeling of coastal ocean flows, and they present a roadmap with numerical methods, data collection, and artificial intelligence as future endeavors
Supercomputing Frontiers
This open access book constitutes the refereed proceedings of the 7th Asian Conference Supercomputing Conference, SCFA 2022, which took place in Singapore in March 2022. The 8 full papers presented in this book were carefully reviewed and selected from 21 submissions. They cover a range of topics including file systems, memory hierarchy, HPC cloud platform, container image configuration workflow, large-scale applications, and scheduling
Proyecto Docente e Investigador, Trabajo Original de Investigación y Presentación de la Defensa, preparado por Germán Moltó para concursar a la plaza de Catedrático de Universidad, concurso 082/22, plaza 6708, área de Ciencia de la Computación e Inteligencia Artificial
Este documento contiene el proyecto docente e investigador del candidato Germán Moltó Martínez presentado como requisito para el concurso de acceso a plazas de Cuerpos Docentes Universitarios. Concretamente, el documento se centra en el concurso para la plaza 6708 de Catedrático de Universidad en el área de Ciencia de la Computación en el Departamento de Sistemas Informáticos y Computación de la Universitat Politécnica de València. La plaza está adscrita a la Escola Técnica Superior d'Enginyeria Informàtica y tiene como perfil las asignaturas "Infraestructuras de Cloud Público" y "Estructuras de Datos y Algoritmos".También se incluye el Historial Académico, Docente e Investigador, así como la presentación usada durante la defensa.Germán Moltó Martínez (2022). Proyecto Docente e Investigador, Trabajo Original de Investigación y Presentación de la Defensa, preparado por Germán Moltó para concursar a la plaza de Catedrático de Universidad, concurso 082/22, plaza 6708, área de Ciencia de la Computación e Inteligencia Artificial. http://hdl.handle.net/10251/18903
Deployment and Operation of Complex Software in Heterogeneous Execution Environments
This open access book provides an overview of the work developed within the SODALITE project, which aims at facilitating the deployment and operation of distributed software on top of heterogeneous infrastructures, including cloud, HPC and edge resources. The experts participating in the project describe how SODALITE works and how it can be exploited by end users. While multiple languages and tools are available in the literature to support DevOps teams in the automation of deployment and operation steps, still these activities require specific know-how and skills that cannot be found in average teams. The SODALITE framework tackles this problem by offering modelling and smart editing features to allow those we call Application Ops Experts to work without knowing low level details about the adopted, potentially heterogeneous, infrastructures. The framework offers also mechanisms to verify the quality of the defined models, generate the corresponding executable infrastructural code, automatically wrap application components within proper execution containers, orchestrate all activities concerned with deployment and operation of all system components, and support on-the-fly self-adaptation and refactoring
- …