159 research outputs found

    MR MAQ : algorisme de Read Mapping utilitzant la plataforma Hadoop

    Get PDF
    L'èxit del Projecte Genoma Humà (PGH) l'any 2000 va fer de la "medicina personalitzada" una realitat més propera. Els descobriments del PGH han simplificat les tècniques de seqüenciació de tal manera que actualment qualsevol persona pot aconseguir la seva seqüència d'ADN complerta. La tecnologia de Read Mapping destaca en aquest tipus de tècniques i es caracteritza per manegar una gran quantitat de dades. Hadoop, el framework d'Apache per aplicacions intensives de dades sota el paradigma Map Reduce, resulta un aliat perfecte per aquest tipus de tecnologia i ha sigut l'opció escollida per a realitzar aquest projecte. Durant tot el treball es realitza l'estudi, l'anàlisi i les experimentacions necessàries per aconseguir un Algorisme Genètic innovador que utilitzi tot el potencial de Hadoop.El éxito del Proyecto Genoma Humano (PGH) en el año 2.000 hizo de la "medicina personalizada" una relidad más cercana. Los descubrimientos del PGH han simplificado las técnicas de secuenciación de tal manera que actualmente cualquier persona puede conseguir su secuencia de ADN completa. La tecnología de Read Mapping destaca en este tipo de técnicas y se caracteriza por manejar una gran cantidad de datos. Hadoop, el Framework de Apache para aplicaciones intensivas de datos bajo el paradigma Map Reduce, resulta un aliado perfecto para este tipo de tecnología y ha sido la opción escogida para realizar este proyecto. A lo largo del trabajo se realiza el estudio, el análisis y las experimentaciones necesarias para conseguir un Algoritmo Genómico novedoso que utilice todo el potencial de Hadoop.In the 2000th the Human Genome Project (PGH) was accomplished successfully and it made "personalized medicine" a closer reality. The PGH has simplified the sequencing techniques in a high way so nowadays anyone can get his full ADN sequence. Read Mapping technology is one of most important sequencing techniques and it is characterized to work with lots of data. Hadoop is the Framework of Apache for data intensive applications under Map Reduce paradigm and it becomes a perfect tool for this kind of technology. For this reason it has been selected for this project. Along this entire project we will realize the study, the analysis and the experimentations to get a new Genetic Algorithm with all Hadoop potential

    Programació d'aplicacions bioinformàtiques

    Get PDF
    Avui en dia la biologia aporta grans quantitats de dades que només la informàtica pot tractar. Les aplicacions bioinformàtiques són la més important eina d'anàlisi i comparació que tenim per entendre la vida i aconseguir desxifrar aquestes dades. Aquest projecte centra el seu esforç en l'estudi de les aplicacions dedicades a l'alineament de seqüències genètiques, i més concretament a dos algoritmes, basats en programació dinàmica i òptims: el Needleman&Wunsch i el Smith&Waterman. Amb l'objectiu de millorar el rendiment d'aquests algoritmes per a alineaments de seqüències grans, proposem diferents versions d'implementació. Busquem millorar rendiments en temps i espai. Per a aconseguir millorar els resultats aprofitem el paral·lelisme. Els resultats dels anàlisis de les versions els comparem per obtenir les dades necessàries per valorar cost, guany i rendiment.Hoy en día la biología aporta grandes cantidades de datos que solo con la informática podemos tratar. Las aplicaciones bioinformáticas son la más importante herramienta de análisis y comparación para entender la vida y lograr descifrar estos datos. Este proyecto centra su esfuerzo en el estudio de las aplicaciones dedicadas al alineamiento de secuencias genéticas, y más concretamente a dos algoritmos, basados en programación dinámica y óptimos: el Needleman&Wunsch y el Smith&Waterman. Con el objetivo de mejorar el rendimiento de estos algoritmos para alineamientos de secuencias grandes, proponemos diferentes versiones de implementación. Buscamos mejorar rendimientos temporales y espaciales. Para lograr mejorar los resultados aprovechamos el paralelismo. Los resultados de los análisis de las versiones los comparamos a fin de obtener los datos necesarios para valorar coste, ganancias y rendimiento.Biology is nowadays able to extract great amounts of data from which we can obtain a lot of information. Bioinformatics applications are the most important analysis tool we have to decode this data and to understand life. This project puts its effort in studying applications dedicated to genetic sequence alignment. This is done by two algorithms based on dynamic programming: Needleman&Wunsch and Smith&Waterman. The goal is to improve these algorithm's performance on very long sequences of data and to propose different implementation options taking both time and space into account. Parallel computing will be the main tool we will be using and results will be compared to assess cost, gain and throughput

    Integración de Hadoop con planificadores batch

    Get PDF
    Cada vez es mayor el número de aplicaciones desarrolladas en el ámbito científico, como en la Bioinformática o en las Geociencias, escritas bajo el modelo MapReduce, empleando herramientas de código abierto como Apache Hadoop. De la necesidad de integrar Hadoop en entornos HPC, para posibilitar la ejecutar aplicaciones desarrolladas bajo el paradigma MapReduce, nace el presente proyecto. Se analizan dos frameworks diseñados para facilitar dicha integración a los desarrolladores: HoD y myHadoop. En este proyecto se analiza, tanto las posibilidades en cuanto a entornos que ofrecen dichos frameworks para la ejecución de aplicaciones MapReduce, como el rendimiento de los clúster Hadoop generados con HoD o myHadoop respecto a un clúster Hadoop físico.Cada cop és més gran el número d'aplicacions desenvolupades a l'àmbit científic, com la Bioinformàtica o les Geociències, escrites sota el model MapReduce, fent servir eines de codi obert com Apache Hadoop. De la necessitat d'integrar Hadoop en entorns HPC, per permetre l'execució d'aplicacions desenvolupades sota el paradigma MapReduce, neix el present projecte. S'analitzen dos frameworks dissenyats per facilitar aquesta integració als desenvolupadors: HoD y myHadoop. En aquest projecte s'analitza, tant les possibilitats en quan a entorns que ofereixen aquests frameworks per l'execució d'aplicacions MapReduce, com el rendiment dels clústers Hadoop generats amb HoD o myHadoop comparat amb el rendiment d'un clúster Hadoop físic.A growing number of codes in scientific domain such a Bioinformatics and Geosciences are being written using open source MapReduce tools such as Apache Hadoop. Of the need to integrate Hadoop in HPC environments, to make possible to execute applications developed under the MapReduce paradigm, born this project. Two frameworks, designed to facilitate the above mentioned integration to the developers, are analyzed: HoD and myHadoop. In this project, we analyze the possible environments that can be generated with these frameworks, for the execution of MapReduce applications, and the performance of the Hadoop clusters generated with HoD or myHadoop in comparison with a physical Hadoop cluster

    Coscheduling techniques and monitoring tools for non-dedicated cluster computing

    Get PDF
    Our efforts are directed towards the understanding of the coscheduling mechanism in a NOW system when a parallel job is executed jointly with local workloads, balancing parallel perfor-mance against the local interactive response. Explicit and implicit coscheduling techniques in a PVM-Linux NOW (or cluster) have been implemented. Furthermore, dynamic coscheduling remains an open question when parallel jobs are executed in a non-dedicated Cluster. A basis model for dynamic coscheduling in Cluster systems is presented in this paper. Also, one dynamic coscheduling algorithm for this model is proposed. The applicability of this algorithm has been proved and its performance ana-lyzed by simulation. Finally, a new tool (named Monito) for monitoring the different queues of messages in such an environments is presented. The main aim of implementing this facility is to provide a mean of capturing the bottlenecks and overheads of the communication system in a PVM-Linux cluster.Facultad de Informátic

    Applying backfilling over a non-dedicated cluster

    Get PDF
    The resource utilization level in open laboratories of several universities has been shown to be very low. Our aim is to take advantage of those idle resources for parallel computation without disturbing the local load. In order to provide a system that lets us execute parallel applications in such a non-dedicated cluster, we use an integral scheduling system that considers both Space and Time sharing concerns. For dealing with the Time Sharing (TS) aspect, we use a technique based on the communication-driven coscheduling principle. This kind of TS system has some implications on the Space Sharing (SS) system, that force us to modify the way job scheduling is traditionally done. In this paper, we analyze the relation between the TS and the SS systems in a non-dedicated cluster. As a consequence of this analysis, we propose a new technique, termed 3DBackfilling. This proposal implements the well known SS technique of backfilling, but applied to an environment with a MultiProgramming Level (MPL) of the parallel applications that is greater than one. Besides, 3DBackfilling considers the requirements of the local workload running on each node. Our proposal was evaluated in a PVM/MPI Linux cluster, and it was compared with several more traditional SS policies applied to non-dedicated environmentsVI Workshop de Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI

    Integració d'una wiki al Campus Virtual de la Universitat Autònoma de Barcelona

    Get PDF
    Aquest projecte presenta una sol·lució per tal d'incorporar una eina wiki al Campus Virtual de la Universitat Autònoma de Barcelona. Enfront de la metodologia docent clàssica, la wiki oferirà funcionalitats orientades al treball col·laboratiu i fomentarà la participació de l'alumne. L'objectiu final és tenir una eina completament integrada al Campus Virtual, que aprofiti l'aplicatiu existent i s'interrelacioni amb la resta de mòduls presents.Este proyecto ofrece una solución para la integración de una herramienta wiki en el Campus Virtual de la Universidad Autónoma de Barcelona. Frente a la metodología docente clásica, la wiki ofrecerá funcionalidades orientadas al trabajo colaborativo y fomentará la participación del alumno. El objetivo final es conseguir una herramienta completamente integrada en el Campus Virtual, que aproveche la aplicación existente y se interrelacione con el resta de módulos presentes.This project provides a solution in order to add a wiki tool to the Autonomous University of Barcelona Virtual Campus. As opposed to the traditional teaching methodology, the wiki tool will include collaborative work oriented functionalities and will promote student participation. The final goal is to have a tool which is completely integrated in the Virtual Campus and which uses the existing application and interacts with the rest of the existing modules

    Manejo de históricos en clusters

    Get PDF
    CISNE es un sistema de cómputo en paralelo del Departamento de Arquitectura de Computadores y Sistemas Operativos (DACSO). Para poder implementar políticas de ordenacción de colas y selección de trabajos, este sistema necesita predecir el tiempo de ejecución de las aplicaciones. Con este trabajo se pretende proveer al sistema CISNE de un método para predecir el tiempo de ejecución basado en un histórico donde se almacenarán todos los datos sobre las ejecuciones.CISNE és un sistema de còmput en paral·lel del Departament d'Arquitectura de Computadors i Sistemes Operatius (DACSO). Per poder implementar polítiques d'ordenació de cues i selecció de treballs, aquest sistema necessita predir el temps d'execució de les aplicacions. Amb aquest treball es pretén proveir el sistema CISNE amb un mètode per predir el temps d'execució basat en un històric on s'emmgatzemaran totes les dades sobre les execucions.CISNE is a parallel computing system of the Department of Architecture of Computers and Operating Systems (DACSO). For being able to implement politics of queues ordering and job selection, this system needs to predict the execution time of the applications. With this work, it is intended to supply to the system CISNE of a method to predict the execution time based on one historical where all the data about executions will be stored

    Entorno de desarrollo para clusters

    Get PDF
    El presente trabajo expone los entornos de desarrollo de aplicaciones paralelas en sistemas distribuidos. Se ha dedicado especial atención a los entornos gráficos, como plataforma de acceso al cluster. Dada la cantidad de alternativas a seleccionar en este tipo de entornos, como puede ser la parametrización de las aplicaciones, especificación de la arquitectura a utilizar de los nodos, caracterización de la carga, políticas de planificación, etc, hace que este trabajo pueda servir de punto inicial de partida a usuarios que deseen iniciarse en este tipo de entornos.El present treball exposa els entorns de desenvolupament d'aplicacions paral·leles en entorns distribuïts. Hem dedicat especial atenció als entorns gràfics, com la plataforma d'accés al clúster. Atesa la quantitat d'alternatives seleccionables en aquest tipus d'entorns, com pot ser la parametrització de les aplicacions, especificació de l'arquitectura a utilitzar dels nodes, caracterització de la càrrega, polítiques de planificació, etc, fa que aquest treball pugui servir de punt de partida inicial per a usuaris que desitgin iniciar-se en aquest tipus d'entorns.This project explain the development environments parallel applications in distributed systems. We have devoted special attention to graphical environments as a platform for access to cluster. Given the number of alternatives to choose in such environments such as parameterization of applications, specifying the use of architecture of nodes, characterization of loading, planning policies, etc., We think that this project may serve as a point starting for initial users wishing to take up this kind of environments

    Navegación, guiado y control de vehículos aeroespaciales

    Get PDF
    El objetivo del proyecto es diseñar una plataforma de ensayos para la simulación de vuelos de vehículos aeroespaciales. La plataforma permitirá diseñar y evaluar los algoritmos de navegación, guiado y control de los vehículos aeroespaciales modelados en la plataforma de simulación, focalizando el trabajo de los ingenieros en el modelado de vehículos y en el desarrollo de sistemas de control digital. La memoria recoge las fases de un proyecto de ingeniería del software, describiendo el plan de proyecto, el análisis del sistema, la especificación de requisitos y el diseño del mismo.L'objectiu del projecte és dissenyar una plataforma d'assaigs per a la simulació de vols de vehicles aeroespacials. La plataforma permetrà dissenyar i avaluar els algoritmes de navegació, guiat i control dels vehicles aeroespacials modelats a la plataforma de simulació, focalitzant el treball dels enginyers en el modelat de vehicles i en el desenvolupament de sistemes de control digital. La memòria recull les fases d'un projecte d'enginyeria del software, descrivint el pla de projecte, l'anàlisi del sistema, l'especificació de requisits i el disseny del mateix.The target of the project is to design a trial platform to simulate spacecraft's flights. The platform will permit design and evaluate the navigation, guidance and control algorithms of every modelled space-craft in the simulation platform, focusing the engineers' work on mod-elling spacecrafts and developing digital control systems. The memory includes the phases of a software engineering project, describing the project plan, the system analysis, the requirement specification and the software design

    Planificación de aplicaciones best-effort y soft real-time en NOWs

    Get PDF
    La aparición de nuevos tipos de aplicaciones, como vídeo bajo demanda, realidad virtual y videoconferencias entre otras, caracterizadas por la necesidad de cumplir sus deadlines. Este tipo de aplicaciones, han sido denominadas en la literatura aplicaciones soft-real time (SRT) periódicas. Este trabajo se centra en el problema de la planificación temporal de este nuevo tipo de aplicaciones en clusters no dedicados.L'aparició de nous tipus d'aplicacions, com vídeo sota demanda, realitat virtual i videoconferències entre unes altres, caracteritzades per la necessitat de complir les seves deadlines. Aquest tipus d'aplicacions, han estat denominades en la literatura aplicacions soft-real time (SRT) periòdiques. Aquest treball es centra en el problema de la planificació temporal d'aquest nou tipus d'aplicacions en clusters no dedicats
    • …
    corecore