66 research outputs found

    Development of efficient De Bruijn graph-based algorithms for genome assembly

    Get PDF
    Programa Oficial de Doutoramento en Computación. 5009V01[Abstract] During the last two decades, thanks to the development of new sequencing techniques, the study of the genome has become very popular in order to discover the genetic variation present in both humans and other organisms. The predominant mode of genome analysis is through the assembly of reads in one or multiple chains for as long as possible. The most traditional way of assembly is the one that involves reads from a single genome. In this field, in the last decade, third-generation readings have emerged with new challenges for which there are no efficient solutions. The first contribution that has been made in this thesis is Compact-Flye, a tool for the efficient assembly of third-generation reads on the Flye algorithm. This tool is based on the ingenious use of compact data structures to improve typical assembly steps such as counting and indexing k-mers. Apart from the assembly of a genome, there are techniques that seek to assemble all the genomes contained in a given sample. This assembly is known as multiple sequence assembly or haplotype reconstruction, a subject also treated in this thesis. Our first approach to solving this has been viaDBG, which is the first solution based on de Bruijn graphs that offers results comparable to current techniques in viral genome assembly while maintaining the efficiency of these graphs. Our second contribution is ViQUF, which is a natural improvement on its predecessor. ViQUF completely changes the algorithm of viaDBG but continues to be based on the same structures, although with some variations that allow it not only to improve results in terms of time and quality, but also to provide additionalinformation such as an estimate of the relative presence of each species in the sample.[Resumen] Durante las últimas dos décadas, gracias al desarrollo de nuevas técnias secuenciación, el estudio del genoma ha ganado mucha popularidad de cara a conocer la variación genética presente tanto seres humanos como otros organismos. El modo predominante de análisis del genoma es a través del ensamblaje de lecturas en una o múltiples cadenas lo más largas posibles. La manera más tradicional de ensamblaje es el que implica lecturas provenientes de un solo genoma. En este campo, en la última década han surgido las lecturas de tercera generación con nuevos retos para los que no existen soluciones eficientes. La primera aportación que se ha realizado en esta tesis es Compact-Flye una herramienta para el ensamblaje eficiente de lecturas de tercera generación sobre el algoritmo Flye. Esta herramienta está basada en el uso igenioso de estructuras compactas de datos para mejorar etapas típicas del ensamblaje como el conteo e indexación de k-mers. Al margen del ensamblaje de un genoma existen técnicas que buscan ensamblar todos los genomas contenidos en una muestra determinada. Este ensamblaje es conocido como ensamblaje múltiple de secuencias o reconstrucción de haplotipos, tema también tratado en esta tesis. Nuestra primera aproximación para la resolución de este ha sido viaDBG, que es la primera solución basada en grafos de de Bruijn que ofrece resultados comparables a las técnicas vigentes en ensamblaje de genomas víricos, mientras que mantiene la eficiencia de estos grafos. Nuestra segunda aportación es ViQUF, que es una mejora natural de su predecesor. ViQUF cambia totalmente la algoritmia de viaDBG, pero sigue cimentándose en las mismas estructuras aunque con alguna variación que le permite no solo mejorar resultados en tiempo y calidad. Sino que además le permite aportar más información como estimaciones relativa de cada especie en la muestra.[Resumo] Durante as dúas últimas décadas, grazas ao desenvolvemento de novas técnicas de secuenciación, o estudo do xenoma fíxose moi popular para descubrir a variación xenética presente tanto nos humanos como noutros organismos. O modo predominante de análise do xenoma é a través da ensamblaxe de lecturas nunha ou varias cadeas o maior tempo posible. A forma máis tradicional de ensamblar é a que implica lecturas dun só xenoma. Neste campo, na última década xurdiron lecturas de terceira xeración con novos retos para os que non existen solucións eficientes. A primeira contribución que se fixo nesta tese é Compact-Flye, unha ferramenta para a montaxe eficiente de lecturas de terceira xeración sobre o algoritmo Flye. Esta ferramenta baséase no uso intelixente de estruturas de datos compactas para mellorar os pasos típicos de montaxe, como contar e indexar k-mers. Ademais da montaxe dun xenoma, existen técnicas que buscan ensamblar todos os xenomas contidos nunha determinada mostra. Este conxunto coñécese como conxunto de secuencias múltiples ou reconstrución de haplotipos, tema tamén tratado nesta tesis. O noso primeiro enfoque para resolver isto foi viaDBG, que é a primeira solución baseada en gráficos de Bruijn que ofrece resultados comparables ás técnicas actuais de ensamblaxe de xenoma viral, mantendo a eficiencia destes gráficos. A nosa segunda incorporación é ViQUF, que é unha mellora natural con respecto ao seu predecesor. ViQUF cambia completamente o algoritmo de viaDBG pero segue baseándose nas mesmas estruturas, aínda que con algunha variación que lle permite non só mellorar os resultados en tempo e calidade. Pero tamén permite achegar máis información como estimacións relativas de cada especie da mostra.Xunta de Galicia; ED431G 2019/01Xunta de Galicia; ED431C 2021/53Xunta de Galicia; IG240.2020.1.185Xunta de Galicia; IN852A 2018/14Quiero agradecer al Centro de Investigación de Galicia “CITIC”, financiado por la Xunta de Galicia y la Unión Europea (European Regional Development Fund- Galicia 2014-2020 Program), con la beca ED431G 2019/01. También agradecer a la Xunta de Galicia/FEDER-UE que ha financiado esta tesis a través de las becas [ED431C 2021/53; IG240.2020.1.185; IN852A 2018/14]; al Ministerio de Ciencia e Innovación con las becas [TIN2016- 78011-C4-1-R; FPU17/02742; PID2019-105221RB-C41; PID2020-114635RB-I00]; y a la academia de Finlandia [grants 308030 and 323233 (LS)]

    Inference of viral quasispecies with a paired de Bruijn graph

    Get PDF
    Motivation: RNA viruses exhibit a high mutation rate and thus they exist in infected cells as a population of closely related strains called viral quasispecies. The viral quasispecies assembly problem asks to characterize the quasispecies present in a sample from high-throughput sequencing data. We study the de novo version of the problem, where reference sequences of the quasispecies are not available. Current methods for assembling viral quasispecies are either based on overlap graphs or on de Bruijn graphs. Overlap graph-based methods tend to be accurate but slow, whereas de Bruijn graph-based methods are fast but less accurate. Results: We present viaDBG, which is a fast and accurate de Bruijn graph-based tool for de novo assembly of viral quasispecies. We first iteratively correct sequencing errors in the reads, which allows us to use large k-mers in the de Bruijn graph. To incorporate the paired-end information in the graph, we also adapt the paired de Bruijn graph for viral quasispecies assembly. These features enable the use of long-range information in contig construction without compromising the speed of de Bruijn graph-based approaches. Our experimental results show that viaDBG is both accurate and fast, whereas previous methods are either fast or accurate but not both. In particular, viaDBG has comparable or better accuracy than SAVAGE, while being at least nine times faster. Furthermore, the speed of viaDBG is comparable to PEHaplo but viaDBG is able to retrieve also low abundance quasispecies, which are often missed by PEHaplo.Peer reviewe

    Parallel feature selection for distributed-memory clusters

    Get PDF
    Versión final aceptada de: https://doi.org/10.1016/j.ins.2019.01.050This manuscript version is made available under the CC-BY-NC-ND 4.0 license https://creativecommons.org/ licenses/by-nc-nd/4.0/. This version of the article: González-Domínguez, J. et al. (2019) ‘Parallel feature selection for distributed-memory clusters’, has been accepted for publication in Information Sciences, 496, pp. 399–409. The Version of Record is available online at: https://doi.org/10.1016/j.ins.2019.01.050[Abstract]: Feature selection is nowadays an extremely important data mining stage in the field of machine learning due to the appearance of problems of high dimensionality. In the literature there are numerous feature selection methods, mRMR (minimum-Redundancy-Maximum-Relevance) being one of the most widely used. However, although it achieves good results in selecting relevant features, it is impractical for datasets with thousands of features. A possible solution to this limitation is the use of the fast-mRMR method, a greedy optimization of the mRMR algorithm that improves both scalability and efficiency. In this work we present fast-mRMR-MPI, a novel hybrid parallel implementation that uses MPI and OpenMP to accelerate feature selection on distributed-memory clusters. Our performance evaluation on two different systems using five representative input datasets shows that fast-mRMR-MPI is significantly faster than fast-mRMR while providing the same results. As an example, our tool needs less than one minute to select 200 features of a dataset with more than four million features and 16,000 samples on a cluster with 32 nodes (768 cores in total), while the sequential fast-mRMR required more than eight hours. Moreover, fast-mRMR-MPI distributes data so that it is able to exploit the memory available on different nodes of a cluster and then complete analyses that fail on a single node due to memory constraints. Our tool is publicly available at https://github.com/borjaf696/Fast-mRMR.This research has been partially funded by projects TIN2016-75845-P and TIN-2015-65069-C2-1-R of the Ministry of Economy, Industry and Competitiveness of Spain, as well as by Xunta de Galicia projects ED431D R2016/045 and GRC2014/035, all of them partially funded by FEDER funds of the European Union. We gratefully thank CESGA for providing access to the Finis Terrae II supercomputer.Xunta de Galicia; ED431D R2016/045Xunta de Galicia; GRC2014/03

    Factors of Susceptibility of Human Myiasis Caused by the New World Screw-Worm, Cochliomyia hominivorax in São Gonçalo, Rio de Janeiro, Brazil

    Get PDF
    This study was carried out between July 2007 and June 2008 and reports on the occurrence of human myiasis caused by the New World screwworm, Cochliomyia hominivorax (Coquerel) (Diptera: Calliphoridae) in São Gonçalo in the state of Rio de Janeiro, Brazil. Liquid or solid vaseline was used to suffocate the larvae, which were then preserved in 70% ethanol and sent to the Instituto Oswaldo Cruz for identification. C. hominivorax were identified in all 22 cases of myiasis. There were 12 male and 10 female patients with ages ranging from 03 to 71. Ethnically the highest incidence was among black people, with 17 cases. Open wounds were the main cause of the parasitosis, whereas poor personal hygiene, the low educational level, alcoholism, bedridden patients, and physical or mental disability were possibly secondary factors; in addition to all these factors the income of the patients was very low

    Diseño y construcción de un sistema de enfriamiento de agua para la torre de destilación de thinner

    Get PDF
    El objetivo de este proyecto fue diseñar y construir un sistema de enfriamiento para mejorar la eficiencia y el rendimiento de la torre de destilación de thinner del laboratorio de Operaciones Unitarias de la Escuela de Ingeniería Química de la ESPOCH. Se inició con el diagnóstico del estado de la torre de destilación de thinner para luego proceder con el diseño y construcción del sistema de enfriamiento de acuerdo a los requerimientos de la evaluación realizada por pruebas de laboratorio. Se planteó dos alternativas de diseño en base al tipo de refrigerante más eficiente durante el proceso de refrigeración y que sea amigable con el ambiente, se tomó en cuenta los refrigerantes 404a y 134a y por medio de un análisis de criterios se optó por la primera alternativa. El sistema de enfriamiento consta de un tanque evaporador construido con acero inoxidable 304, tuberías de cobre de 15 mm y láminas de aluminio para el condensador. Se utilizó un compresor y una bomba de Z¡ hp, también consta de un panel de control automático con sensor de temperaturas. Se obtuvo resultados muy aceptables, al reducir la temperatura en los condensadores se logró un aumento del rendimiento en el proceso, anteriormente sin el sistema implementado se consiguió 3 litros de thinner recuperado en un periodo de tiempo de 15 horas y con la implementación del sistema se alcanzó la meta de triplicar el thinner recuperado en el mismo tiempo. En conclusión los parámetros de diseño fueron óptimos para resolver la deficiencia que presentaba el equipo destilador de thinner

    Thin Layer Drying Kinetics of By-Products from Olive Oil Processing

    Get PDF
    The thin-layer behavior of by-products from olive oil production was determined in a solar dryer in passive and active operation modes for a temperature range of 20–50 °C. The increase in the air temperature reduced the drying time of olive pomace, sludge and olive mill wastewater. Moisture ratio was analyzed to obtain effective diffusivity values, varying in the oil mill by-products from 9.136 × 10−11 to 1.406 × 10−9 m2/s in forced convection (ma = 0.22 kg/s), and from 9.296 × 10−11 to 6.277 × 10−10 m2/s in natural convection (ma = 0.042 kg/s). Diffusivity values at each temperature were obtained using the Fick’s diffusion model and, regardless of the convection, they increased with the air temperature. The temperature dependence on the effective diffusivity was determined by an Arrhenius type relationship. The activation energies were found to be 38.64 kJ/mol, 30.44 kJ/mol and 47.64 kJ/mol for the olive pomace, the sludge and the olive mill wastewater in active mode, respectively, and 91.35 kJ/mol, 14.04 kJ/mol and 77.15 kJ/mol in natural mode, in that order

    Informe Programas de Seguimiento en España: Especies Marinas Amenazadas

    Get PDF
    DISPONIBLE PRÓXIMAMENTEEste informe tiene como objetivo identificar por primera vez el grado de implementación y la tipología de los programas de seguimiento presentes en las costas españolas. Para ello, se han analizado los programas de seguimiento puestos en marcha por las comunidades autónomas de España mediante una exhaustiva revisión bibliográfica y un proceso de consulta con los administradores de los servicios responsables de la gestión de la biodiversidad correspondientes. El análisis se realizó sobre una selección de 255 especies (78% del total). Este conjunto incluye diversos grupos taxonómicos y consideramos que su análisis ofrece una imagen representativa del grado de implementación y tipología de los programas de seguimiento en las costas españolas. Los resultados obtenidos muestran que, de esas 255 especies amenazadas de España, sólo 76 cuentan con algún tipo de seguimiento en alguna comunidad autónoma, lo que constituye solo un 29,8% del total de especies analizadas. Por otra parte, si consideramos los programas de seguimiento a nivel de cada comunidad autónoma donde están presentes las especies amenazadas, los resultados muestran que de los 1837 programas de seguimiento que deberían haber sido implementados en España, solamente se realizan 214, lo que representa sólo un 11,6%. Ante la evidente falta de programas de seguimiento, este informe analiza también el potencial de aportar información sobre la distribución y estado de las poblaciones de las especies amenazadas en dos de las principales plataformas de ciencia ciudadana marina en España: Observadores del Mar y RedPROMAR. Hasta la fecha del presente análisis, las plataformas Observadores del Mar y RedPROMAR han reportado información sobre 66 y 104 especies respectivamente, lo que representa un 40,7% y un 60,8% de las especies amenazadas potencialmente reportables por cada plataforma. En conclusión, el grado de implementación de los programas de seguimiento de especies amenazadas en España es deficiente. Durante la realización de este informe se ha puesto claramente de manifiesto la falta de un sistema de comunicación dedicado al reporte de la información, en concreto, sobre los programas de seguimiento de las especies incluidas en el marco de los diferentes Convenios nacionales e internacionales. Ante esta falta de información, es urgente dar un impulso decidido a la implementación de programas de seguimiento en las diferentes comunidades autónomas, reforzando aquellos existentes e iniciando aquellos que faltan. Igualmente, se recomienda desarrollar un sistema de reporte de información de los seguimientos (u optimizar los existentes). También se recomienda incluir las iniciativas de ciencia ciudadana marina como Observadores del Mar y RedPROMAR para contribuir de forma complementaria a los programas de seguimiento. La adopción de estas recomendaciones permitirá evaluar de forma más eficaz el estado de conservación de las especies amenazadas en España y poder adptar medidas más efectivas.Peer reviewe

    Effectiveness of a cognitive behavioral intervention in patients with medically unexplained symptoms: cluster randomized trial

    Get PDF
    BACKGROUND: Medically unexplained symptoms are an important mental health problem in primary care and generate a high cost in health services.Cognitive behavioral therapy and psychodynamic therapy have proven effective in these patients. However, there are few studies on the effectiveness of psychosocial interventions by primary health care. The project aims to determine whether a cognitive-behavioral group intervention in patients with medically unexplained symptoms, is more effective than routine clinical practice to improve the quality of life measured by the SF-12 questionary at 12 month. METHODS/DESIGN: This study involves a community based cluster randomized trial in primary healthcare centres in Madrid (Spain). The number of patients required is 242 (121 in each arm), all between 18 and 65 of age with medically unexplained symptoms that had seeked medical attention in primary care at least 10 times during the previous year. The main outcome variable is the quality of life measured by the SF-12 questionnaire on Mental Healthcare. Secondary outcome variables include number of consultations, number of drug (prescriptions) and number of days of sick leave together with other prognosis and descriptive variables. Main effectiveness will be analyzed by comparing the percentage of patients that improve at least 4 points on the SF-12 questionnaire between intervention and control groups at 12 months. All statistical tests will be performed with intention to treat. Logistic regression with random effects will be used to adjust for prognostic factors. Confounding factors or factors that might alter the effect recorded will be taken into account in this analysis. DISCUSSION: This study aims to provide more insight to address medically unexplained symptoms, highly prevalent in primary care, from a quantitative methodology. It involves intervention group conducted by previously trained nursing staff to diminish the progression to the chronicity of the symptoms, improve quality of life, and reduce frequency of medical consultations. TRIAL REGISTRATION: The trial was registered with ClinicalTrials.gov, number NCT01484223 [http://ClinicalTrials.gov].S
    corecore