33 research outputs found

    Computing galled networks from real data

    Get PDF
    Motivation: Developing methods for computing phylogenetic networks from biological data is an important problem posed by molecular evolution and much work is currently being undertaken in this area. Although promising approaches exist, there are no tools available that biologists could easily and routinely use to compute rooted phylogenetic networks on real datasets containing tens or hundreds of taxa. Biologists are interested in clades, i.e. groups of monophyletic taxa, and these are usually represented by clusters in a rooted phylogenetic tree. The problem of computing an optimal rooted phylogenetic network from a set of clusters, is hard, in general. Indeed, even the problem of just determining whether a given network contains a given cluster is hard. Hence, some researchers have focused on topologically restricted classes of networks, such as galled trees and level-k networks, that are more tractable, but have the practical draw-back that a given set of clusters will usually not possess such a representation

    Multilayer Network of Language: a Unified Framework for Structural Analysis of Linguistic Subsystems

    Get PDF
    Recently, the focus of complex networks research has shifted from the analysis of isolated properties of a system toward a more realistic modeling of multiple phenomena - multilayer networks. Motivated by the prosperity of multilayer approach in social, transport or trade systems, we propose the introduction of multilayer networks for language. The multilayer network of language is a unified framework for modeling linguistic subsystems and their structural properties enabling the exploration of their mutual interactions. Various aspects of natural language systems can be represented as complex networks, whose vertices depict linguistic units, while links model their relations. The multilayer network of language is defined by three aspects: the network construction principle, the linguistic subsystem and the language of interest. More precisely, we construct a word-level (syntax, co-occurrence and its shuffled counterpart) and a subword level (syllables and graphemes) network layers, from five variations of original text (in the modeled language). The obtained results suggest that there are substantial differences between the networks structures of different language subsystems, which are hidden during the exploration of an isolated layer. The word-level layers share structural properties regardless of the language (e.g. Croatian or English), while the syllabic subword level expresses more language dependent structural properties. The preserved weighted overlap quantifies the similarity of word-level layers in weighted and directed networks. Moreover, the analysis of motifs reveals a close topological structure of the syntactic and syllabic layers for both languages. The findings corroborate that the multilayer network framework is a powerful, consistent and systematic approach to model several linguistic subsystems simultaneously and hence to provide a more unified view on language

    A variant of the tandem duplication - random loss model of genome rearrangement

    Get PDF
    In Soda'06, Chaudhuri, Chen, Mihaescu and Rao study algorithmic properties of the tandem duplication - random loss model of genome rearrangement, well-known in evolutionary biology. In their model, the cost of one step of duplication-loss of width k is αk\alpha^k for α=1\alpha =1 or α>=2\alpha >=2 . In this paper, we study a variant of this model, where the cost of one step of width kk is 1 if kKk K, for any value of the parameter KinNK in N. We first show that permutations obtained after pp steps of width KK define classes of pattern-avoiding permutations. We also compute the numbers of duplication-loss steps of width KK necessary and sufficient to obtain any permutation of SnS_n, in the worst case and on average. In this second part, we may also consider the case K=K(n)K=K(n), a function of the size nn of the permutation on which the duplication-loss operations are performed

    Laskennallisia menetelmiä haplotyypien ennustamiseen ja paikallisten rinnastusten merkittävyyden arviointiin

    Get PDF
    This thesis which consists of an introduction and four peer-reviewed original publications studies the problems of haplotype inference (haplotyping) and local alignment significance. The problems studied here belong to the broad area of bioinformatics and computational biology. The presented solutions are computationally fast and accurate, which makes them practical in high-throughput sequence data analysis. Haplotype inference is a computational problem where the goal is to estimate haplotypes from a sample of genotypes as accurately as possible. This problem is important as the direct measurement of haplotypes is difficult, whereas the genotypes are easier to quantify. Haplotypes are the key-players when studying for example the genetic causes of diseases. In this thesis, three methods are presented for the haplotype inference problem referred to as HaploParser, HIT, and BACH. HaploParser is based on a combinatorial mosaic model and hierarchical parsing that together mimic recombinations and point-mutations in a biologically plausible way. In this mosaic model, the current population is assumed to be evolved from a small founder population. Thus, the haplotypes of the current population are recombinations of the (implicit) founder haplotypes with some point--mutations. HIT (Haplotype Inference Technique) uses a hidden Markov model for haplotypes and efficient algorithms are presented to learn this model from genotype data. The model structure of HIT is analogous to the mosaic model of HaploParser with founder haplotypes. Therefore, it can be seen as a probabilistic model of recombinations and point-mutations. BACH (Bayesian Context-based Haplotyping) utilizes a context tree weighting algorithm to efficiently sum over all variable-length Markov chains to evaluate the posterior probability of a haplotype configuration. Algorithms are presented that find haplotype configurations with high posterior probability. BACH is the most accurate method presented in this thesis and has comparable performance to the best available software for haplotype inference. Local alignment significance is a computational problem where one is interested in whether the local similarities in two sequences are due to the fact that the sequences are related or just by chance. Similarity of sequences is measured by their best local alignment score and from that, a p-value is computed. This p-value is the probability of picking two sequences from the null model that have as good or better best local alignment score. Local alignment significance is used routinely for example in homology searches. In this thesis, a general framework is sketched that allows one to compute a tight upper bound for the p-value of a local pairwise alignment score. Unlike the previous methods, the presented framework is not affeced by so-called edge-effects and can handle gaps (deletions and insertions) without troublesome sampling and curve fitting.Tässä väitöskirjassa esitetään uusia, tarkkoja ja tehokkaita laskennallisia menetelmiä populaation haplotyyppien ennustamiseen genotyypeistä sekä sekvenssien paikallisten rinnastusten merkittävyyden arviointiin. Käytetyt menetelmät perustuvat mm. dynaamiseen ohjelmointiin, jossa pienimmät osaongelmat ratkaistaan ensin ja näistä pienistä ratkaisuosista kootaan suurempien osaongelmien ratkaisuja. Organismin genomi on yleensä koodattu solun sisään DNA:han, yksinkertaistaen jonoon (sekvenssiin) emäksiä A, C, G ja T. Genomi on jäsentynyt kromosomeihin, jotka sisältävät tietyissä paikoissa esiintyviä muutoksia, merkkijaksoja. Diploidin organismin, kuten ihmisen, kromosomit (autosomit) esiintyvät pareittain. Yksilö perii parin toisen kromosomin isältään ja toisen äidiltään. Haplotyyppi on yksilön tietyissä paikoissa esiintyvien merkkijaksojen jono tietyssä kromosomiparin kromosomissa. Haplotyyppien mittaaminen suoraan on vaikeaa, mutta genotyypit ovat helpommin mitattavia. Genotyypit kertovat, mitkä kaksi merkkijaksoa kromosomin vastaavissa kohdissa esiintyy. Haplotyyppiaineistoja käytetään yleisesti esimerkiksi genettisten tautien tutkimiseen. Tämän vuoksi haplotyyppien laskennallinen ennustaminen genotyypeistä on tärkeä tutkimusongelma. Syötteenä ongelmassa on siis näyte tietyn populaation genotyypeistä, joista tulisi ennustaa haplotyypit jokaiselle näytteen yksilölle. Haplotyyppien ennustaminen genotyypeistä on mahdollista, koska haplotyypit ovat samankaltaisia yksilöiden välillä. Samankaltaisuus johtuu evoluution prosesseista, kuten periytymisestä, luonnonvalinnasta, migraatiosta ja isolaatiosta. Tässä väitöskirjassa esitetään kolme menetelmää haplotyypien määritykseen. Näistä tarkin menetelmä, nimeltään BACH, käyttää vaihtuva-asteista Markov-mallia ja bayesilaista tilastotiedettä haplotyyppien ennnustamiseen genotyyppiaineistosta. Menetelmän malli pystyy mallintamaan tarkasti geneettistä kytkentää eli fyysisesti lähekkäin sijaitsevien merkkijaksojen riippuvuutta. Tämä kytkentä näkyy haplotyyppijonojen lokaalina samankaltaisuutena. Paikallista rinnastusta käytetään esimerkiksi etsittäessä eri organismien genomien sekvensseistä samankaltaisia kohtia, esimerkiksi vastaavia geenejä. Paikallisen rinnastuksen hakualgoritmit löytävät vain samankaltaisimman kohdan, mutta eivät kerro, onko löydös tilastollisesti merkittävä. Yleinen tapa määrittää rinnastuksen tilastollista merkittävyyttä on laskea rinnastuksen hyvyydelle (pisteluvulle) p-arvo, joka kertoo rinnastuksen tilastollisen merkittävyyden. Väitöskirjan menetelmä paikallisten rinnastusten merkittävyyden laskemiseksi laskee sekvenssien paikalliselle rinnastukselle odotusarvon, joka antaa yleisesti käytettävälle p‐arvolle tiukan ylärajan. Vaikka malli on yksinkertainen, empiirisissä testeissä menetelmän antaman odotusarvon yksinkertainen johdannainen osoittautuu sangen tarkaksi p‐arvon estimaatiksi. Lähestymistavan etuna on, että sen avulla rinnastuksen aukot (poistot ja lisäykset) voidaan mallintaa suoraviivaisella tavalla

    Disciplining creativity: social mechanisms and human resource management practices in creativity-driven organizations

    Get PDF
    L'objectiu d'aquesta tesi és obrir la caixa negra de la creativitat i millorar el coneixement de com s'ha de gestionar en les organitzacions. De fet, gestionar la creativitat a les organitzacions requereix no tan sols comprendre què és la creativitat i els mecanismes que permeten que la creativitat aflori i es transformi en productes comercialitzables, sinó també identificar les pràctiques que poden ajudar les empreses a atraure i a retenir els qui tenen més bon potencial creatiu. A aquest efecte, s'estructura en cinc capítols. El capítol 1 examina la metodologia de la tesi i descriu detalladament les preguntes, el procés i el disseny de la recerca així com la industria cultural com a camp de recerca. El capítol 2 és un estudi conceptual que revisa la bibliografia sobre la creativitat, cercant d'aclarir les definicions. L'estudi analitza 94 definicions seleccionades després de consultar 50 llibres i 462 articles publicats en journals de gestió entre 1990 i 2008, i hi aplica la metodologia d'anàlisi de continguts. Els resultats assenyalen que, en general, són d'acceptació general sis categories conceptuals de creativitat: la creació, la síntesi, el resultat, la modificació, les interaccions i la implicació (engagement). S'analitzen amb profunditat totes aquestes categories conceptuals i els seus elements definidors. El capítol 3 busca identificar els mecanismes socials que permeten disciplinar una passió creativa i convertir-la en productes culturals que arribin al mercat. Proposa un marc teòric multinivell, centrat en dos conjunts de mecanismes: (1) els rols que encenen la creativitat (creativity-igniting roles), que activen l'esforç creatiu, i (2) les relacions que optimitzen la creativitat (creativity-enhancing relationships), que posen en relació els creadors individuals amb les firmes creatives. L'estudi es basa en la teoria de rols i en una orientació a la coordinació basada en els rols (Bechky, 2006), i agrupa quatre rols essencials que engloben les activitats bàsiques del procés de convertir la passió creativa en productes culturals: creador, emprenedor, integrador i patrocinador. S'utilitza la perspectiva relacional de l'activitat creativa per manifestar la importància de les relacions que optimitzen la creativitat en posar en relació els creadors individuals amb les empreses dedicades a la producció de productes culturals. Els mecanismes socials s'il·lustren amb tres casos d'estudi d'empreses que pertanyen a sectors culturals que segueixen diferents orientacions a l'hora de convertir la passió en productes. El capítol 4 se centra bàsicament en les pràctiques de gestió dels recursos humans (HRM) que permeten a les empreses atraure i retenir els empleats creatius. En conseqüència, aquest estudi proposa un marc conceptual i analitza el rol que juguen dues variables, la identitat ("qui som com a organització" - Albert i Whetten, 1985) i la imatge ("com pensen els membres de l'organització que la veuen els de fora" - Dutton et al. 1994), a l'hora d'influir en la relació entre les pràctiques de gestió dels recursos humans i la rotació. En concret, mostra que tant la identitat com la imatge poden augmentar o reduir la incidència de les pràctiques de gestió dels recursos humans sobre la rotació interna i externa. El capítol 5 conclou la tesi resumint, connectant i interpretant categories conceptuals resultat empírics. Per a concloure, proposa un marc teòric multinivell sobre com la creativitat ocorre en les organitzacions incloent tant els mecanismes socials com les practiques de gestió de recursos humans.El objetivo de esta tesis es abrir la caja negra de la creatividad y mejorar el conocimiento de cómo se debe gestionar en las organizaciones. Conseguir este objetivo requiere primero, aclarar qué es la creatividad y cuáles son los elementos que la constituyen; segundo, investigar los mecanismos específicos que permiten que la creatividad se desarrolle y sea disciplinada y transformada en un producto comercializable y tercero, identificar las prácticas que ayuden a las empresas a retener talentos creativos. A tal efecto, esta tesis se estructura en cinco capítulos. El capítulo 1 examina la metodología de la tesis y describe en detalle las preguntas, el proceso y el diseño de investigación, así como la industria cultural como campo de investigación. El capítulo 2 revisa la bibliografía sobre la creatividad e investiga distintas definiciones de este término para aclarar sus categorías conceptuales: de hecho, a pesar de los numerosos intentos de definir la creatividad, falta claridad sobre su definición. Por lo tanto, el estudio analiza 94 definiciones seleccionadas tras consultar 50 libros y 462 artículos publicados en journals de gestión entre 1990 y 2008, y les aplica la metodología de análisis de contenidos. Los resultados señalan que, en general, son de aceptación general seis categorías conceptuales de creatividad: la creación, la síntesis, el resultado, la modificación, las interacciones y el engagement. Se analizan en profundidad todas estas categorías conceptuales y sus elementos definidores. El capítulo 3 busca identificar los mecanismos sociales que permiten disciplinar una pasión creativa y convertirla en productos culturales que lleguen al mercado. Avanza un marco teórico multinivel, centrado en dos conjuntos de mecanismos: (1) los roles que encienden la creatividad (creativity-igniting roles), que activan el esfuerzo creativo, y (2) las relaciones que optimizan la creatividad (creativity-enhancing relationships), que ponen en relación a los creadores individuales con las firmas creativas. El estudio se basa en la teoría de roles y en una orientación a la coordinación basada en los roles (Bechky, 2006), y agrupa cuatro roles esenciales que engloban las actividades básicas del proceso de convertir la pasión creativa en productos culturales: creador, emprendedor, integrador y patrocinador. Se usa la perspectiva relacional de la actividad creativa para manifestar la importancia de las relaciones que optimizan la creatividad al poner en relación a los creadores individuales con las empresas dedicadas a la producción de productos culturales. Los mecanismos sociales se ilustran mediante tres casos de estudio de empresas pertenecientes a sectores culturales que siguen distintas orientaciones para convertir la pasión en productos. El capítulo 4 se centra básicamente en las prácticas de gestión de los recursos humanos (HRM) que permiten a las empresas atraer y retener a sus empleados creativos. El capítulo propone un marco conceptual y analiza el rol que juegan dos variables, la identidad ("quiénes somos como organización" - Albert y Whetten, 1985) y la imagen ("cómo piensan los miembros de la organización que la ven los de fuera" - Dutton et al. 1994), a la hora de influir en la relación entre las prácticas de gestión de los recursos humanos y la rotación. En concreto, muestra que tanto la identidad como la imagen pueden aumentar o reducir la incidencia de las prácticas de gestión de los recursos humanos sobre la rotación interna y externa. El capítulo 5 concluye la tesis resumiendo, conectando e interpretando categorías conceptuales y resultados empíricos. Para concluir, propone un marco teórico multinivel sobre cómo la creatividad ocurre en las organizaciones incluyendo tanto los mecanismos sociales como las prácticas de gestión de recursos humanos.The objective of this dissertation is to open up the black box of creativity and improve the understanding on how it can be managed in organizations. Fulfilling this purpose requires first, clarifying what creativity is and the elements that constitute it; second, investigating the specific mechanisms that allow creativity to take place and be disciplined and transformed into marketable products and third, identifying the practices that can help companies retain creative employees. Accordingly, this research has been structured in five chapters. Chapter one overviews the dissertation's methodology and describes in detail the research questions, process, and design, as well as cultural industry as an empirical setting. Chapter two reviews the literature on creativity and examines different definitions of the term, in order to provide clarity: in fact, despite the numerous attempts to define creativity, an agreement on its definition is still to emerge. Therefore, it performs a content analysis on 94 definitions collected on 50 books and 462 articles published in selected management journals from 1990 to 2008. The results suggest that six conceptual categories on creativity enjoy general support: creation, synthesis, output, modification, interactions, and engagement. All these conceptual categories and their defining elements are analyzed in depth. Chapter three seeks to identify the social mechanisms that allow disciplining a creative passion and translating it into cultural products that reach the market. It develops theory, by advancing a multi-level theoretical framework, which focuses on two sets of mechanisms: (1) creativity-igniting roles that energize a creative endeavour, and (2) creativity-enhancing relationships that link individual creators with creative firms. The chapter builds on role theory and a role-based approach to coordination (Bechky, 2006), bringing together four essential roles that encompass core activities in the process of translating creative passion into cultural products: creator, entrepreneur, integrator, and sponsor. The relational perspective to the creative activity is used to articulate the importance of creativity-enhancing relationships that bind individual creators with companies dedicated to the production of cultural products. The social mechanisms are illustrated with insights from three case studies of companies from cultural sectors that offer distinct approaches to translating passion into products. Chapter four is a study of the human resource management practices related to creative employees' retention in a creativity-driven organization. Based on one in-depth case study pertaining to the fashion and design industry, it explores the link "HRM practices-turnover", providing evidence of the role that two variables, namely, identity ("who we are as an organization" - Albert & Whetten, 1985) and image ("how organization members think outsiders see the organization" - Dutton et al. 1994), play in affecting this relationship. Chapter five concludes the dissertation by summarizing, linking and interpreting conceptual categories and empirical results. Finally, it advances a multilevel theoretical framework on how creativity happens in organizations, including both social mechanisms and HRM practices

    Hayao Miyazaki, la lámpara maravillosa. Un estudio de su cine y de sus referencias humanistas a la luz de las conexiones culturales entre Japón y Occidente

    Get PDF
    «Hayao Miyazaki, la lámpara maravillosa. Un estudio de su cine y de sus referencias humanistas a la luz de las conexiones culturales entre Japón y Occidente». Bajo este título, ofrecemos una completa y profunda investigación centrada en la obra integral del realizador nipón Hayao Miyazaki (1941), aunque con especial incidencia en sus once largometrajes, su única serie televisiva como director absoluto y algunos cortometrajes y mangas. Dicha investigación, en la que desgranamos los temas rectores de su trabajo –lo fantástico, lo maravilloso y lo alegórico; el viaje iniciático y los límites de la magia; la «transtextualidad» y la interculturalidad; las creaciones y recreaciones espacio-temporales; la visión ambivalente de la ciencia y la tecnología; el vuelo y su simbolismo; los personajes femeninos; la naturaleza y la maternidad; la influencia de las religiones budista y sintoísta– y las constantes éticas y estéticas que vertebran su producción, nos sirve, a su vez, para elaborar un discurso más extenso que, imbricado con el análisis principal que hace las veces de guía, permite contextualizar, a partir de múltiples alusiones a la historia, a la antropología, a la etnología, a la psicología, al psicoanálisis, a la filosofía, a la mitología, a la religión y al arte en sus distintas manifestaciones, la obra del autor dentro de la tradición japonesa a la que pertenece, así como el marco de referencia cultural occidental con el que dicha obra establece una serie de interesantes e insospechadas conexiones. La explicación contenida en el cuerpo principal de la tesis va acompañada, al final de esta, de un conjunto de tablas y textos que, a modo de opúsculos, desarrollan ciertos aspectos apuntados a lo largo del trabajo, y que, junto a la biofilmografía de Miyazaki –se incluyen aquí las fichas técnicas y artísticas de sus largometrajes con sinopsis, comentarios personales y reseñas– y las noventa y cuatro imágenes a todo color –entre fotogramas de películas y fotografías relacionadas– que ilustran los datos expuestos, constituyen el apartado de los apéndices. Toda esta información se complementa con una introducción en la que tratamos de definir la escurridiza noción de «anime» y repasamos sus precedentes histórico-artísticos –el manga y sus variantes, el teatro clásico («nô», «kyôgen», kabuki, «bunraku») y el cine, o, más exactamente, la concepción «cinematográfica» de la obra de Osamu Tezuka (1928-1989), imprescindible para entender los dibujos animados japoneses– con la doble intención de descubrir, por un lado, la ilustre tradición en la que hunde sus raíces la producción miyazakiana y de dotar, por otro, a la animación nipona de la legitimidad cultural necesaria para abordarla sin complejos en el ámbito académico. Hemos incluido también, como corresponde a una tesis doctoral, los consabidos capítulos dedicados a la justificación y los objetivos de nuestro trabajo, a la metodología llevada a cabo, al estado de la cuestión de nuestro objeto de estudio y a las conclusiones extraídas de nuestra investigación, amén de una lista con todo el material audiovisual, digital y bibliográfico consultado y de un «abstract» o resumen redactado, igual que las conclusiones, en inglés, al ser ello requisito indispensable para todas aquellas tesis doctorales que, como esta, optan a la Mención Internacional. Por último, hemos añadido un prefacio en el que explicamos las normas de estilo a las que nos hemos acogido para la redacción del texto, así como un apartado de agradecimientos con el que hemos querido expresar nuestra más sincera gratitud hacia todas aquellas personas e instituciones cuya ayuda ha resultado providencial para la feliz consecución de este magno proyecto.“Hayao Miyazaki, the Wonderful Lamp. A Survey on His Cinema and Its Humanistic Allusions in the Light of the Cultural Connections Between Japan and the West”. A deep and thorough research focused on the complete work of Japanese filmmaker Hayao Miyazaki (1941) is offered under this heading. However, special attention is paid in it to his eleven feature films, his only TV series as a director (not as a co-director) and some short movies and manga. The research includes an analysis of Miyazaki’s guiding themes –fantasy, allegory and the supernatural; the initiation voyage and the limits of magic; transtextuality and transculturality; the creation and recreation of worlds between reality and fiction; the ambivalent view of science and technology; the flight and its symbolism; female characters; nature and motherhood; the influence of Buddhism and Shinto– and of the ethical and aesthetical pillars which underpin his film production. This analysis, in turn, allows us to construct a more extensive discourse overlapped with the main explanation, which makes possible to put Miyazaki’s oeuvre into the context of both Japanese and Western traditions –that is to say, the author’s own cultural legacy and the heritage of foreign origin with which his work makes contact– through a large number of references to history, anthropology, ethnology, psychology, psychoanalysis, philosophy, mythology, religion, and art in its different manifestations. The central corpus of information is complemented by the appendices at the end –appendices containing on the one hand tables and texts in which some aspects pointed out in the corpus are further developed, and on the other hand Miyazaki’s bio/filmography (it also contains his full-length features’ cast and crew credits, together with their plots and some personal comments and reviews on them) and ninety-four full-color images (stills and related pictures) that visually illustrate the data. Besides, an introduction is added at the beginning of the thesis. In it, we have tried to define the elusive concept of “anime” and provide a chronological overview of its historical and artistic precedents –manga and its variants, classical theatre (Nô, Kyôgen, Kabuki, Bunraku) and cinema, or more precisely, the cinematographic conception of Osamu Tezuka’s (1928-1989) drawing, which is an essential part of understanding Japanese cartoons–, aiming at the twofold objective of showing the important tradition in which Miyazaki’s oeuvre has its roots and endowing Japanese animation with the cultural legitimacy necessary to unashamedly tackle it on an academic level. As always in the case of doctoral dissertations, chapters devoted to the grounds for and the objectives of the research, to the methodology used, to the current status of the issue and to the conclusions drawn from the study can also be found here, as well as a list of the audiovisual, bibliographic and digital works cited in the text and an abstract written in English, like the conclusions, due to the fact that this is an essential requirement for those Ph.Ds eligibles, as in our case, for the International Doctorate Mention. Lastly, we have attached, along with a preface including an explanation of the style guide followed for writing the thesis, the common and proverbial acknowledgements –a word of thanks to all those who have helped us fulfill the goal of bringing this grand project to fruition

    Lightweight Massively Parallel Suffix Array Construction

    Get PDF
    The suffix array is an array of sorted suffixes in lexicographic order, where each sorted suffix is represented by its starting position in the input string. It is a fundamental data structure that finds various applications in areas such as string processing, text indexing, data compression, computational biology, and many more. Over the last three decades, researchers have proposed a broad spectrum of suffix array construction algorithms (SACAs). However, the majority of SACAs were implemented using sequential and parallel programming models. The maturity of GPU programming opened doors to the development of massively parallel GPU SACAs that outperform the fastest versions of suffix sorting algorithms optimized for the CPU parallel computing. Over the last five years, several GPU SACA approaches were proposed and implemented. They prioritized the running time over lightweight design. In this thesis, we design and implement a lightweight massively parallel SACA on the GPU using the prefix-doubling technique. Our prefix-doubling implementation is memory-efficient and can successfully construct the suffix array for input strings as large as 640 megabytes (MB) on Tesla P100 GPU. On large datasets, our implementation achieves a speedup of 7-16x over the fastest, highly optimized, OpenMP-accelerated suffix array constructor, libdivsufsort, that leverages the CPU shared memory parallelism. The performance of our algorithm relies on several high-performance parallel primitives such as radix sort, conditional filtering, inclusive prefix sum, random memory scattering, and segmented sort. We evaluate the performance of our implementation over a variety of real-world datasets with respect to its runtime, throughput, memory usage, and scalability. We compare our results against libdivsufsort that we run on a Haswell compute node equipped with 24 cores. Our GPU SACA is simple and compact, consisting of less than 300 lines of readable and effective source code. Additionally, we design and implement a fast and lightweight algorithm for checking the correctness of the suffix array
    corecore