Design and Implementation of a Computational Platform and a Parallelized Interaction Analysis for Large Scale Genomics Data in Multiple Sclerosis

Abstract

Abstract The multiple sclerosis (MS) genetics research group led by professor Jan Hillert at Karolinska Institutet, focuses on investigating the aetiology of the disease. Samples have been collected routinely from patients visiting the clinic for decades. From these samples, large amounts of genetics data is being generated. The traditional methods of analyzing the data is becoming increasingly inefficient as data sets grow larger. New approaches are needed to perform the analyses. This thesis gives an introduction to the relevant genetics and discusses possible approaches for enabling more efficient execution of legacy analysis tools, as well as improving a gene-environment and gene-gene interaction analysis. Different computational paradigms are presented followed by the implementation of a computational platform to support the researchers' existing, and possibly future, analysis needs. The improved interaction analysis application is then implemented and executed in a virtual instance of this platform. The performance of the analysis application is then evaluated with respect to the original reference application. Referat Design och implementation av beräkningsplattform och paralelliserad interaktionsanalys för storskaliga genetiska data inom multipel skleros Professor Jan Hillert vid Karolinska Institutet leder en forskargrupp som fokuserar på etiologin bakom multipel skleros (MS). Under flera årtionden har patientprover samlats in från kliniken och från dessa prover har stora mängder genetiska data genererats. De traditionella analysmetoderna blir allt mer ineffektiva då datamängderna öker. Det finns ett stort behov av nya tillvägagångssätt och metoder för att analysera dessa data. Denna uppsats ger en introduktion i relevant genetik och diskuterar olika tillvägagångssätt för att möjliggöra effektivare exekvering av befintliga analysverktyg, så väl som förbättring av en gen-miljö och gen-gen-interaktionsanalys. Olika etablerade beräkningsparadigmer presenteras, följt av en implementation av en beräkningsplattform som ett stöd i att tillgodose forskargruppens nuvarande och möjli-ga framtida behov. Den förbättrade interaktionsanalysen är sedan implementerad och exekverad i en virtuell instans av plattformen. Interaktionsanalysens prestanda utvärderas sedan och jämförs med ursprungsimplementationen

    Similar works