research

The Impact of Internal Marketing and Customer Orientation to Service Quality and Their Implication on Customer Satisf action of Hospital Service Management

Abstract

The number of individuals affected by type 2 diabetes is rapidly increasing. The goal of this thesis is to investigate if type 2 diabetes can be predicted more accurately from genome-wide association data using machine learning methods opposed to traditional statistical methods. A variable selection process using random forest has been performed and the variables in the genome, called Single Nucleotide Polymorphisms (SNPs), showing the highest importance for the prediction of type 2 diabetes have been identified. It has then been considered if including these SNPs in the models over only using clinical variables or previously univariately identified SNPs will improve the performance. Furthermore, the possible improvement by using random forest over logistic regression has been considered. The analysis has resulted in identifying genes through the SNPs that are related to biological functions related to type 2 diabetes. This includes genes which have not been directly associated with the disease. These are interesting for future study. However, the results show little to no improvement in prediction performance over models using only clinical variables suggesting that the signal for type 2 diabetes in the genome-wide association dataset is weak. Similarly, there is no improvement from using random forest over logistic regression for the final models suggesting that the linear signal in the genome data is much stronger than any non-linear signal.Antalet individer som lider av typ 2 diabetes ökar hastigt. Målet med denna uppsats är att undersöka huruvida förekomsten av typ 2 diabetes kan förutspås mer noggrant ur genome-wide association data med hjälp av maskininlärning jämfört med traditionella statistiska metoder. En variabel urvalsprocess med random forest har utförts, där variablerna i genomet, enbaspolymorfierna (SNPs), med störst betydelse för förutsägelsen av typ 2 diabetes identifierades. Det har undersökts om inkludering av dessa SNPs i modellerna jämfört med att enbart använda kliniska variabler eller tidigare identifierade SNPs förbättrar förutsägelsen. Vidare har den potentiella förbättringen av förutsägelsen genom användning av random forest jämfört med logistisk regression undersökts. Analysen av SNPs har resulterat i identifiering av gener som är relaterade till biologiska funktioner kopplade till typ 2 diabetes. Detta inkluderar gener som inte direkt har förknippats med sjukdomen tidigare, varför de är intressanta för fortsatta studier. Resultaten visar dock liten till ingen förbättring i förmåga att förutspåtyp 2 diabetes med hjälp av den använda metoden, jämfört med att enbart använda kliniska variabler vilket kan innebära att signalen för typ 2 diabetes i genome-wide association dataset är svag. På samma sätt kan ingen förbättring observeras vid användning av random forest jämfört med logistisk regression i de färdiga modellerna vilket kan innebära att signalen i datat är mycket starkare än någon ickelinjär signal

    Similar works