19 research outputs found

    Integration of miRNA and mRNA expression with DNA copy number of Ewing sarcoma cell lines

    Get PDF
    Ewing sarcoma is an aggressive and poorly differentiated malignancy of bone and soft tissue. It primarily affects children, adolescents, and young adults, with a slight male predominance. It is characterized by a translocation between chromosomes 11 and 22 resulting in the EWSR1-FLI1fusion transcription factor. The aim of this study is to identify putative Ewing sarcoma target genes through an integrative analysis of three microarray data sets. Array comparative genomic hybridization is used to measure changes in DNA copy number, and analyzed to detect common chromosomal aberrations. mRNA and miRNA microarrays are used to measure expression of protein-coding and miRNA genes, and these results integrated with the copy number data. Chromosomal aberrations typically contain also bystanders in addition to the driving tumor suppressor and oncogenes, and integration with expression helps to identify the true targets. Correlation between expression of miRNAs and their predicted target mRNAs is also evaluated to assess the results of post-transcriptional miRNA regulation on mRNA levels. The highest frequencies of copy number gains were identified in chromosome 8, 1q, and X. Losses were most frequent in 9p21.3, which also showed an enrichment of copy number breakpoints relative to the rest of the genome. Copy number losses in 9p21.3 were found have a statistically significant effect on the expression of MTAP, but not on CDKN2A, which is a known tumor-suppressor in the same locus. MTAP was also down-regulated in the Ewing sarcoma cell lines compared to mesenchymal stem cells. Genes exhibiting elevated expression in association with copy number gains and up-regulation compared to the reference samples included DCAF7, ENO2, MTCP1, andSTK40. Differentially expressed miRNAs were detected by comparing Ewing sarcoma cell lines against mesenchymal stem cells. 21 up-regulated and 32 down-regulated miRNAs were identified, includingmiR-145, which has been previously linked to Ewing sarcoma. The EWSR1-FLI1 fusion gene represses miR-145, which in turn targets FLI1 forming a mutually repressive feedback loop. In addition higher expression linked to copy number gains and compared to mesenchymal stem cells, STK40 was also found to be a target of four different miRNAs that were all down-regulated in Ewing sarcoma cell lines compared to the reference samples. SLCO5A1 was identified as the only up-regulated gene within a frequently gained region in chromosome 8. This region was gained in over 90 % of the cell lines, and also with a higher frequency than the neighboring regions. In addition, SLCO5A1 was found to be a target of three miRNAs that were down-regulated compared to the mesenchymal stem cells.Ewingin sarkooma on aggressiivinen ja erilaistumaton luu- ja pehmytkudossyöpä. Se vaivaa pääasiassa lapsia, nuoria ja nuoria aikuisia, ja on hieman yleisempi miehillä. Sen tunnusmerkki on kromosomien11 ja 22 välillä tapahtuva uudelleenjärjestäytyminen, jonka tuloksena on EWSR1-FLI1fuusiogeenin tuottama transkriptiofaktori. Tämän tutkielman tarkotuksena on tunnistaa Ewingin sarkoomalle tärkeitä kohdegeeniehdokkaita käyttäen kolmea erityyppistä mikrosiruaineistoa. Array comparative genomic hybridization -teknologialla mitataan DNA:n kopiolukua, ja sen analysointi mahdollistaa yleisten kromosomipoikkeavuuksien tunnistamisen. mRNA- and miRNA-siruja käytetään proteiineja tuottavienja miRNA-geenien ilmentymisen mittaamiseen, ja niiden tulokset yhdistetään kopiolukuaineistoon. Kromosomipoikkavuudet tyypillisesti sisältävät myös sivullisia geenejä varsinaisten syöpä- ja kasvurajoitegeenienlisäksi, ja yhdistäminen ilmentymisaineistoon mahdollistaa varsinaisten kohdegeenien tunnistamisen. Myös miRNA:iden ja niiden ennustettujen kohde-mRNA:iden välinen korrelaatio mitataan määrittämään transkription jälkeisen säätelyn vaikutusta mRNA:iden tasoille. Yleisimmät kopiolukumonistumat tunnistettiin kromosomeista 8, 1q ja X. Häviämät olivat yleisimpiä raidassa 9p21.3, jonka kohdalla havaitiin myös katkoskohtien rikastuma muuhun genomiinverrattuna. Kopiolukumuutoksilla 9p21.3:ssa havaittiin olevan tilastollisesti merkitsevä vaikutus MTAP:n ilmentymiseen, mutta ei CDKN2A:n, joka on tunnettu kasvurajoitegeeni samassa kohtaa genomia. MTAP:n ilmentyminen oli myös alhaisempaa Ewing sarkooma -solulinjoissa kuin mesenkymaalisissa kantasoluissa. Kohonnutta ilmentymistä kopiolukumuutoksista johtuen ja verrokkinäytteensuhteen havaitiin geeneissä DCAF7, ENO2, MTCP1 ja STK40. miRNA-geenien ilmentymistä verrattiin Ewingin sarkooma -solulinjojen ja mesenkymaalisten kantasolujenvälillä. 21:n miRNA:n ilmentymisen havaittiin olevan koholla ja 32:n alhaisempi kuin vertailunäytteissä. Alhaisempi ilmentyminen havaitiin myös miR-145:n kohdalla, kuten on aikaisemminkin havaittu Ewingin sarkooman kohdalla. Fuusiogeeni EWSR1-FLI1 vaimentaa miR-145:n ilmentymistä, jonka yksi kohdegeeni taas on FLI1, synnyttäen näin vastavuoroisesti vaimentavan palautesilmukan. Sen lisäksi että STK40:n ilmentyminen oli Ewing sarkooma -solulinjoissa koholla mesenkymaalisiin kantasoluihin nähden, ja että monistumien havaittiin nostaneen STK40:n ilmentymistä, sen havaittiin myös olevan kohdegeeni neljälle miRNA:lle, joiden ilmentyminen oli alentunut. SLCO5A1:n havaittiin olevan ainoa koholla oleva geeni usein monistuneella alueella kromosomissa 8. Alue oli monistunut yli 90 %:ssa solulinjoista, yleisyyden myös ollessa vierekkäisiä alueita korkeampi. Tämän lisäksi SLCO5A1 on kohdegeeni kolmelle miRNA:lle, joiden ilmentyminen oli alentunut mesenkymaalisiin kantasoluin verrattuna

    Bioinformatic solutions for chromosomal copy number analysis in cancer

    Get PDF
    Chromosomal copy number aberrations are one of the main mechanisms that give rise to the proliferative capabilities of cancer cells. These aberrations can be quantified with technologies that generate measurements genome-wide and with high resolution. Hence, they produce vast amounts of data, which requires tailored bioinformatic solutions for analysis and management. Two such high-resolution and genome-wide technologies are DNA microarrays, which are successively replaced by next-generation sequencing approaches. This dissertation describes three novel bioinformatic solutions for copy number analysis in cancer with these technologies. CanGEM is a publicly-accessible database solution for storage of raw and processed copy number data from cancer research experiments. The contents of the database can be queried based on clinical and copy number data. Clinical data is collected using appropriate controlled vocabularies. Copy number data is collected as raw microarray data and automated analysis identifies the locations of chromosomal aberrations. In order to allow integration of data measured with different microarray platforms, a copy number status is derived for every known human gene. CGHpower is a statistical power calculator for copy number experiments that compare two groups. It estimates genome complexity of a cancer type in question from a pilot data set of the sample series, and assesses the number of samples required to satisfy statistical requirements. It can be used either in the planning stages of experiments, including as a justification in grant applications, or to verify whether sufficient samples were included in past experiments. Performance of this bioinformatic solution is evaluated with real and simulated data sets. QDNAseq is a preprocessing solution to detect copy number aberrations from shallow whole-genome next-generation sequencing data. It corrects the observed sequencing coverage for known systematic biases and allows filtering of spurious regions in the genome. A new list of such problematic regions is derived from public data generated by the 1000 Genomes Project. Performance of the solution is evaluated relative to other similar published solutions and DNA microarrays, and also compared to theoretical statistical expectations. An application of the QDNAseq method is also presented in a translational research project with the aim to identify copy number aberrations in tumors of patients with low-grade glioma. Aberrations identified by shallow whole-genome next-generation sequencing and QDNAseq are used to evaluate associations with patient survival, and also to assess intratumoral heterogeneity and temporal evolution of these tumors. A loss in chromosome 10q is identified to be associated with poor prognosis, and the finding validated in two independent data sets. From the assessment of intratumoral heterogeneity and temporal tumor evolution, the well-characterized co-deletion of 1p/19q is found to be the only chromosomal aberration that is consistently present or absent across the entire tumor and possible future recurrences. This is compatible with the present view of its role as an early event in the development of these tumors. The text concludes with a discussion of lessons learned from the development process and application of the three described bioinformatic solutions. Better awareness of and adherence to established best practices from the software development field would have been useful, and together with more careful consideration of implementation decisions could have resulted…Kromosomaaliset kopiolukupoikkeamat ovat eräs tärkeimmistä mekanismeista syövän synnyssä. Yhden äidiltä ja yhden isältä perityn geenikopion sijaan osa perimästä voi olla monistunut useammaksi kopioksi, ja joidenkin osien kohdalla yksi tai molemmat kopiot voivat olla hävinneet. Kopiolukupoikkeamien todentamiseen käytetään genominlaajuisia tekniikoita, joilla on tarkka erotuskyky. Ne tuottavat suuria tietomääriä, joiden analysointi ja käsittely vaativat räätälöityjä bioinformaattisia menetelmiä. Tekniikoihin sisältyvät DNA-mikrolevyt sekä ne käytännössä jo syrjäyttäneet uuden sukupolven sekvensointimenetelmät. Tässä väitöskirjassa kuvataan kolme uutta bioinformaattista ohjelmistoa kopiolukupoikkeamien analysointiin syöpänäytteistä näillä tekniikoilla. CanGEM on julkinen tietokanta raa'an ja prosessoidun mikrolevyaineiston keräämiseen yksittäisistä syöpätutkimuksista. Tietokannan sisältöön voi tehdä hakuja kliinisten muuttujien tai kopiolukupoikkeamien perusteella. Kliinisten muuttujien tallennukseen käytetään asianmukaisia luokittelujärjestelmiä. Kopiolukuaineisto kerätään raakoina mikrolevymittauksina, joista kopiolukupoikkeamat tunnistetaan algoritmisesti. Jotta eri mikrolevyalustoilla mitatun tiedon yhdistäminen olisi mahdollista, kopioluku määritetään erikseen jokaiselle tunnetulle ihmisen geenille. CGHpower on menetelmä tilastollisten voima-analyysien tekemiseen kahta ryhmää vertailevista kopiolukututkimuksista. Aineiston kopiolukupoikkeamien monimutkaisuus arvioidaan koe-erästä näytteitä ja määritetään tilastollisten vaatimusten edellyttämä otoskoko. Menetelmää voidaan käyttää joko tutkimusten suunnitteluvaiheessa, mm. rahoitushakemusten tukena, tai arvioimaan onko jo tehdyissä kokeissa käytetty riittävää määrää näytteitä. Suorituskyky mitataan sekä todellisilla että simuloiduilla aineistoilla. QDNAseq on esikäsittelymenetelmä kopiolukupoikkeamien tunnistamiseen matalalla lukupeitolla ja genominlaajuisesti tuotetusta uuden sukupolven sekvensointiaineistosta. Se korjaa havaittua lukupeittoa tunnettujen vinoumalähteiden osalta ja mahdollistaa kopiolukuanalyyseille ongelmallisten perimän osien suodattamisen jatkokäsittelystä. Näistä ongelmallisista alueista kuvataan uusi luettelo, joka on johdettu 1000 Genomes -projektin julkaisemasta aineistosta. Menetelmän suorituskykyä arvioidaan verrattuna muihin vastaaviin julkaistuihin menetelmiin ja DNA-mikrolevyihin, sekä suhteessa teoreettisiin tilastollisiin odotuksiin. Itse menetelmän lisäksi kuvataan QDNAseq:n sovellutus translationaaliseen tutkimukseen ja kopiolukupoikkeamien tunnistamiseen alhaisen erilaistumisasteen glioomista. Todetaan kromosomin 10q häviämän yhteys huonoon ennusteeseen ja löydös vahvistetaan kahdessa riippumattomassa aineistossa. Tunnistettuja kopiolukupoikkeamia käytetään myös kasvaimien epäyhtenäisyyden ja ajallisen kehityksen tarkasteluun. Havaitaan kyseiselle syöpätyypille yleisen 1p/19q-häviämän olevan ainoa kopiolukupoikkeama, joka on johdonmukaisesti joko läsnä taikka puuttuu läpi sekä koko alkuperäisen syöpäkasvaimen että mahdollisten uusiutumien. Havainto sopii nykynäkemykseen kyseisen poikkeaman synnystä hyvin varhaisessa vaiheessa kyseisen syöpätyypin kehitystä. Lopuksi tarkastellaan kuvattujen bioinformaattisten ohjelmistojen kehitys- ja sovellutusprosesseista opittuja asioita. Ohjelmistokehitysalan vakiintuneiden käytänteiden parempi tuntemus olisi ollut hyödyllistä, ja yhdessä toteutusyksityiskohtien tarkemman harkinnan kanssa voinut auttaa tuottamaan tarkoituksensa paremmin täyttäviä sekä helpommin kehitettäviä ja ylläpidettäviä…Afwijkingen in het aantal chromosomen, of delen van chromosomen, zijn een van de mechanismen die aanleiding geven tot het proliferatieve gedrag van kankercellen. Deze chromosomale afwijkingen kunnen worden gemeten met genomische technieken met een hoge resolutie. Deze technieken genereren zeer grote hoeveelheden data, die op maat gemaakte bioinformatische oplossingen vereisen voor analyse en databeheer. De twee meest relevante genomische technieken met hoge resolutie zijn microarrays en ‘next generation sequencing’. Hoofdstuk 1 van dit proefschrift behandelt de literatuur van de data-analyse voor chromosomale afwijkingen gemeten met microarrays of ‘next generation sequencing’. Het introduceert relevante bioinformatische concepten, beschrijft het analytische proces van ruwe data tot identificatie van numerieke chromosoomafwijkingen in individuele tumoren en het bioinformatisch onderzoek gericht op de betekenis van die afwijkingen in grote series tumoren. Hoofdstuk 2 tot en met 4 beschrijven drie nieuwe bioinformatische implementaties ontwikkeld voor de analyse van deze chromosomale afwijkingen in kanker. CanGEM (Hoofdstuk 2) is een publiek toegankelijke database voor het opslaan van ruwe en verwerkte chromosoomaantallen het kankeronderzoek. De inhoud van de database kan worden doorzocht op basis van zowel klinische als experimentele gegevens met betrekking tot chromosoomaantallen. Klinische gegevens worden verzameld met behulp van gecontroleerde woordenlijsten. Chromosoomaantallen worden verzameld als ruwe microarray data en begin- en eindpositie van de afwijkingen worden steeds opnieuw automatisch bepaald. Om de integratie van de data, die gemeten worden met microarrays van verschillende makelij, verder te faciliteren, wordt het aantal chromosomen per gen afgeleid voor ieder van de ca. 19.000 tot 20.000 menselijke genen. CGHpower (Hoofdstuk 3) is een methode om te berekenen hoeveel tumormonsters statistisch nodig zijn om verschillen en overeenkomsten in chromosomale afwijkingen tussen twee groepen tumoren te kunnen vergelijken. Er wordt een schatting gemaakt van de complexiteit van de afwijkingen in een bepaald type kanker met behulp van een beperkt aantal monsters. Vervolgens wordt geschat hoeveel tumoren nodig zijn om aan de statistische eisen te voldoen. CGHpower kan in de planningsfase van een subsidieaanvraag worden gebruikt als rechtvaardiging van de voorgestelde aantallen naar een subsidiegever, of kan gebruikt worden om te controleren of er voldoende aantallen tumoren in een experiment werden opgenomen. CGHpower wordt geëvalueerd met behulp van experimentele en gesimuleerde datasets. QDNAseq (Hoofdstuk 4) is een methode die een voorbewerkingstap maakt van ‘next generation sequencing’ data naar chromosoomaantallen in het genoom van een tumor, waarbij wordt uitgegaan van sequencing met een diepte van slechts 10\% van het gehele genoom. QDNAseq corrigeert de waargenomen genoomwijde dekking voor systematische fouten en faciliteert de mogelijkheid om onregelmatige gebieden in het genoom te verwijderen. Een lijst van dergelijke systematische fouten en onregelmatige gebieden is afgeleid van publieke data die openbaar werd gemaakt door het “1000 Genomes Project”. QDNAseq wordt geëvalueerd ten opzichte van de microarraytechniek en andere gepubliceerde software voor de analyse van numerieke chromosoomafwijkingen met behulp van ‘next generation sequencing’. Tenslotte worden de uitkomsten van QDNAseq op ‘next generation sequencing’ data vergeleken met theoretische statistisch verwachte resultaten. In het voorlaatste hoofdstuk (Chapter 5) wordt QDNAseq toegepast op translationeel onderzoek dat tot doel heeft afwijkingen in het aantal chromosomen of delen daarvan te identificeren bij tumoren van patiënten met laag-gradige gliomen. Chromosomale afwijkingen geïdentificeerd middels ‘next generation sequencing’ en QDNAseq worden gebruikt om associaties te bepalen met de overleving van de patiënt, de intratumorale heterogeniteit van de tumoren en de evolutie over tijd van deze tumoren. Een verlies van het distale deel van chromosoom 10q wordt in dit onderzoek geassocieerd met een slechte prognose. Deze bevinding kon worden gevalideerd in twee onafhankelijke patiëntenseries. Uit de beoordeling van intratumorale heterogeniteit en tumorevolutie blijkt tenslotte dat verlies van chromosoom 1p samen met 19q de enige afwijking is die consistent aan- of afwezig is in de tumoren. Net als bij de drie beschreven implementaties voor de analyse van chromosomale afwijkingen in kanker, wordt veel bioinformatisch onderzoek uitgevoerd in academische groepen. De discussie (Hoofdstuk 6) behandelt de opgedane ervaringen met betrekking tot het ontwikkelingsproces en de toepassing van bioinformatische oplossingen

    Driver Gene and Novel Mutations in Asbestos-Exposed Lung Adenocarcinoma and Malignant Mesothelioma Detected by Exome Sequencing

    Get PDF
    Background Asbestos is a carcinogen linked to malignant mesothelioma (MM) and lung cancer. Some gene aberrations related to asbestos exposure are recognized, but many associated mutations remain obscure. We performed exome sequencing to determine the association of previously known mutations (driver gene mutations) with asbestos and to identify novel mutations related to asbestos exposure in lung adenocarcinoma (LAC) and MM. MethodsExome sequencing was performed on DNA from 47 tumor tissues of MM (21) and LAC (26) patients, 27 of whom had been asbestos-exposed (18 MM, 9 LAC). In addition, 9 normal lung/blood samples of LAC were sequenced. Novel mutations identified from exome data were validated by amplicon-based deep sequencing. Driver gene mutations in BRAF, EGFR, ERBB2, HRAS, KRAS, MET, NRAS, PIK3CA, STK11, and ephrin receptor genes (EPHA1-8, 10 and EPHB1-4, 6) were studied for both LAC and MM, and in BAP1, CUL1, CDKN2A, and NF2 for MM. ResultsIn asbestos-exposed MM patients, previously non-described NF2 frameshift mutation (one) and BAP1 mutations (four) were detected. Exome data mining revealed some genes potentially associated with asbestos exposure, such as MRPL1 and SDK1. BAP1 and COPG1 mutations were seen exclusively in MM. Pathogenic KRAS mutations were common in LAC patients (42 %), both in non-exposed (n = 5) and exposed patients (n = 6). Pathogenic BRAF mutations were found in two LACs. ConclusionBAP1 mutations occurred in asbestos-exposed MM. MRPL1, SDK1, SEMA5B, and INPP4A could possibly serve as candidate genes for alterations associated with asbestos exposure. KRAS mutations in LAC were not associated with asbestos exposure.Peer reviewe
    corecore