6 research outputs found

    Identification of Genetic and Epigenetic Risk Factors for Psoriasis and Psoratic Arthritis

    Get PDF
    Psoriasis: PS) is a common incurable inflammatory skin disease affecting 2-3% of the European population. ~10-30% of patients develop psoriatic arthritis: PsA). Genetic variation in the major histocompatibility complex: MHC) increases risk of developing PS. However, only ~10% of individuals with this risk factor develop PS, indicating that other genetic effects and environmental triggers are important. In order to identify novel susceptibility genes of PS and PsA, I performed the first large scale genome wide association scan for psoriasis susceptibility loci using 233 cases and 519 controls. It revealed that genes of the immune system and of the barrier are associated with psoriasis. The MHC: psoriasis susceptibility 1 or PSORS1) conferred the strongest risk factor for PS and PsA. The study also confirmed recently identified associations with interleukin-23 receptor and interleukin-12B in both PS and PsA. Novel loci with modest effect were also identified, including a region on chromosome 4q27 that contains genes for interleukin 2 and interleukin 21 that has been implicated in other autoimmune diseases, and seven additional regions that included chromosome 13q13 and 15q21. A follow-up study, aimed to identify potential functional SNPs in the PSORS1 region, implicated an allele-specific repressor role of SNP rs10456057 via binding to nuclear transcriptional factors. Further study with additional PSORS1 SNPs identified enhancer activity of the risk allele of SNP rs13191343 in differentiating keratinocytes, and the presence of the PSORS1 risk allele is correlated with CDSN: corneodesmosin) expression, which would affect skin barrier formation. Finally, this thesis also describes the first genome-wide study of altered CpG methylation in psoriatic skin. The study determined the methylation levels at 27,578 CpG sites in skin samples from individuals with psoriasis: 12 involved, 8 uninvolved) and 10 unaffected individuals. Involved skin differed from normal skin at 1,108 CpG sites at adjusted p-value \u3c 0.05. Twelve of those CpG sites mapped to the epidermal differentiation complex close to genes that are highly up-regulated in psoriasis. Hierarchical clustering of 50 of the top differentially methylated sites accurately separated all psoriatic skin samples: involved and uninvolved) from normal skin. Methylation at 12 CpG sites was significantly correlated with expression levels of a nearby gene. Taken together, the thesis reveals that the genetic and epigenetic risk factors of psoriasis lead to alterations in genes of skin barrier and immune system which act together to trigger the pathogenesis of the disease

    Functional analysis of genetic variants associated with risk for breast cancer: 12q24, a candidate risk locus

    Get PDF
    Dissertação de mestrado, Oncobiologia - Mecanismos Moleculares do Cancro, Departamento de Ciências Biomédicas e Medicina, Universidade do Algarve, 2017Common risk alleles identified through Genome-Wide Association Studies (GWAS) explain about 14% of familial breast cancer cases. However, GWAS do not identify causative variants in the risk loci and do not contribute to the understanding of risk mechanisms. All of the risk loci functionally analysed to date are cis-regulatory, i.e. polymorphisms that modify gene expression. Therefore, we hypothesize that cis-regulation is a central mechanism in breast cancer susceptibility. Differential allelic expression (DAE) is the most robust method to identify the effect of cis-regulatory single nucleotide polymorphisms (SNPs). Our group established a whole-genome DAE map for normal breast tissue, which we integrated with the GWAS data, to identify risk loci with greater potential to be cis-regulatory. We identified 111 loci, with one of them in the 12q24 locus, containing an unpublished GWAS SNP, rs7307700, and 15 DAE SNPs. We performed in silico analysis to characterize the regulatory potential of candidate cis-regulatory SNPs (rSNPs) in breast cell lines, and in vitro analysis by electrophoretic mobility shift assay (EMSA) to explore interactions between candidate rSNPs and candidate transcription factors (TFs). Three candidate rSNPs, rs10773145, rs10846834 and rs12302714, overlapped regulatory elements and DNase I hypersensitivity sites, and were associated with the DAE observed for two transcribed SNPs (or DAE SNPs), rs7301263 and rs12581512. The candidate SNPs rs10773145 and rs10846834 were both located within known c-FOS and STAT3 binding sites, but showed small allelic differences in the ChIP-seq data. Since there was no ChIP-seq data for rs12302714, we carried EMSA analysis. Although we detected DNA-protein binding for both alleles of this SNP, no allelic differences were detected. We also analysed candidate SNPs for microRNA binding and the results suggested that a microRNA have preferentially binding to the alleles of candidate rSNP rs12302714. These results indicate that the DAE observed might not be explained by differential binding of TFs at the three candidate rSNPs and might be due to other regulatory mechanisms, that require further exploration, such as splicing and microRNAs.O cancro da mama é uma das doenças oncológicas mais comuns, sendo a mais frequente causa de morte entre as mulheres. É estimado que uma em cada onze mulheres será diagnosticada com cancro da mama ao longo da sua vida. Trata-se de uma patologia complexa cuja etiologia pode ser devido a fatores genéticos e não genéticos. Estima-se que 5% a 10% dos casos de cancro da mama são devido a fatores genéticos, no entanto, o conhecimento atual acerca do risco hereditável não explica cerca 50% destes casos familiares. Recentes avanços tecnológicos, nomeadamente nos microarrays de genotipagem, e nos Estudos de Associação no Genoma Inteiro (genome-wide association studies, GWAS) permitiram identificar um grande número de variantes associadas a risco para cancro da mama. Os GWAS são estudos divididos por fases, que analisam variações no genoma inteiro, com o objetivo de descobrir fatores genéticos de risco de doenças comuns na população, como o cancro da mama. As variantes cis-reguladoras são polimorfismos frequentes na população (>5% de frequência do alelo menos frequente na população), ao contrário das mutações (<1% de frequência na população). Estes polimorfismos têm a capacidade de regular a expressão de genes quando localizados em elementos reguladores, nomeadamente, promotores ou elementos intensificadores (enhancer), podendo afetar a ligação de fatores de transcrição e consequentemente, a regulação de determinado gene. Atualmente, 94 loci de suscetibilidade para o cancro da mama foram identificados através de GWAS, que explicam apenas cerca de 14% do risco para esta patologia. Até à data, foram estudados funcionalmente 13 loci, e os resultados sugerem que os polimorfismos analisados tinham como mecanismo de atuação a cis-regulação. Adicionalmente, do 94 loci somente um se localiza numa região codificante, com todos os outros a localizarem-se em intrões, regiões intergénicas e regiões sem transcrição detetável (“gene deserts”). Finalmente, os GWAS para além dos 94 loci de risco validados, produziram longas listas de loci com significância estatística muito elevada, que necessitam de ser priorizados para estudos de validação. Com base nestas evidências, a nossa hipótese é que a cis-regulação é um mecanismo importante para o risco do cancro da mama e que a maioria dos polimorfismos associados ao risco para o cancro da mama ainda por descobrir poderão ser também cis-reguladores. Este trabalho foca-se nos polimorfismos de nucleótido único (SNPs) cis-reguladores e, entre outras abordagens, estes SNPs cis-reguladores (rSNP) podem ser identificados através da análise de loci de características quantitativas de expressão (expression quantitative trait loci, eQTL) e da análise de Expressão Alélica Diferencial (differential allelic expression, DAE). A análise de eQTL permite fazer uma associação entre SNPs e a variação de expressão total de determinado gene. No entanto, o nível de expressão total está sujeito a fatores em trans (tal como o nível de proteínas com função de fatores de transcrição), para além dos fatores em cis (alterações na sequência, tal como os SNPs). DAE é um dos possíveis efeitos observados na presença de rSNPs em elementos reguladores, dessa forma, a análise de DAE permite comparar os níveis relativos de expressão dos dois alelos do mesmo gene em indivíduos heterozigóticos, utilizando um SNP transcrito (tSNP ou DAE SNP). Esta abordagem não só indica qual o alelo a causar DAE, como elimina o efeito de fatores trans, pois compara os níveis de transcritos dos alelos individualmente no mesmo contexto celular e haplótipos. Num trabalho anterior feito pela Prof. Ana Teresa Maia e colegas, desenvolveu-se um mapa de DAE em 64 amostras de tecido mamário normal, que informa quais genes estão sob a influência de rSNPs. O próximo passo será identificar os SNPs causadores de risco. Assim, os dados do mapa de DAE foram cruzados com os resultados publicados e não publicados de GWAS para cancro da mama. Este cruzamento de dados foi feito de acordo com a localização cromossómica, distância física (janelas de ±250kb entre o GWAS SNP e o DAE SNP) e padrões de desequilíbrio de ligação (linkage disequilibrium, LD) com o valor mínimo de r2 = 0.4. Foram identificados 111 loci candidatos que contêm pelo menos um GWAS SNP e um DAE SNP e com forte potencial cis-regulador. Em 32 loci o GWAS SNP e o DAE SNP estavam em elevado LD, ou seja, os seus genótipos estavam fortemente associados. Como todos os loci estudados funcionalmente sugerem que o mecanismo causador de risco para o cancro da mama é a cis-regulação, e como todos os loci identificados, com exceção a um, encontram-se em regiões não codificantes (sugerindo que estão localizados em regiões regulatórias), selecionámos para análise funcional o locus 12q24, não publicado, para testar se este locus encontra-se também sob influência de rSNPs e validar este locus para o risco de cancro da mama. O GWAS SNP neste locus não atingiu o valor estabelecido pelo GWAS para passar a fase III, talvez por não estar em elevado LD com o rSNP causal. Desta forma, iremos testar se a integração do nosso mapa de DAE com os dados do GWAS relativos ao cancro da mama é uma boa abordagem para priorizar loci ainda por validar, com maior probabilidade de estarem sob influência de variantes cis-reguladoras, e consequentemente, mais prováveis a estarem associados ao risco para o cancro da mama. Este trabalho teve como objetivo: 1) validar um dos loci identificados, mas não validados, localizado na região 12q24, e confirmar a sua associação com o risco para o cancro da mama; 2) identificar e analisar funcionalmente as variantes com potencial a serem cis-reguladoras no locus 12q24; 3) testar se a nossa abordagem é um método eficaz para priorizar variantes candidatas a associados com risco. Começou-se por analisar o nosso mapa de DAE nesta região. A região do locus 12q24 apresenta 15 DAE SNPs e um GWAS SNP, rs7307700, localizado no gene AACS. Para identificar e analisar possíveis variantes associadas ao risco e com potencial a serem rSNPs, foram feitas análises in silico. Os dados dos projetos HapMap e 1000 Genomes Project foram consultados para identificar os melhores candidatos a rSNPs em LD ≥ 0.4 com o GWAS SNP, sendo identificados 72 rSNPs candidatos. Para analisar estes candidatos, acedeu-se aos dados dos projetos ENCODE e Roadmap Epigenomics, que contêm informações sobre zonas de hipersensibilidade à desoxirribonuclease I (DHSs), imuno-precipitação da cromatina (ChIP-seq) para diversas modificações de histonas e fatores de transcrição, previsões alélicas de ligação de proteínas (PWM). No final desta análise, 12 rSNPs candidatos foram encontrados em sobreposição com DHSs e com regiões que contêm marcadores para elementos reguladores, com evidência de estarem ativos em linhas celulares mamárias, sugerindo que esses podem ter um efeito funcional através da regulação da expressão de genes alvo., Para identificar as variantes que poderão estar a causar DAE no locus 12q24, testaram-se os níveis de expressão alélica dos 15 DAE SNPs com os genótipos dos 12 rSNPs candidatos. Dado o padrão de DAE demonstrado pelos DAE SNPs, pretendeu-se identificar os rSNP candidatos cujos homozigóticos não demonstrassem DAE nos DAE SNPs (i.e., SNPs transcritos), e cujos heterozigóticos apresentassem DAE nos DAE SNPs. Três dos 12 candidatos (rs10773145, rs10846834 e rs12302714) explicavam o DAE de dois DAE SNPs (rs12581512 e rs7301263). Para dois deles, rs10773145 e rs10846834, que se encontravam em completo LD um com o outro, existiam dados de ChIP-seq disponíveis que indicavam a ligação das proteínas STAT3 e c-FOS. No entanto, esses dados não revelavam diferenças de afinidade entre os alelos de cada SNP. Para o terceiro candidato, rs12302714, como não existiam dados de ChIP-seq, procedemos com ensaios in vitro. Os resultados de EMSA (electrophoretic mobility shift assay) sugeriram que, apesar de haver ligação de proteína, não existiam diferenças de afinidade para os alelos deste rSNP candidato. De acordo com estes resultados, é possível que estes três candidatos estejam a afetar o DAE observado nos DAE SNPs do gene AACS por outro mecanismo que não a ligação diferencial de fatores de transcrição em elementos reguladores. Outros mecanismos possíveis incluem diferenças alélicas de produção de transcritos alternativos (alelos a afetar o processo de splicing), ou de regulação por microRNAs. De seguida, analisou-se se havia alguma previsão de ligação preferencial de microRNAs aos alelos dos 72 SNPs candidatos. Em 17 dos 72 SNPs (incluindo o SNP rs12302714) houve previsões de ligação microRNAs com preferência a um dos alelos comparativamente ao outro. Posteriormente, analisaram-se os genótipos dos candidatos rSNPs, DAE SNP e GWAS SNP para a estrutura de LD nessa região e para identificação dos haplótipos, nas 64 amostras de tecido normal da mama, que poderão ser responsáveis pelo aumento ou diminuição da expressão dos genes. Foram identificados seis haplótipos comuns, estando dois haplótipos associados a diferenças nos níveis de expressão. Estes resultados sugerem que talvez seja o efeito acumulativo de dois ou mais rSNPs a causar o risco para cancro da mama e o DAE observado nos DAE SNPs no locus 12q24. Em paralelo a este trabalho, um outro locus (5q14.2) foi funcionalmente analisado. Um dos candidatos rSNP identificados através da análise in silico, afeta diferencialmente a ligação de um fator de transcrição no gene ATG10, causando assim, DAE por cis-regulação. No entanto, o fator de transcrição que se liga preferencialmente a um dos alelos deste rSNP permanece por identificar. Em suma, o cruzamento dos nossos dados de DAE com os dados de GWAS foi uma boa abordagem para priorizar loci não publicados dos GWASes que estão sob influência de cis-regulação, e com potencial para ser associado ao risco, para validação para o risco de cancro da mama. Futuramente, mais análises in silico e in vitro deverão ser feitas, de modo a entender que outro mecanismo de regulação poderá explicar o DAE observado no locus 12q24, e que fator de transcrição poderá estar a regular a expressão do gene ATG10 (locus 5q14.2). Uma análise mais aprofundada da regulação destes genes poderá levar também à compreensão da biologia de predisposição ao cancro e contribuir para o desenvolvimento de terapias futuras, especialmente na área da medicina personalizada, baseada nos haplótipos que regem o DAE em cada indivíduo

    Post-genomic structural analysis of single amino acid polymorphisms

    Get PDF
    Inherited genetic variation is critical in defining disease susceptibility. PDs, or pathogenic deviations, are mutations reported to be disease-causing, while SNPs, or single nucleotide polymorphisms, are understood to have a negligible effect on phenotype. With recent developments in biotechnology—most relevant being increased reliability and speed of sequencing—a wealth of information regarding SNPs and PDs has been acquired. Quite apart from the analytical challenge of analysing this information with a view to identifying novel therapies and targets for disease, the challenge of simply storing, mapping and processing these data is significant in itself. This thesis describes the development of a large-scale, automated pipeline that provides hypotheses as to what the structural effects of these genomic variations might be. This includes the development of nine new analyses. Eight of these new methods are structural, identifying mutations that disrupt various aspects of protein structure, including the interface, binding sites, folding mechanics and stability. The final new analysis is a novel method of identifying highly conserved residues from sequence. Here, the distribution of conservation scores from a multiple sequence alignment (MSA) is analysed to generate an MSA-specific threshold for high conservation. In order to construct MSAs for the sequence analysis, a novel method for identifying functionally equivalent proteins has been developed. Further, PDs and SNPs are characterised with respect to these structural analyses, and with respect to basic sequence and structural features. The findings support trends elsewhere in the literature: PDs are more often found in the core of proteins and at highly conserved sites; they most often affect the stability of protein structures; and they more often are between very different amino acids. In addition to the implications for disease therapies, these findings are informative in the more general context of protein structure

    Design and application of SuRFR: an R package to prioritise candidate functional DNA sequence variants

    Get PDF
    Genetic analyses such as linkage and genome wide association studies (GWAS) have been extremely successful at identifying genomic regions that harbour genetic variants contributing to complex disorders. Over 90% of disease-associated variants from GWAS fall within non-coding regions (Maurano et al., 2012). However, pinpointing the causal variants has proven a major bottleneck to genetic research. To address this I have developed SuRFR, an R package for the ranked prioritisation of candidate causal variants by predicted function. SuRFR produces rank orderings of variants based upon functional genomic annotations, including DNase hypersensitivity signal, chromatin state, minor allele frequency, and conservation. The ranks for each annotation are combined into a final prioritisation rank using a weighting system that has been parametrised and tested through ten-fold cross-validation. SuRFR has been tested extensively upon a combination of synthetic and real datasets and has been shown to perform with high sensitivity and specificity. These analyses have provided insight into the extent to which different classes of functional annotation are most useful for the identification of known regulatory variants: the most important factor for identifying a true variant across all classes of regulatory variants is position relative to genes. I have also shown that SuRFR performs at least as well as its nearest competitors whilst benefiting from the advantages that come from being part of the R environment. I have applied SuRFR to several genomics projects, particularly the study of psychiatric illness, including genome sequencing of a large Scottish family with bipolar disorder. This has resulted in the prioritisation of such variants for future study
    corecore