Identifying novel genes associated with breast cancer susceptibility using differential allelic expression ratios

Abstract

Breast Cancer (BC) is the most common cancer among women worldwide. However, the current knowledge of BC susceptibility only accounts for half of the familial cases. The few functional studies performed for genome-wide association studies (GWAS) loci revealed a role for cis-regulatory variation, suggesting that risk variants may be acting by regulating gene expression levels. Therefore, we hypothesise that the most efficient approach to tackle BC missing heritability is to focus susceptibility studies on variants with greater cis-regulatory potential. Hereby, we present an innovative approach to genetic association studies, using a quantifiable readout of the effect of cis-regulatory variants — differential allelic expression (DAE). To identify candidate risk genes for our study, we selected Single Nucleotide Polymorphisms (SNPs) weakly associated with BC risk in GWAS and in the iCOGS consortium and identified their proxy SNPs. The resulting 591 candidate risk variants were located in 92 different genes, of which 41 had evidence of being cisregulated in a DAE study of normal breast tissue. The clinical impact of these genes was assessed, for a diverse list of clinical variables (differential expression analysis, FDR ⩽ 1% and absolute fold-change ⩾1.5). A final list of 18 risk candidates cis-regulated and with clinical impact genes was identified. OCIAD1 and GRHL2 genes were selected to perform case-control association studies using DAE values. DAE of OCIAD1 was significantly associated with BC risk (p-value=0.002 and 0.008, in two independent experiments using blood samples), while DAE of GRHL2 needs further validation of association (pvalue= 0.014 and 0.096, in two independent experiments in breast tissue). This project proved that association studies using DAE as a quantifiable variable, together with the whole pipeline used to select the candidate genes, is an efficient approach to detect novel risk genes for BCO cancro da mama é o tipo de cancro mais diagnosticado em mulheres, tanto em países desenvolvidos como em países em vias de desenvolvimento, representando 25% de todos os cancros mais diagnosticados. É uma doença caracterizada pelo crescimento anormal de células da mama conduzindo à formação do tumor. Esta neoplasia pode ser classificada segundo a sua morfologia e histologia básica, mas também a nível molecular. Trata-se de uma doença complexa, com uma componente genética e ambiental. Os fatores de risco para desenvolvimento de cancro da mama podem ser modificáveis, como é o caso da diminuição do contacto com radiação ionizante, consumo de hormonas femininas exógenas, entre outros, mas também existem fatores não modificáveis como é o caso da genética e da herança familiar. Cerca de 10-30% dos cancros da mama estão relacionados com fatores hereditários e dentro destes, entre 5-10% dos casos têm uma forte componente herdada. Os alelos genéticos podem ser categorizados de acordo com o risco e com a sua frequência na população, em alelos de alto risco, como é o caso de mutações nos genes BRCA1/BRCA2, alelos de risco moderado, como as mutações em ATM e BRIP1 e em alelos que conferem baixo risco na população, como o caso dos polimorfismos genéticos identificados nos genes FGFR2 e TOX3. No entanto cerca de metade da componente de risco familiar para o cancro da mama permanece por identificar. Os estudos de associação do genoma (GWAS) permitiram a identificação de muitos alelos de risco sem conhecimento prévio da posição ou função do gene. Estes estudos em cancro da mama revelaram que os polimorfismos de variante única (SNPs) associados a risco para a doença estão presentes maioritariamente em regiões não codificantes e os poucos estudos funcionais realizados nestes loci mostraram que variantes cis-reguladoras causavam risco através da regulação da expressão genética. As variantes em cis alteram a síntese dos transcritos de forma específica para cada alelo, podendo estar localizadas em regiões promotoras do gene, enhancers, bem como a centenas de kilobases (kb) de distância. A medição do rácio de expressão do RNA entre os dois alelos permite a deteção direta do efeito destas variantes, designando-se por análise de expressão alélica diferencial (DAE). Posto isto, sugere-se que para identificar novas variantes associadas a risco para cancro da mama deve-se focar os estudos em variantes cis-regulatórias e propõe-se utilizar rácios de DAE como medida quantitativa em estudos de associação genética. Para selecionar os genes candidatos para serem testados nos estudos de associação usando níveis de DAE usou-se a seguinte abordagem: primeiro identificaram-se 608 variantes candidatas a conferir risco para cancro da mama, uma vez que mostraram evidência de estarem associadas com risco para cancro da mama, mas não atingiram significância estatística nos GWAS. Estas variantes e os seus proxy SNPs (r2 ≥ 0.8) estavam localizadas em 92 genes diferentes. Visto que se pretendia selecionar genes para validação no laboratório que tivessem cisregulados, filtrou-se os 92 genes candidatos a risco com os dados de DAE do grupo (que indicavam quais os genes com evidência de cis-regulação), ficando-se com 41 genes cis-regulados e com evidência de poderem contribuir para risco de desenvolver cancro da mama. Com o objetivo de se selecionarem genes com possível impacto clínico, realizaram-se análises de associação estatística entre expressão genética no genoma inteiro (derivada de microarrays de ácido desoxirribonucleico complementar (cADN) e diferentes variáveis clínicas (recetor de estrogénio, recetor de progesterona, grau, entre outras). Com esta análise de expressão diferencial verificou-se que 18 dos genes anteriores possuíam impacto clínico em pelo menos uma das análises consideradas (p-value≤0,01 (1% False Discovery Rate correction) e |Fold Change|≥ 1,5) e foram estabelecidos os genes finais de interesse. Destes 18 genes, selecionaram-se dois para a realização do estudo caso-controlo, com base nas evidências de DAE das análises efetuadas no grupo anteriormente, na significância estatística para o risco observada nas primeiras fases dos GWAS, no impacto clínico verificado nas análises de expressão diferencial, na frequência do alelo mais raro do SNP localizado nesse gene), na expressão total dos transcritos no tecido saudável da mama, bem como na presença de expression quantitative trait loci para o SNP transcrito (tSNP) de cada gene candidato. Após esta análise o gene OCIA domain containing 1 (OCIAD1), e nomeadamente o seu tSNP rs9997920 (alelos C/T (minor)), assim como o Grainyhead Like Transcription Factor 2 (GRHL2) e o seu tSNP rs6989650 (alelos C/T (minor)) foram selecionados para realização dos estudos caso-controlo, tendo sido o OCIAD1 testado em tecido da mama e no sangue e o GRHL2 apenas em mama. Para cada estudo caso-controlo foi incorporada uma curva de calibração com uma amostra heterozigótica de modo a quantificar-se de forma precisa o DAE e uma curva standard com amostras heterozigóticas com os dois alelos em diferentes proporções para servir de controlo positivo. Os estudos de associação revelaram que no gene OCIAD1 no sangue existe uma diferença significativa entre os níveis de DAE nos casos e dos controlos (p-value= 0.002 e 0.008 em duas experiências independentes), tendo o alelo menos frequente do rs9997920 uma maior expressão nos casos do que nos controlos. No tecido mamário não se verificou esta diferença nos níveis de DAE do OCIAD1 (p-value= 0.4 e 0.07 para a segunda experiência), o que nos leva a concluir que apenas o sangue poderá ser usado para inferir o risco conferido por este gene. No entanto, e uma vez que os coortes populacionais do sangue são diferentes dos do tecido, este estudo deveria ser repetido usando sangue e tecido das mesmas pessoas. O estudo de associação genética para o GRHL2 revelou que este é um potencial gene de risco para cancro da mama uma vez que apresentava níveis de DAE diferentes entre casos e controlos no tecido da mama, mas apenas numa das experiências realizadas (=0,014 e 0.096 para a segunda experiência). Verificou-se que o alelo comum do rs6989650 está mais expresso nos casos do que nos controlos o que nos leva a concluir que este possivelmente é o alelo de risco, mas mais estudo têm que ser feitos para garantir que realmente a presença desta variante leva a risco para o desenvolvimento da doença. Este estudo permitiu a identificação de potenciais novos genes associados a suscetibilidade para cancro da mama, e gerou uma lista de novos genes candidatos para serem testados no futuro para associação com cancro da mama, através da análise de DAE. Futuras repetições das experiências têm que ser realizadas para garantir que o OCIAD1 e o GRHL2 são genes de risco para cancro da mama. Ao confirmarem-se, mais estudos deverão ser feitos de modo a identificar as variantes causais bem como o mecanismo pelo qual estarão a provocar o risco

    Similar works