5 research outputs found

    Time-dependent ARMA modeling of genomic sequences

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Over the past decade, many investigators have used sophisticated time series tools for the analysis of genomic sequences. Specifically, the correlation of the nucleotide chain has been studied by examining the properties of the power spectrum. The main limitation of the power spectrum is that it is restricted to stationary time series. However, it has been observed over the past decade that genomic sequences exhibit non-stationary statistical behavior. Standard statistical tests have been used to verify that the genomic sequences are indeed not stationary. More recent analysis of genomic data has relied on time-varying power spectral methods to capture the statistical characteristics of genomic sequences. Techniques such as the evolutionary spectrum and evolutionary periodogram have been successful in extracting the time-varying correlation structure. The main difficulty in using time-varying spectral methods is that they are extremely unstable. Large deviations in the correlation structure results from very minor perturbations in the genomic data and experimental procedure. A fundamental new approach is needed in order to provide a stable platform for the non-stationary statistical analysis of genomic sequences.</p> <p>Results</p> <p>In this paper, we propose to model non-stationary genomic sequences by a time-dependent autoregressive moving average (TD-ARMA) process. The model is based on a classical ARMA process whose coefficients are allowed to vary with time. A series expansion of the time-varying coefficients is used to form a generalized Yule-Walker-type system of equations. A recursive least-squares algorithm is subsequently used to estimate the time-dependent coefficients of the model. The non-stationary parameters estimated are used as a basis for statistical inference and biophysical interpretation of genomic data. In particular, we rely on the TD-ARMA model of genomic sequences to investigate the statistical properties and differentiate between coding and non-coding regions in the nucleotide chain. Specifically, we define a quantitative measure of randomness to assess how far a process deviates from white noise. Our simulation results on various gene sequences show that both the coding and non-coding regions are non-random. However, coding sequences are "whiter" than non-coding sequences as attested by a higher index of randomness.</p> <p>Conclusion</p> <p>We demonstrate that the proposed TD-ARMA model can be used to provide a stable time series tool for the analysis of non-stationary genomic sequences. The estimated time-varying coefficients are used to define an index of randomness, in order to assess the statistical correlations in coding and non-coding DNA sequences. It turns out that the statistical differences between coding and non-coding sequences are more subtle than previously thought using stationary analysis tools: Both coding and non-coding sequences exhibit statistical correlations, with the coding regions being "whiter" than the non-coding regions. These results corroborate the evolutionary periodogram analysis of genomic sequences and revoke the stationary analysis' conclusion that coding DNA behaves like random sequences.</p

    2-D Cnn for time series trend prediction

    Get PDF
    Tese de mestrado, Matemática Financeira, Universidade de Lisboa, Faculdade de Ciências, 2020Recentemente, Redes Neurais Artificiais (RNAs) têm sido desenvolvidas e aplicadas á pre visão e classificação de séries temporais devido á sua capacidade de modelação não linear. Redes Neurais Convolucionais ( CNNs do inglês Convolutional Neural Networks), um tipo de rede neural habitualmente usada para classificação de imagens, ganharam recentemente popularidade nos mercados financeiros. Em Gudeleke, Boluk e Ozbayoglu (2017), os autores apresentam um método para prever a tendência dos preços de fecho de fundos de investimento usando uma CNN bidimensional. Os autores usaram dados de dezassete fundos de investimento distintos (Financial Select Sector SPDR ETF, Utilities Select Sector SPDR ETF, Industrial Select Sector SPDR ETF, SPDR S&P 500 ETF, Consumer Staples Select Sector SPDR ETF, iShares MSCI Germany ETF, Materials Select Sector SPDR ETF, Technology Select Sector SPDR ETF, Health Care Select Sector SPDR ETF, iShares MSCI Hong Kong ETF, iShares MSCI Canada ETF, Consumer Discret Sel Sect SPDR ETF, iShares MSCI Mexico Capped ETF, SPDR Dow Jones Industrial Average ETF, Energy Select Sector SPDR ETF, iShares MSCI Australia ETF and iShares MSCI Japan ETF) para criar imagens de (28 × 28) pixeis em nível de cinza. Estas imagens contêm 28 dias de negociação e 28 séries temporais correspondentes ao preço de fecho, volume e alguns indicadores técnicos calculados para diferentes períodos. Essas imagens são então usadas para alimentadar uma CNN bidimensional que retorna a tendência do preço de fecho do dia seguinte. Neste trabalho, um primeiro modelo foi desenvolvido a fim de reproduzir os resultados obtidos em Gudeleke, Boluk e Ozbayoglu (2017). A exatidão de 58% foi alcançada para o modelo de classificação binário, significativamente inferior ao valor de referência de 78%. Por outro lado, o nosso modelo de classificação multinomial apresentou uma melhor performance com uma exatidão de 69% em comparação com o valor de referência de 63%. Um estudo secundário tentou melhorar o desempenho dos modelos alterando a aquitetura das CNNs. Ao remover a camada de agrupamento da CNN, foram alcançados melhores resul tados em ambas as classificações binária e multinomial. No caso do modelo de classificação binária, foi observado um aumento de 6% na exatidão ( correspondente a uma exatidão de 64%). Considerando o modelo classificação multinomial, não foi identificada uma melhoria na exatidão, no entando foram observadas melhorias na precisão e na revocação para as classes de compra e venda. Ao aumentar o tamanho das imagens geradas a partir dos dados de entrada, foi observado um aumento de 5% na exatidão ( correspondente a uma exatidão de 69%) parao modelo de classificação binária. Por outro lado, ao passarmos para um modelo de previsão da tendência dos retornos semanais, um aumento de 6% na exatidão ( correspondente a uma exatidão de 75%) foi observado para o modelo de classificação binária. Já no caso do modelo de classificação multinomial, foi observada uma diminuição de 4% na exatidão ( correspondente a uma exatidão de 65%). Para além disso, valores de precisão significativamente superiores foram obtidos para duas das três classes. Finalmente, foi desenvolvido um modelo para prever a tendência dos retornos mensais. Para tal, mais uma vez, foi necessário aumentar o tamanho das imagens geradas a partir dos dados de entrada. Um aumento de 15% na exatidão ( correspondente a uma exatidão de 90%) foi observado No caso do modelo de classificação binária. Já em relação ao modelo de classificação multinomial, um aumento de exatidão de 16% foi alcançado ( correspondente a uma exatidão de 81%) juntamente com um aumento na precisão e revocação para as classes de compra e venda.Convolution Neural Networks have recently gain popularity as time series forecasting and classification models due to their ability of non-linear modeling. In this work a classification model for predicting the trend of ETFs closing prices using a 2-D CNN was developed. The 2-D CNN was trained with labelled images generated out of the ETFs financial data. Our model were able to predict the next day, week and month price movements with 69%, 75% and 90% accuracy, respectively

    Identificación in silico y evaluación in vitro de un péptido dirigido a interactuar con la proteína ROP5 de Toxoplasma gondii RH drivado de la proteína IRGb2-b1-CIM

    Get PDF
    INTRODUCCIÓN: T. gondii ha desarrollado varias estrategias para evadir las respuestas inmunes en sus muchos hospedadores, siendo la proteína ROP5 junto con ROP18 factores de virulencia que bloquean los mecanismos inmunes innatos activados por IFN-γ en células de ratón como las proteínas IRG. De hecho, ROP5B se une a IRGa6 para alterar su estructura y exponer residuos que son fosforilados por ROP18, lo que lleva a su inhibición. Se ha demostrado que los ratones de la India de una cepa llamada CIM pueden resistir la infección con parásitos RH virulentos, y este fenotipo se asoció a la proteína en tándem altamente polimórfica IRGb2-b1. Se ha sugerido que la hélice 4 de IRGb2-CIM, una estructura homóloga a la hélice de IRGa6, también sería la responsable de interactuar con ROP5B. Se desconoce si un péptido derivado de la hélice 4 de IRGb2-CIM podría reproducir la función natural de la proteína IRGb2-b1-CIM y disminuir de la misma manera la replicación del parásito. El objetivo del estudio fue identificar in silico un péptido derivado de la proteína IRGb2-b1-CIM dirigido a interactuar con la proteína ROP5 de Toxoplasma gondii RH y evaluar su efecto en el crecimiento y la viabilidad in vitro del parásito. METODOLOGÍA: Se utilizó un software en MATLAB para realizar un análisis de tiempo-frecuencia e identificar patrones energéticos que estuviesen en una misma frecuencia en IRGa6-BL/6 y en IRGb2-CIM en regiones correspondientes a sus hélices 4 y así identificar los aminoácidos responsables de la posible interacción de IRGb2-b1-CIM con ROP5B y derivar de allí el péptido. Luego, se obtuvo un modelo del acoplamiento molecular entre el péptido y ROP5B para describir las posibles interacciones que se podrían generar. Posteriormente, se evaluó el efecto citotóxico en células iMEF-BL/6 mediante el ensayo de reducción de MTT, incubando las células durante 24 horas con concentraciones del péptido que iban desde 5 μM hasta 150 μM. Para evidenciar la captación en células iMEF-BL/6, se incubaron las células durante 4 horas con 50 μM del péptido y mediante inmunofluorescencia indirecta usando como anticuerpo primario anti-TAT-AF594 y como anticuerpo secundario donkey-anti-rabbit-IgG-AF488. Se evaluó 3 la interacción del péptido con ROP5B mediante una ELISA tipo sándwich usando un anticuerpo de captura anti-ROP5 y dos anticuerpos de detección anti-TAT-AF594 y anti-Conejo-HRP. Se midió el efecto en la replicación del parásito en células iMEF-BL/6, incubando 50 μM del péptido con células previamente estimuladas con IFN-γ y posteriormente infectando las células con parásitos RH-YFP para comparar los niveles de fluorescencia con las células sin péptido. Por último, se midió el efecto en la infección del parásito incubando e infectando al mismo tiempo las células iMEF-BL/6 con 50 μM del péptido y parásitos RH-YFP para comparar los niveles de fluorescencia con las células sin péptido. RESULTADOS: Se identificó un péptido de 20 aa derivado de la hélice 4 de IRGb2-CIM a través del análisis de tiempo-frecuencia que podría interactuar en una región próxima en la cual interactúa IRGa6 con ROP5B. El péptido no tuvo efecto citotóxico al no disminuir la viabilidad metabólica de las células iMEF-BL/6 luego de 24 horas de incubación. Este péptido tuvo un uptake homogéneo en las células iMEF-BL/6, y se detectó la interacción con ROP5 mediante la ELISA tipo sándwich. El péptido redujo la replicación del parásito (*P = 0.0374) luego de haberse incubado 4 horas en células iMEF-BL/6 estimuladas con IFN-γ y que se infectaron durante 24 horas con los parásitos. Por otro lado, el péptido no redujo la infección del parásito luego de incubar e infectar simultáneamente durante 1.5 y 2 horas. CONCLUSIONES: El software de análisis de tiempo-frecuencia predijo un péptido de 20 aa responsables de la posible interacción ROP5B/IRGb2-CIM y reprodujo la interacción ROP5B/IRGa6. El péptido no es citotóxico en células iMEF-BL/6 con concentraciones desde 5 μM hasta 150 μM y mostró internalización homogénea en dichas células. El péptido puede interactuar de una manera dependiente de la concentración con ROP5. El péptido disminuyó la replicación del parásito, pero no la infección en células iMEF-BL/6.1. Introducción ............................................................................ 8 2. Objetivos ................................................................................. 11 3. Antecedentes y marco teórico ................................................ 20 4. Materiales y métodos ............................................................. 21 5. Resultados ............................................................................. 29 6. Discusión ............................................................................... 45 7. Conclusiones .......................................................................... 51 8. Aspectos bioéticos .................................................................. 52MaestríaMagíster en Ciencias Biomédica
    corecore