2 research outputs found

    Predicting Viral Infection by Selecting Informative Biomarkers From Temporal High-Dimensional Gene Expression Data

    No full text
    Abstract—In order to more accurately predict an individual's health status, in clinical applications it is often important to perform analysis of high-dimensional gene expression data that varies with time. A major challenge in predicting from such temporal microarray data is that the number of biomarkers used as features is typically much larger than the number of labeled subjects. One way to address this challenge is to perform feature selection as a preprocessing step and then apply a classification method on selected features. However, traditional feature selection methods cannot handle multivariate temporal data without applying techniques that flatten temporal data into a single matrix in advance. In this study, a feature selection filter that can directly select informative features from temporal gene expression data is proposed. In our approach we measure the distance between multivariate temporal data from two subjects. Based on this distance, we define the objective function of temporal margin based feature selection to maximize each subject's temporal margin in its own relevant subspace. The experimental results on two real flu data sets provide evidence that our method outperforms the alternatives, which flatten the temporal data in advance. Keywords-high dimensional; temporal data; feature selection; margin; multivariate functional data I

    Diseño de una técnicamultivariada de procesamiento de datos para caracterización de estructuras estadística subyacentes aplicable a sistemas biomédicos indutriales

    Get PDF
    Las técnicas de secuenciación de próxima generación (NGS, por sus siglas en Inglés) permiten el análisis de numerosas cantidades de datos. Sin embargo, la comparación de estructuras de interacción en esos conjuntos de datos es aún un desafío, ya que los análisis de correlación tradicionales producen resultados espurios. Se desarrolla un método para caracterizar las diferencias en la estructura de correlación de conjuntos de datos de experimentos de secuenciación, que también permite determinar la contribución de las variables a esas diferencias. El método también es aplicable a sistemas industriales. Experimentos de simulación muestran que el método propuesto controla satisfactoriamente el error tipo I y II. Se valida el método con tablas de OTUs de experimentos secuenciación 16S rRNA, y con datos de operación de una red de distribución de gas natural.Incluye referencias bibliográficas
    corecore