2 research outputs found

    Penalized function-on-function partial leastsquares regression

    Get PDF
    This paper deals with the "function-on-function'" or "fully functional" linear regression problem. We address the problem by proposing a novel penalized Function-on-Function Partial Least-Squares (pFFPLS) approach that imposes smoothness on the PLS weights. Our proposal introduces an appropriate finite-dimensional functional space with an associated set of bases on which to represent the data and controls smoothness with a roughness penalty operator. Penalizing the PLS weights imposes smoothness on the resulting coefficient function, improving its interpretability. In a simulation study, we demonstrate the advantages of pFFPLS compared to non-penalized FFPLS. Our comparisons indicate a higher accuracy of pFFPLS when predicting the response and estimating the true coefficient function from which the data were generated. We also illustrate the advantages of our proposal with two case studies involving two well-known datasets from the functional data analysis literature. In the first one, we predict log precipitation curves from the yearly temperature profiles recorded in 35 weather stations in Canada. In the second case study, we predict the hip angle profiles during a gait cycle of children from their corresponding knee angle profiles

    Functional modeling techniques for high-dimensional data with complex structures

    No full text
    Mención Internacional en el título de doctorRecent technological advancements have increased the structural complexity of recorded data across various fields of research. Terms such as high-dimensional and Big Data have become commonplace among statisticians and data scientists. Analyzing such data requires specialized techniques tailored to the specific application. This thesis focuses on studying high-dimensional data using techniques from Functional Data Analysis (FDA). The thesis is structured as a compilation of three independent research articles, each presented in a separate chapter, that nonetheless share the goal of enhancing a particular functional regression model. Chapter 2 introduces our first contribution, stringing via Manifold Learning, ML-stringing for short. Our proposal is framed within a wider class of methods that map high-dimensional observations to the infinite space of functions, allowing the use of FDA. Stringing handles any high-dimensional data vector as scrambled realizations of an unknown stochastic process. Its essential feature is a rearrangement of the observed values. Originally, stringing is based on Unidimensional Scaling (UDS), an unsupervised technique that linearly reduces the dimension of the data vectors by preserving distances. Motivated by the linear nature of UDS, we aim to recover more complex relationships between covariates using Manifold Learning. The chapter includes simulation studies showing that ML-stringing achieves higher-quality orderings than UDS-stringing, improving the data’s functional representation. In the context of scalar-on-function regression, ML-stringing also leads to improvements in the estimated model. The chapter also presents an application to a colon cancer study that deals with high-dimensional gene expression arrays. Chapter 3 addresses the scalar-on-function regression problem using functional partial least squares (FPLS), focusing on functional data defined over complex domains that may have multiple dimensions and non-Euclidean structures. Here we introduce our second contribution, a penalized FPLS approach based on a Rank-1 approximation of the empirical sample covariance matrix between the response and the predictor; R1-FPLS for short. When the domain has a manifold topology, R1- FPLS solves the scalar-on-function regression through Finite Element Analysis, which provides interesting sparsity properties that make the algorithm computationally efficient even in the context of large datasets. The chapter includes simulation studies that compare the performance of the proposed R1-FPLS with other FPLS approaches from the literature, using functional data defined over one-dimensional and two-dimensional planar domains. We also apply our method to brain connectivity maps obtained from task-based functional Magnetic Resonance Images. In this case, the brain is viewed as a three-dimensional domain with a non-Euclidean structure. Our results show that using R1-FPLS to discriminate between schizophrenics and healthy patients based on the connectivity maps outperforms other recently proposed approaches. Chapter 4 introduces our third contribution; a novel penalized Function-on- Function Partial Least-Squares (pFFPLS) that solves the function-on-function linear regression problem. pFFPLS introduces an appropriate finite-dimensional functional space with an associated set of bases on which to represent the data and controls smoothness with a roughness penalty operator. Penalizing the FPLS weights imposes smoothness on the resulting coefficient function, improving its interpretability. The chapter compares pFFPLS with the non-penalized counterpart FFPLS. Through a simulation study, it is shown that pFFPLS provides a higher accuracy when predicting the response and the true coefficient function from which the data were generated. The chapter also includes two case studies involving two well-known datasets from the FDA literature. In the first application, we predict log precipitation curves from the yearly temperature profiles recorded in 35 weather stations in Canada. In the second one, we predict the hip angle profiles during a gait cycle of children from their corresponding knee angle profiles.Los recientes avances tecnológicos han llevado a un aumento en la complejidad estructural de los datos registrados en diversos campos de investigación. Términos como datos de alta dimensionalidad y Big Data se han vuelto comunes entre los estadísticos y científicos de datos. El análisis de dichos datos generalmente requiere técnicas especializadas adaptadas a cada problema. En esta tesis, nos centramos en el estudio de datos de alta dimensionalidad utilizando técnicas del Análisis de Datos Funcionales (FDA, por sus siglas en inglés). La tesis est´a estructurada como una compilación de tres artículos independientes, cada uno presentado en un capítulo separado, que aun así comparten el objetivo común de mejorar un modelo de regresión funcional específico. El Capítulo 2 introduce nuestra primera contribución, el “stringing” mediante Aprendizaje en Variedades (Manifold Learning, en inglés), que en esta tesis llamaremos ML-stringing. Nuestra propuesta se enmarca dentro de una clase más amplia de métodos que mapean observaciones de alta dimensionalidad al espacio de las funciones, permitiendo el uso de técnicas de FDA. Stringing entiende cada vector de datos de alta dimensionalidad como realizaciones desordenadas de un proceso estocástico desconocido. Su característica esencial es una reordenación de los valores observados. Originalmente, el stringing emplea Escalado Unidimensional (UDS, por sus siglas en inglés), una técnica no supervisada que reduce linealmente la dimensión de los vectores de datos preservando distancias entre los espacios de diferente dimensión. Motivados por la naturaleza lineal del UDS, nuestro objetivo es recuperar relaciones m´as complejas entre covariables utilizando Aprendizaje en Variedades. El capítulo incluye estudios de simulación que muestran que ML-stringing logra ordenamientos de mayor calidad que UDS-stringing, mejorando así la representación funcional de los datos. En el contexto de la regresión escalar-sobre-función, ML-stringing también conduce a mejoras en el modelo estimado. El capítulo también presenta una aplicación a un estudio de cáncer de colon donde los datos son vectores de expresión génica y, por tanto, tienen una alta dimensionalidad. El Capítulo 3 aborda el problema de regresión escalar-sobre-función utilizando Mínimos Cuadrados Parciales Funcional (FPLS, por sus siglas en inglés), con un enfoque en datos funcionales definidos en dominios complejos que pueden tener múltiples dimensiones y estructuras no euclídeas. En este capítulo presentamos nuestra segunda contribución, el R1-FPLS, que es un método penalizado de Mínimos Cuadrados Parciales Funcional basado en una aproximación de Rango 1 de la matriz de covarianza empírica entre la respuesta y el predictor. Cuando el dominio tiene una topología de variedad, R1-FPLS resuelve la regresión escalar-sobre-función mediante el Análisis de Elementos Finitos, lo que proporciona propiedades interesantes de esparsidad que hacen que el algoritmo sea computacionalmente eficiente incluso en el contexto de datos de alta dimensión. El capítulo incluye estudios de simulación que comparan el rendimiento de nuestra propuesta R1-FPLS con otros enfoques de FPLS de la literatura, utilizando datos funcionales definidos en dominios unidimensionales y bidimensionales planos. También aplicamos nuestro método a mapas de conectividad cerebral obtenidos de imágenes de resonancia magnética funcional obtenidas durante una tarea. En este caso, el cerebro se ve como un dominio tridimensional con una estructura no euclídea. Nuestros resultados demuestran el potencial del R1-FPLS para discriminar entre esquizofrénicos y pacientes sanos utilizando los mapas de conectividad como predictores funcionales. El Capítulo 4 introduce nuestra tercera contribución, un novedoso método penalizado de Mínimos Cuadrados Parciales Función-sobre-Función (pFFPLS, por sus siglas en inglés) para resolver el problema de regresión lineal función-sobre-función. pFFPLS introduce un espacio funcional definido por un conjunto de bases en las cuales representar los datos, y controla la suavidad con un operador de penalización de rugosidad. Al penalizar los pesos del FPLS, se impone suavidad en la función coeficiente del modelo, mejorando así su interpretabilidad. El capítulo compara pFFPLS con su contraparte no penalizada, FFPLS. A través de un estudio de simulación, se muestra que pFFPLS proporciona una mayor precisión al predecir la respuesta funcional y la verdadera función coeficiente a partir de la cual se generaron los datos. El capítulo también incluye dos estudios de casos que involucran dos conjuntos de datos muy conocidos en literatura de FDA. En la primera aplicación, se predicen curvas de precipitación logarítmica a partir de perfiles anuales de temperatura registrados en 35 estaciones meteorológicas en Canadá. En el segundo, se predice el perfil del ángulo de la cadera durante un ciclo de marcha en niños a partir de los perfiles correspondientes del ángulo de la rodilla.Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de MadridPresidente: Pedro Francisco Delicado Useros.- Secretaria: María Luz Durbán Reguera.- Vocal: Philip Tzvi Reis
    corecore