2 research outputs found
Penalized function-on-function partial leastsquares regression
This paper deals with the "function-on-function'" or "fully functional" linear regression problem. We address the problem by proposing a novel penalized Function-on-Function Partial Least-Squares (pFFPLS) approach that imposes smoothness on the PLS weights. Our proposal introduces an appropriate finite-dimensional functional space with an associated set of bases on which to represent the data and controls smoothness with a roughness penalty operator. Penalizing the PLS weights imposes smoothness on the resulting coefficient function, improving its interpretability. In a simulation study, we demonstrate the advantages of pFFPLS compared to non-penalized FFPLS. Our comparisons indicate a higher accuracy of pFFPLS when predicting the response and estimating the true coefficient function from which the data were generated. We also illustrate the advantages of our proposal with two case studies involving two well-known datasets from the functional data analysis literature. In the first one, we predict log precipitation curves from the yearly temperature profiles recorded in 35 weather stations in Canada. In the second case study, we predict the hip angle profiles during a gait cycle of children from their corresponding knee angle profiles
Functional modeling techniques for high-dimensional data with complex structures
Mención Internacional en el título de doctorRecent technological advancements have increased the structural complexity of
recorded data across various fields of research. Terms such as high-dimensional and
Big Data have become commonplace among statisticians and data scientists. Analyzing
such data requires specialized techniques tailored to the specific application. This
thesis focuses on studying high-dimensional data using techniques from Functional
Data Analysis (FDA). The thesis is structured as a compilation of three independent
research articles, each presented in a separate chapter, that nonetheless share the
goal of enhancing a particular functional regression model.
Chapter 2 introduces our first contribution, stringing via Manifold Learning,
ML-stringing for short. Our proposal is framed within a wider class of methods
that map high-dimensional observations to the infinite space of functions, allowing
the use of FDA. Stringing handles any high-dimensional data vector as scrambled
realizations of an unknown stochastic process. Its essential feature is a rearrangement
of the observed values. Originally, stringing is based on Unidimensional Scaling
(UDS), an unsupervised technique that linearly reduces the dimension of the data
vectors by preserving distances. Motivated by the linear nature of UDS, we aim to
recover more complex relationships between covariates using Manifold Learning. The
chapter includes simulation studies showing that ML-stringing achieves higher-quality
orderings than UDS-stringing, improving the data’s functional representation. In the
context of scalar-on-function regression, ML-stringing also leads to improvements
in the estimated model. The chapter also presents an application to a colon cancer
study that deals with high-dimensional gene expression arrays.
Chapter 3 addresses the scalar-on-function regression problem using functional
partial least squares (FPLS), focusing on functional data defined over complex
domains that may have multiple dimensions and non-Euclidean structures. Here we
introduce our second contribution, a penalized FPLS approach based on a Rank-1 approximation of the empirical sample covariance matrix between the response and
the predictor; R1-FPLS for short. When the domain has a manifold topology, R1-
FPLS solves the scalar-on-function regression through Finite Element Analysis, which
provides interesting sparsity properties that make the algorithm computationally
efficient even in the context of large datasets. The chapter includes simulation
studies that compare the performance of the proposed R1-FPLS with other FPLS
approaches from the literature, using functional data defined over one-dimensional
and two-dimensional planar domains. We also apply our method to brain connectivity
maps obtained from task-based functional Magnetic Resonance Images. In this case,
the brain is viewed as a three-dimensional domain with a non-Euclidean structure.
Our results show that using R1-FPLS to discriminate between schizophrenics and
healthy patients based on the connectivity maps outperforms other recently proposed
approaches.
Chapter 4 introduces our third contribution; a novel penalized Function-on-
Function Partial Least-Squares (pFFPLS) that solves the function-on-function linear
regression problem. pFFPLS introduces an appropriate finite-dimensional functional
space with an associated set of bases on which to represent the data and controls
smoothness with a roughness penalty operator. Penalizing the FPLS weights imposes
smoothness on the resulting coefficient function, improving its interpretability. The
chapter compares pFFPLS with the non-penalized counterpart FFPLS. Through a
simulation study, it is shown that pFFPLS provides a higher accuracy when predicting
the response and the true coefficient function from which the data were generated.
The chapter also includes two case studies involving two well-known datasets from
the FDA literature. In the first application, we predict log precipitation curves from
the yearly temperature profiles recorded in 35 weather stations in Canada. In the
second one, we predict the hip angle profiles during a gait cycle of children from
their corresponding knee angle profiles.Los recientes avances tecnológicos han llevado a un aumento en la complejidad
estructural de los datos registrados en diversos campos de investigación. Términos
como datos de alta dimensionalidad y Big Data se han vuelto comunes entre los
estadísticos y científicos de datos. El análisis de dichos datos generalmente requiere
técnicas especializadas adaptadas a cada problema. En esta tesis, nos centramos en
el estudio de datos de alta dimensionalidad utilizando técnicas del Análisis de Datos
Funcionales (FDA, por sus siglas en inglés). La tesis est´a estructurada como una
compilación de tres artículos independientes, cada uno presentado en un capítulo
separado, que aun así comparten el objetivo común de mejorar un modelo de regresión
funcional específico.
El Capítulo 2 introduce nuestra primera contribución, el “stringing” mediante
Aprendizaje en Variedades (Manifold Learning, en inglés), que en esta tesis llamaremos
ML-stringing. Nuestra propuesta se enmarca dentro de una clase más amplia de
métodos que mapean observaciones de alta dimensionalidad al espacio de las funciones,
permitiendo el uso de técnicas de FDA. Stringing entiende cada vector de datos
de alta dimensionalidad como realizaciones desordenadas de un proceso estocástico
desconocido. Su característica esencial es una reordenación de los valores observados.
Originalmente, el stringing emplea Escalado Unidimensional (UDS, por sus siglas
en inglés), una técnica no supervisada que reduce linealmente la dimensión de los
vectores de datos preservando distancias entre los espacios de diferente dimensión.
Motivados por la naturaleza lineal del UDS, nuestro objetivo es recuperar relaciones
m´as complejas entre covariables utilizando Aprendizaje en Variedades. El capítulo
incluye estudios de simulación que muestran que ML-stringing logra ordenamientos
de mayor calidad que UDS-stringing, mejorando así la representación funcional de
los datos. En el contexto de la regresión escalar-sobre-función, ML-stringing también
conduce a mejoras en el modelo estimado. El capítulo también presenta una aplicación a un estudio de cáncer de colon donde los datos son vectores de expresión génica y,
por tanto, tienen una alta dimensionalidad.
El Capítulo 3 aborda el problema de regresión escalar-sobre-función utilizando
Mínimos Cuadrados Parciales Funcional (FPLS, por sus siglas en inglés), con un
enfoque en datos funcionales definidos en dominios complejos que pueden tener
múltiples dimensiones y estructuras no euclídeas. En este capítulo presentamos
nuestra segunda contribución, el R1-FPLS, que es un método penalizado de Mínimos
Cuadrados Parciales Funcional basado en una aproximación de Rango 1 de la matriz
de covarianza empírica entre la respuesta y el predictor. Cuando el dominio tiene una
topología de variedad, R1-FPLS resuelve la regresión escalar-sobre-función mediante
el Análisis de Elementos Finitos, lo que proporciona propiedades interesantes de
esparsidad que hacen que el algoritmo sea computacionalmente eficiente incluso en el
contexto de datos de alta dimensión. El capítulo incluye estudios de simulación que
comparan el rendimiento de nuestra propuesta R1-FPLS con otros enfoques de FPLS
de la literatura, utilizando datos funcionales definidos en dominios unidimensionales y
bidimensionales planos. También aplicamos nuestro método a mapas de conectividad
cerebral obtenidos de imágenes de resonancia magnética funcional obtenidas durante
una tarea. En este caso, el cerebro se ve como un dominio tridimensional con una
estructura no euclídea. Nuestros resultados demuestran el potencial del R1-FPLS
para discriminar entre esquizofrénicos y pacientes sanos utilizando los mapas de
conectividad como predictores funcionales.
El Capítulo 4 introduce nuestra tercera contribución, un novedoso método penalizado
de Mínimos Cuadrados Parciales Función-sobre-Función (pFFPLS, por sus
siglas en inglés) para resolver el problema de regresión lineal función-sobre-función.
pFFPLS introduce un espacio funcional definido por un conjunto de bases en las
cuales representar los datos, y controla la suavidad con un operador de penalización
de rugosidad. Al penalizar los pesos del FPLS, se impone suavidad en la función coeficiente
del modelo, mejorando así su interpretabilidad. El capítulo compara pFFPLS
con su contraparte no penalizada, FFPLS. A través de un estudio de simulación,
se muestra que pFFPLS proporciona una mayor precisión al predecir la respuesta
funcional y la verdadera función coeficiente a partir de la cual se generaron los datos.
El capítulo también incluye dos estudios de casos que involucran dos conjuntos de
datos muy conocidos en literatura de FDA. En la primera aplicación, se predicen
curvas de precipitación logarítmica a partir de perfiles anuales de temperatura registrados
en 35 estaciones meteorológicas en Canadá. En el segundo, se predice el perfil
del ángulo de la cadera durante un ciclo de marcha en niños a partir de los perfiles
correspondientes del ángulo de la rodilla.Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de MadridPresidente: Pedro Francisco Delicado Useros.- Secretaria: María Luz Durbán Reguera.- Vocal: Philip Tzvi Reis