    Functional Factorial K-means Analysis

    A new procedure for simultaneously finding the optimal cluster structure of multivariate functional objects and finding the subspace to represent the cluster structure is presented. The method is based on the kk-means criterion for projected functional objects on a subspace in which a cluster structure exists. An efficient alternating least-squares algorithm is described, and the proposed method is extended to a regularized method for smoothness of weight functions. To deal with the negative effect of the correlation of coefficient matrix of the basis function expansion in the proposed algorithm, a two-step approach to the proposed method is also described. Analyses of artificial and real data demonstrate that the proposed method gives correct and interpretable results compared with existing methods, the functional principal component kk-means (FPCK) method and tandem clustering approach. It is also shown that the proposed method can be considered complementary to FPCK.Comment: 39 pages, 17 figure

    Investigating swimming technical skills by a double partition clustering of multivariate functional data allowing for dimension selection

    Investigating technical skills of swimmers is a challenge for performance improvement, that can be achieved by analyzing multivariate functional data recorded by Inertial Measurement Units (IMU). To investigate technical levels of front-crawl swimmers, a new model-based approach is introduced to obtain two complementary partitions reflecting, for each swimmer, its swimming pattern and its ability to reproduce it. Contrary to the usual approaches for functional data clustering, the proposed approach also considers the information of the residuals resulting from the functional basis decomposition. Indeed, after decomposing into functional basis both the original signal (measuring the swimming pattern) and the signal of squared residuals (measuring the ability to reproduce the swimming pattern), the method fits the joint distribution of the coefficients related to both decompositions by considering dependency between both partitions. Modeling this dependency is mandatory since the difficulty of reproducing a swimming pattern depends on its shape. Moreover, a sparse decomposition of the distribution within components that permits a selection of the relevant dimensions during clustering is proposed. The partitions obtained on the IMU data aggregate the kinematical stroke variability linked to swimming technical skills and allow relevant biomechanical strategy for front-crawl sprint performance to be identified

    Análisis de datos funcionales aplicado en electroencefalogramas: agrupamiento por k-medias funcional.

    El análisis de datos funcionales se basa en el estudio de la función que describe la variabilidad de un conjunto de datos en un espacio de n muestras, y dentro de sus modelos se encuentra el análisis de conglomerados por k-medias funcional. Dado que la actividad cerebral responde a una función de onda de la carga eléctrica de las neuronas sobre el tiempo, observamos la oportunidad de aplicar el análisis de datos funcionales a este tipo de registros. El objetivo de este proyecto es describir la aplicabilidad del análisis de conglomerados por k-medias funcional para clasificación de la actividad cerebral en ratas Norvegicus Wistar. Se realizó la conversión de los registros en funciones de onda en bases de Fourier, las cuales fueron procesadas con análisis de componentes principales funcionales, algoritmo de k-medias funcional (k=6) y un análisis de correspondencias entre los conglomerados y las fases de actividad registradas manualmente en el hipnograma. Los conglomerados obtenidos hacen una categorización no supervisada consistente, especialmente respecto a los atributos de frecuencia y regularidad de las ondas; elementos a tener en cuenta para la clasificación de señales. El análisis de datos funcionales es aplicable a la clasificación de registros de electroencefalograma, dado que toma un dato que es n-dimensional y permite manejarlo como un único valor (una función de onda) y así ser procesado con diferentes técnicas de minería de datos

    Functional data clustering: a survey

    International audienceThe main contributions to functional data clustering are reviewed. Most approaches used for clustering functional data are based on the following three methodologies: dimension reduction before clustering, nonparametric methods using specific distances or dissimilarities between curves and model-based clustering methods. These latter assume a probabilistic distribution on either the principal components or coefficients of functional data expansion into a finite dimensional basis of functions. Numerical illustrations as well as a software review are presented.Nous présentons dans cet article une revue des méthodes de classification automatique pour données fonctionelles. Ces techniques peuvent être classées en trois catégories: les méthodes procédant à une étape de réduction de dimension avant la classification, les méthodes non paramétriques qui utilisent des techniques de classification automatique classiques couplées à des distances ou dissimilarités spécifiques aux données fonctionnelles, et enfin, les techniques à base de modèles génératifs. Ces dernières supposent un modèle probabiliste soit sur les scores d'une analyse en composantes principales fonctionnelle, soit sur les coefficients des approximations des courbes dans une base de fonctions de dimension finie. Une illustration numérique ainsi qu'une revue des logiciels disponibles sont également présentées

    Clustering multivariate functional data in group-specific functional subspaces

    International audienceWith the emergence of numerical sensors in many aspects of every- day life, there is an increasing need in analyzing multivariate functional data. This work focuses on the clustering of such functional data, in order to ease their modeling and understanding. To this end, a novel clustering technique for multivariate functional data is presented. This method is based on a func- tional latent mixture model which fits the data in group-specific functional subspaces through a multivariate functional principal component analysis. A family of parsimonious models is obtained by constraining model parameters within and between groups. An EM algorithm is proposed for model inference and the choice of hyper-parameters is addressed through model selection. Nu- merical experiments on simulated datasets highlight the good performance of the proposed methodology compared to existing works. This algorithm is then applied to the analysis of the pollution in French cities for one year

    Cluster analysis with cellwise trimming and applications to robust clustering of curves

    In this work, we propose a robust Cluster Analysis methodology based on cell trimming as an extension to a recently introduced robust version of Principal Component Analysis. This new approach allows for cellwise trimming in cluster analysis, which is more reasonable than traditional casewise trimming when the problem's dimension is large. This type of trimming avoids an unnecessary loss of information when only a few cells of the entirely trimmed observations are atypical. An algorithm is proposed to apply this approach. This algorithm is particularized to the interesting case of functional cluster analysis. Simulations and applications to real data sets are given to illustrate the proposed methods.This research was partially supported by Spanish Ministerio de Economía y Competitividad, Grant MTM2017- 86061-C2-1-P, and by Consejería de Educación de la Junta de Castilla y León and FEDER, Grant VA005P17 and VA002G18

    Técnicas estadísticas multivariantes y su utilidad en el análisis de datos funcionales

    Trabajo Fin de Grado. Grado en Matemáticas. Cuso académico 2020-2021[ES]El análisis multivariante hace referencia a las metodologías, estadísticas y matemáticas, diseñadas para el estudio de datos que provienen de la medida de varias variables sobre una muestra de observaciones; esto es, de carácter multidimensional, analizadas conjuntamente. El Análisis de Datos Funcionales (FDA) se basa en la transformación de observaciones discretas en funciones de datos continuos, aplicando sobre ellas métodos del análisis estadístico para descubrir patrones latentes de información. Las técnicas clásicas de la estadística multivariante han tenido que ser adaptadas a este campo de estudio, reciente en la literatura.. Se plantea en este trabajo una revisión bibliográfica y definición teórica de las principales técnicas multivariantes del análisis de datos funcional, como el Análisis de Componentes Principales Funcional, mostrando su utilidad en el análisis de un conjunto de datos real.[EN]Multivariate analysis refers to statistical and mathematical methodologies designed for the study of data derived from the measurement of several variables on a sample of observations; that is, multidimensional in nature, analyzed jointly. Functional Data Analysis (FDA) is based on the transformation of discrete observations into functions of continuous data, applying statistical analysis methods to discover latent patterns of information. The classical techniques of multivariate statistics have had to be adapted to this field of study, which is new in the literature. This paper presents a literature review and theoretical definition of the main multivariate techniques of functional data analysis, such as Functional Principal Component Analysis, showing its usefulness in the analysis of a real data se

    Relación entre características de las víctimas del conflicto armado interno y la distribución territorial de su lugar de residencia en Bogotá D.C.

    El conflicto armado en Colombia ha tenido incidencia en Bogotá, manifestándose principalmente en la recepción de personas en situación de desplazamiento forzado y su ubicación en diferentes localidades de la ciudad como lugares de residencia. Este proyecto tiene como fin presentar un estudio sobre las principales características que inciden en que las víctimas del conflicto armado se ubiquen en una u otra localidad del Distrito Capital. Para describir dicha situación se recurre a la técnica de análisis discriminante múltiple con el objetivo de identificar qué variables discriminan más respecto a las localidades de residencia como variable dependiente. Con ello se pretende identificar qué características tener en cuenta a la hora de trazar estrategias de focalización de la política pública distrital de víctimas