11 research outputs found

    Variable selection and predictive models in Big Data environments

    Get PDF
    Mención Internacional en el título de doctorIn recent years, the advances in data collection technologies have presented a difficult challenge by extracting increasingly complex and larger datasets. Traditionally, statistics methodologies treated with datasets where the number of variables did not exceed the number of observations, however, dealing with problems where the number of variables is larger than the number of observations has become more and more common, and can be seen in areas like economics, genetics, climate data, computer vision etc. This problem has required the development of new methodologies suitable for a high dimensional framework. Most of the statistical methodologies are limited to the study of averages. Least squares regression, principal component analysis, partial least squares... All these techniques provide mean based estimations, and are built around the key idea that the data is normally distributed. But this is an assumption that is usually unverified in real datasets, where skewness and outliers can easily be found. The estimation of other metrics like the quantiles can help providing a more complete image of the data distribution. This thesis is built around these two core ideas. The development of more robust, quantile based methodologies suitable for high dimensional problems. The thesis is structured as a compendium of articles, divided into four chapters where each chapter has independent content and structure but is nevertheless encompassed within the main objective of the thesis. First, Chapter 1 introduces basic concepts and results, assumed to be known or referenced in the rest of the thesis. A possible solution when dealing with high dimensional problems in the field of regression is the usage of variable selection techniques. In this regard, sparse group lasso (SGL) has proven to be a very effective alternative. However, the mathematical formulation of this estimator introduces some bias in the model, which means that it is possible that the variables selected by the model are not the truly significant ones. Chapter 2 studies the formulation of an adaptive sparse group lasso for quantile regression, a more flexible formulation that makes use of the adaptive idea, this is, the usage of adaptive weights in the penalization to help correcting the bias, improving this way variable selection and prediction accuracy. An alternative solution to the high dimensional problem is the usage of a dimension reduction technique like partial least squares. Partial least squares (PLS) is a methodology initially proposed in the field of chemometrics as an alternative to traditional least squares regression when the data is high dimensional or faces colinearity. It works by projecting the independent data matrix into a subspace of uncorrelated variables that maximize the covariance with the response matrix. However, being an iterative process based on least squares makes this methodology extremely sensitive to the presence of outliers or heteroscedasticity. Chapter 3 defines the fast partial quantile regression, a technique that performs a projection into a subspace where a quantile covariance metric is maximized, effectively extending partial least squares to the quantile regression framework. Another field where it is common to find high dimensional data is in functional data analysis, where the observations are functions measured along time, instead of scalars. A key technique in this field is functional principal component analysis (FPCA), a methodology that provides an orthogonal set of basis functions that best explains the variability in the data. However, FPCA fails capturing shifts in the scale of the data affecting the quantiles. Chapter 4 introduces the functional quantile factor model. A methodology that extends the concept of FPCA to quantile regression, obtaining a model that can explain the quantiles of the data conditional on a set of common functions. In Chapter 5, asgl, a Python package that solves penalized least squares and quantile regression models in low and high dimensional is introduced frameworks is introduced, filling a gap in the currently available implementations of these models. Finally, Chapter 6 presents the final conclusions of this thesis, including possible lines of research and future work.En los últimos años, los avances en las tecnologías de recopilación de datos han planteado un difícil reto al extraer conjuntos de datos cada vez más complejos y de mayor tamaño. Tradicionalmente, las metodologías estadísticas trataban con conjuntos de datos en los que el número de variables no superaba el número de observaciones, sin embargo, enfrentarse a problemas en los que el número de variables es mayor que el número de observaciones se ha convertido en algo cada vez más común, y puede verse en áreas como la economía, la genética, los datos relacionados con el clima, la visión por ordenador, etc. Este problema ha exigido el desarrollo de nuevas metodologías adecuadas para un marco de alta dimensión. La mayoría de las metodologías estadísticas se limitan al estudio de la media. Regresión por mínimos cuadrados, análisis de componentes principales, mínimos cuadrados parciales... Todas estas técnicas proporcionan estimaciones basadas en la media, y están construidas en torno a la idea clave de que los datos se distribuyen normalmente. Pero esta es una suposición que no suele verificarse en los conjuntos de datos reales, en los que es fácil encontrar asimetrías y valores atípicos. La estimación de otras métricas como los cuantiles puede ayudar a proporcionar una imagen más completa de la distribución de los datos. Esta tesis se basa en estas dos ideas fundamentales. El desarrollo de metodologías más robustas, basadas en cuantiles, adecuadas para problemas de alta dimensión. La tesis está estructurada como un compendio de artículos, divididos en cuatro capítulos en los que cada uno de ellos tiene un contenido y una estructura independientes pero que, sin embargo, se engloban dentro del objetivo principal de la tesis. En primer lugar, el Capítulo 1 introduce conceptos y resultados básicos, que se suponen conocidos o a los que se hace referencia en el resto de la tesis. Una posible solución cuando se trata con problemas de alta dimensión en el campo de la regresión es el uso de técnicas de selección de variables. En este sentido, el sparse group lasso (SGL) ha demostrado ser una alternativa muy eficaz. Sin embargo, la formulación matemática de este estimador introduce cierto sesgo en el modelo, lo que significa que es posible que las variables seleccionadas por el modelo no sean las verdaderamente significativas. El Capítulo 2 estudia la formulación de un adaptive sparse group lasso para la regresión cuantílica, una formulación más flexible que hace uso de la idea adaptive, es decir, el uso de pesos adaptativos en la penalización para ayudar a corregir el sesgo, mejorando así la selección de variables y la precisión de las predicciones. Una solución alternativa al problema de la alta dimensionalidad es el uso de una técnica de reducción de dimensión como los mínimos cuadrados parciales. Los mínimos cuadrados parciales (PLS por sus siglas en inglés) es una metodología definida inicialmente en el campo de la quimiometría como una alternativa a la regresión tradicional por mínimos cuadrados cuando los datos son de alta dimensión o tienen problemas de colinearidad. Funciona proyectando la matriz de datos independiente en un subespacio de variables no correlacionadas que maximiza la covarianza con la matriz de respuesta. Sin embargo, al ser un proceso iterativo basado en mínimos cuadrados, esta metodología es extremadamente sensible a la presencia de valores atípicos o heteroscedasticidad. El Capítulo 3 define el fast partial quantile regression, una técnica que realiza una proyección en un subespacio en el que se maximiza una métrica de covarianza cuantílica, extendiendo de forma efectiva los mínimos cuadrados parciales al marco de la regresión cuantílica. Otro campo en el que es habitual encontrar datos de alta dimensión es el del análisis de datos funcionales, en el que las observaciones son funciones medidas a lo largo del tiempo, en lugar de escalares. Una técnica clave en este campo es el análisis de componentes principales funcionales (FPCA por sus siglas en inglés), una metodología que proporciona una base ortogonal de funciones que explica la mayor cantidad posible de variabilidad en los datos. Sin embargo, el FPCA no capta los cambios de escala de los datos que afectan a los cuantiles. El Capítulo 4 presenta el functional quantile factor model. Una metodología que extiende el concepto de FPCA a la regresión cuantílica, obteniendo un modelo que puede explicar los cuantiles de los datos condicionados a un conjunto de funciones comunes. En el capítulo 5 asgl, un paquete para Python que resuelve modelos de mínimos cuadrados y regresión cuantílica penalizados en entornos de baja y alta dimensión es presentado, llenando un vacío en las implementaciones actualmente disponibles de estos modelos. Por último, el Capítulo 6 presenta las conclusiones finales de esta tesis, incluyendo posibles líneas de investigación y trabajo futuro.I want to acknowledge the financial support received by research grants and projects PIPF UC3M, ECO2015-66593-P (Ministerio de Economía y Competitividad, Spain) and PID2020-113961GB-I00 (Agencia Estatal de Investigación, Spain).Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de MadridPresidenta: María Luz Durban Reguera.- Secretaria: María Ángeles Gil Álvarez.- Vocal: Ying We

    Caracterización de los depósitos pleistocenos del paraje de La Coca (Aspe, Alicante)

    Get PDF
    En el presente estudio se aborda el análisis de los depósitos cuaternarios del paraje de La Coca, incluidos dentro del Paraje Natural Municipal de Los Aljezares en el término municipal de Aspe (Alicante). El interés de estos depósitos reside en la presencia de industria lítica antropizada asignada al Paleolítico medio, por lo que estos depósitos pueden ser considerados de edad Pleistoceno. La correcta interpretación de los sistemas sedimentarios que contienen dicha industria lítica antropizada puede ser crucial en la investigación del yacimiento arqueológico. Estudios previos en los depósitos cuaternarios del Pantano de Elche, a menos de 1km al sur del área de estudio, han observado la existencia de una diacronía entre el río Vinalopó y los depósitos cuaternarios cercanos. Este trabajo pretende comprobar si la diacronía observada en los estudios previos en la zona del Pantano de Elche se mantiene también en el paraje de La Coca. En los depósitos estudiados se ha observado la existencia de dos conjuntos principales de facies: i) facies predominantemente finas, que podrían interpretarse como llanuras arenosas con sectores palustres y zonas encharcadas de poca profundidad compatibles con partes distales de abanicos aluviales; y ii) facies predominantemente gruesas, que pueden ser relacionadas con partes proximales y medias de abanicos aluviales y con depósitos locales de tipo coluvión. Cartográficamente, estos dos conjuntos muestran una distribución de aporte concéntrico de sedimentos que no es compatible con la actual red de drenaje. Desde un punto de vista geomorfológico, estos depósitos muestran generalmente techos planos, los cuales se han relacionado con una superficie geomorfológica unitaria, ahora desmantelada por la actual red de drenaje del Vinalopó. Este conjunto de observaciones indica que los depósitos pleistocenos del paraje de La Coca no son compatibles con el sistema fluvial actual que configura el río Vinalopó, definiendo un sistema deposicional concéntrico similar al descrito previamente en los depósitos cuaternarios del área del Pantano de Elche situada más al sur

    Adaptive sparse group LASSO in quantile regression

    Full text link
    [EN] This paper studies the introduction of sparse group LASSO (SGL) to the quantile regression framework. Additionally, a more flexible version, an adaptive SGL is proposed based on the adaptive idea, this is, the usage of adaptive weights in the penalization. Adaptive estimators are usually focused on the study of the oracle property under asymptotic and double asymptotic frameworks. A key step on the demonstration of this property is to consider adaptive weights based on a initial root n-consistent estimator. In practice this implies the usage of a non penalized estimator that limits the adaptive solutions to low dimensional scenarios. In this work, several solutions, based on dimension reduction techniques PCA and PLS, are studied for the calculation of these weights in high dimensional frameworks. The benefits of this proposal are studied both in synthetic and real datasets.We appreciate the work of the referees that has contributed to substantially improve the scientific contributions of this work. In this research we have made use of Uranus, a supercomputer cluster located at University Carlos III of Madrid and funded jointly by EU-FEDER funds and by the Spanish Government via the National Projects No. UNC313-4E-2361, No. ENE2009-12213- C03-03, No. ENE2012-33219 and No. ENE2015-68265-P. This research was partially supported by research grants and Project ECO2015-66593-P from Ministerio de Economia, Industria y Competitividad, Project MTM2017-88708-P from Ministerio de Economia y Competitividad, FEDER funds and Project IJCI-2017-34038 from Agencia Estatal de Investigacion, Ministerio de Ciencia, Innovacion y Universidades.Mendez-Civieta, A.; Aguilera-Morillo, MC.; Lillo, RE. (2021). Adaptive sparse group LASSO in quantile regression. Advances in Data Analysis and Classification. 15:547-573. https://doi.org/10.1007/s11634-020-00413-8S54757315Chatterjee S, Banerjee, Arindam S, Ganguly AR (2011) Sparse Group Lasso for regression on land climate variables. In: IEEE 11th international conference on data mining workshops. IEEE, pp 1–8Chiang AP, Beck JS, Yen H-J, Tayeh MK, Scheetz TE, Swiderski RE, Nishimura DY, Braun TA, Kim K-YA, Huang J, Elbedour K, Carmi R, Slusarski DC, Casavant TL, Stone EM, Sheffield VC (2006) Homozygosity mapping with SNP arrays identifies TRIM32, an E3 ubiquitin ligase, as a Bardet-Biedl syndrome gene (BBS11). Proc Natl Acad Sci 103(16):6287–6292Chun H, Keleş S (2010) Sparse partial least squares regression for simultaneous dimension reduction and variable selection. J R Stat Soc Ser B Stat Methodol 72(1):3–25Ciuperca G (2017) Adaptive fused LASSO in grouped quantile regression. J Stat Theory Pract 11(1):107–125Ciuperca G (2019) Adaptive group LASSO selection in quantile models. Stat Pap 60(1):173–197Diamond S, Boyd S (2016) CVXPY: a Python-embedded modeling language for convex optimization. arXiv:1603.00943Domahidi A, Chu E, Boyd S (2013) ECOS: an SOCP solver for embedded systems. In: European control conference (ECC)Fan J, Li R (2001) Variable selection via nonconcave penalized likelihood and its oracle properties. J Am Stat Assoc 96(456):1348–1360Fan J, Peng H (2004) Nonconcave penalized likelihood with a diverging number of parameters. Ann Stat 32(3):928–961Friedman J, Hastie T, Tibshirani R (2010) A note on the group lasso and a sparse group lasso, pp 1–8. ArXiv:1001.0736Ghosh S (2011) On the grouped selection and model complexity of the adaptive elastic net. Stat Comput 21:451–462Huang J, Horowitz JL, Ma S (2008a) Asymptotic properties of bridge estimators in sparse high-dimensional regression models. Ann Stat 36(2):587–613Huang J, Ma S, Zhang C-H (2008b) Adaptive Lasso for sparse high-dimensional regression. Stat Sin 1(374):1–28Huber PJ, Ronchetti EM (2009) Robust statistics. Wiley series in probability and statistics, 2nd edn. Wiley, HobokenKim Y, Choi H, Oh HS (2008) Smoothly clipped absolute deviation on high dimensions. J Am Stat Assoc 103(484):1665–1673Koenker R (2005) Quantile regression. Cambridge University Press, CambridgeKoenker R, Bassett G (1978) Regression quantiles. Econometrica 46(1):33–50Laria JC, Aguilera-Morillo MC, Lillo RE (2019) An iterative sparse-group Lasso. J Comput Graph Stat 28:722–731Li Y, Zhu J (2008) L1_1-Norm quantile regression. J Comput Graph Stat 17(1):1–23Loh PL (2017) Statistical consistency and asymptotic normality for high-dimensional robust m-estimators. Ann Stat 45(2):866–896Nardi Y, Rinaldo A (2008) On the asymptotic properties of the group lasso estimator for linear models. Electron J Stat 2:605–633Poignard B (2018) Asymptotic theory of the adaptive Sparse Group Lasso. Ann Inst Stat Math 72:297–328Scheetz TE, Kim K-YA, Swiderski RE, Philp AR, Braun TA, Knudtson KL, Dorrance AM, DiBona GF, Huang J, Casavant TL, Sheffield VC, Stone EM (2006) Regulation of gene expression in the mammalian eye and its relevance to eye disease. Proc Natl Acad Sci 103(39):14429–14434Simon N, Friedman J, Hastie T, Tibshirani R (2013) A sparse-group lasso. J Comput Graph Stat 22(2):231–245Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP (2005) Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci 102(43):15545–15550Tibshirani R (1996) Regression shrinkage and selection via the lasso. J R Stat Soc Ser B (Methodol) 58(1):267–288Wang L, Wu Y, Li R (2012) Quantile regression for analyzing heterogeneity in ultra-high dimension. J Am Stat Assoc 107(497):214–222Wright J, Ma Y, Mairal J, Sapiro G, Huang TS, Yan S (2010) Sparse representation for computer vision and pattern recognition. Proc IEEE 98(6):1031–1044Wu Y, Liu Y (2009) Variable selection in quantile regression. Stat Sin 19(2):801–817Yahya Algamal Z, Hisyam Lee M (2019) A two-stage sparse logistic regression for optimal gene selection in high-dimensional microarray data classification. Adv Data Anal Classif 13:753–771Yuan M, Lin Y (2006) Model selection and estimation in regression with grouped variables. J R Stat Soc Ser B (Methodol) 68(1):49–67Zhao W, Zhang R, Liu J (2014) Sparse group variable selection based on quantile hierarchical Lasso. J Appl Stat 41(8):1658–1677Zhou N, Zhu J (2010) Group variable selection via a hierarchical lasso and its oracle property. Stat Interface 3:557–574Zou H (2006) The adaptive lasso and its oracle properties. J Am Stat Assoc 101(476):1418–1429Zou H, Hastie T, Tibshirani R (2006) Sparse principal component analysis. J Comput Graph Stat 15(2):265–28

    A quantile based dimension reduction technique

    Get PDF
    Partial least squares (PLS) is a dimensionality reduction technique used as an alternative to ordinary least squares (OLS) in situations where the data is colinear or high dimensional. Both PLS and OLS provide mean based estimates, which are extremely sensitive to the presence of outliers or heavy tailed distributions. In contrast, quantile regression is an alternative to OLS that computes robust quantile based estimates. In this work, the multivariate PLS is extended to the quantile regression framework, obtaining a theoretical formulation of the problem and a robust dimensionality reduction technique that we call fast partial quantile regression (fPQR), that provides quantilebased estimates. An efficient implementation of fPQR is also derived, and its performance is studied through simulation experiments and the chemometrics well known biscuit dough dataset, a real high dimensional example

    Quantile regression : a penalization approach

    Get PDF
    Sparse group LASSO (SGL) is a penalization technique used in regression problems where the covariates have a natural grouped structure and provides solutions that are both between and within group sparse. In this paper the SGL is introduced to the quantile regression (QR) framework, and a more flexible version, the adaptive sparse group LASSO (ASGL), is proposed. This proposal adds weights to the penalization improving prediction accuracy. Usually, adaptive weights are taken as a function of the original non-penalized solution model. This approach is only feasible in the n > p framework. In this work, a solution that allows using adaptive weights in high-dimensional scenarios is proposed. The benefits of this proposal are studied both in synthetic and real datasets.In this research we have made use of Uranus, a supercomputer cluster located at University Carlos III of Madrid and funded jointly by EU-FEDER funds and by the Spanish Government via the National Projects No. UNC313-4E- 2361, No. ENE2009-12213- C03-03, No. ENE2012-33219 and No. ENE2015- 68265-P. This research was partially supported by research grants and Project ECO2015-66593-P from Ministerio de Economía, Industria y Competitividad, Project MTM2017-88708-P from Ministerio de Economía y Competi- tividad, FEDER funds and Project IJCI-2017-34038 from Agencia Estatal de Investigación, Ministerio de Ciencia, Innovación y Universidades

    Vegetation pattern modulates ground arthropod diversity in semi-arid Mediterranean steppes

    Get PDF
    The ecological functioning of dryland ecosystems is closely related to the spatial pattern of the vegetation, which is typically structured in patches. Ground arthropods mediate key soil functions and ecological processes, yet little is known about the influence of dryland vegetation pattern on their abundance and diversity. Here, we investigate how patch size and cover, and distance between patches relate to the abundance and diversity of meso-and microarthropods in semi-arid steppes. We found that species richness and abundance of ground arthropods exponentially increase with vegetation cover, patch size, and patch closeness. The communities under vegetation patches mainly respond to patch size, while the communities in the bare-soil interpatches are mostly controlled by the average distance between patches, independently of the concurrent changes in vegetation cover. Large patches seem to play a critical role as reserve and source of ground arthropod diversity. Our results suggest that decreasing vegetation cover and/or changes in vegetation pattern towards small and over-dispersed vegetation patches can fast lead to a significant loss of ground arthropods diversity in drylands

    Pinturas rupestres esquemáticas del Bonete del Cura (Ciudad Rodrigo, Salamanca)

    Get PDF
    [ES] Con este trabajo damos a conocer un nuevo abrigo de arte rupestre esquemático en la provincia de Salamanca, término de Ciudad Rodrigo. Se ha comenzado por una descripción de las figuras que contiene el abrigo y que son en su mayoría arboriformes y antropomorfos, algunos de ellos con tocados u otros elementos suplementarios. En menor número: barras, ancoriformes, un cuadrúpedo y la aparición de cuatro motivos compuestos por elementos triangulares o subtriangulares y la parte superior de un antropomorfo. A continuación, estos motivos se han encuadrado en el resto del conjunto del arte esquemático, resaltando los elementos que poseen una mayor importancia, sea por representar motivos nuevos o característicos dentro del arte esquemático, sea por ser un elemento mayoritario del abrigo. Hemos terminado haciendo una correlación de este abrigo con los que a nuestro parecer poseen un mayor número de elementos de comparación en el resto de la Península.[FR] Nous faisons connaître par ce travail un nouvel abri d'art rupestre schématique dans la province de Salamanca, commune de Ciudad Rodrigo. On a commencé par une description des figures de l'abri et qui sont, la plupart des arboriformes et des antropomorphes, quelques uns avec des coiffes ou d'autres éléments supplémentaires. En nombre inférieur: des barres, des ancoriformes, un cuadrúpede et l'apparition de quatre motifs composés par des éléments triangulaires ou sous-triangulaires et la partie supérieure d'un antropomorphe. Ensuite, on a intégré ces motifs dans le reste de l'ensemble de l'art schématique, tout en faisant ressortir les éléments de plus grande importance, soit parce qu'ils représentent des motifs nouveaux ou caractéristiques de l'art schématique, soit parce que ce sont les éléments majoritaires de l'abri. Nous avons fini par faire une corrélation de cet abri avec ceux qui á notre avis possèdent un plus grand nombre d'éléments de comparaison dans le reste de la Péninsule

    Caracterización de los depósitos pleistocenos del paraje de La Coca (Aspe, Alicante)

    No full text
    En el presente estudio se aborda el análisis de los depósitos cuaternarios del paraje de La Coca, incluidos dentro del Paraje Natural Municipal de Los Aljezares en el término municipal de Aspe (Alicante). El interés de estos depósitos reside en la presencia de industria lítica antropizada asignada al Paleolítico medio, por lo que estos depósitos pueden ser considerados de edad Pleistoceno. La correcta interpretación de los sistemas sedimentarios que contienen dicha industria lítica antropizada puede ser crucial en la investigación del yacimiento arqueológico. Estudios previos en los depósitos cuaternarios del Pantano de Elche, a menos de 1km al sur del área de estudio, han observado la existencia de una diacronía entre el río Vinalopó y los depósitos cuaternarios cercanos. Este trabajo pretende comprobar si la diacronía observada en los estudios previos en la zona del Pantano de Elche se mantiene también en el paraje de La Coca. En los depósitos estudiados se ha observado la existencia de dos conjuntos principales de facies: i) facies predominantemente finas, que podrían interpretarse como llanuras arenosas con sectores palustres y zonas encharcadas de poca profundidad compatibles con partes distales de abanicos aluviales; y ii) facies predominantemente gruesas, que pueden ser relacionadas con partes proximales y medias de abanicos aluviales y con depósitos locales de tipo coluvión. Cartográficamente, estos dos conjuntos muestran una distribución de aporte concéntrico de sedimentos que no es compatible con la actual red de drenaje. Desde un punto de vista geomorfológico, estos depósitos muestran generalmente techos planos, los cuales se han relacionado con una superficie geomorfológica unitaria, ahora desmantelada por la actual red de drenaje del Vinalopó. Este conjunto de observaciones indica que los depósitos pleistocenos del paraje de La Coca no son compatibles con el sistema fluvial actual que configura el río Vinalopó, definiendo un sistema deposicional concéntrico similar al descrito previamente en los depósitos cuaternarios del área del Pantano de Elche situada más al sur

    Vegetation Pattern Modulates Ground Arthropod Diversity in Semi-Arid Mediterranean Steppes

    Get PDF
    The ecological functioning of dryland ecosystems is closely related to the spatial pattern of the vegetation, which is typically structured in patches. Ground arthropods mediate key soil functions and ecological processes, yet little is known about the influence of dryland vegetation pattern on their abundance and diversity. Here, we investigate how patch size and cover, and distance between patches relate to the abundance and diversity of meso-and microarthropods in semi-arid steppes. We found that species richness and abundance of ground arthropods exponentially increase with vegetation cover, patch size, and patch closeness. The communities under vegetation patches mainly respond to patch size, while the communities in the bare-soil interpatches are mostly controlled by the average distance between patches, independently of the concurrent changes in vegetation cover. Large patches seem to play a critical role as reserve and source of ground arthropod diversity. Our results suggest that decreasing vegetation cover and/or changes in vegetation pattern towards small and over-dispersed vegetation patches can fast lead to a significant loss of ground arthropods diversity in drylands.This work was supported by São Paulo Research Foundation (FAPESP, grants 2013/06196-4 and 2014/00631-3), by Coordination of Superior Level Staff Improvement—Brazil (CAPES)—Finance Code 001, and the projects DRYEX (CGL2014-59074-R) and DRYEX2 (CGL2017-89804-R), funded by the Spanish Ministry of Science, Innovation and Universities

    Fast partial quantile regression

    Full text link
    [EN] Partial least squares (PLS) is a dimensionality reduction technique used as an alternative to ordinary least squares (OLS) in situations where the data is colinear or high dimensional. Both PLS and OLS provide mean based estimates, which are extremely sensitive to the presence of outliers or heavy tailed distributions. In contrast, quantile regression is an alternative to OLS that computes robust quantile based estimates. In this work, the multivariate PLS is extended to the quantile regression framework, obtaining a theoretical formulation of the problem and a robust dimensionality reduction technique that we call fast partial quantile regression (fPQR), that provides quantile based estimates. An efficient implementation of fPQR is also derived, and its performance is studied through simulation experiments and the chemometrics well known biscuit dough dataset, a real high dimensional example.This research was partially supported by research grants and projects PID2020-113961GB-I00 and PID2019-104901RB-I00 from Agencia Estatal de Investigacion, Spain.Méndez-Civieta, Á.; Aguilera-Morillo, MC.; Lillo, RE. (2022). Fast partial quantile regression. Chemometrics and Intelligent Laboratory Systems. 223:1-8. https://doi.org/10.1016/j.chemolab.2022.1045331822
    corecore