27 research outputs found

    The normal distribution in some constrained sample spaces

    Get PDF
    Phenomena with a constrained sample space appear frequently in practice. This is the case, for example, with strictly positive data, or with compositional data, such as percentages or proportions. If the natural measure of difference is not the absolute one, simple algebraic properties show that it is more convenient to work with a geometry different from the usual Euclidean geometry in real space, and with a measure different from the usual Lebesgue measure, leading to alternative models that better fit the phenomenon under study. The general approach is presented and illustrated using the normal distribution, both on the positive real line and on the D-part simplex. The original ideas of McAlister in his introduction to the lognormal distribution in 1879, are recovered and updated.Peer Reviewe

    The normal distribution in some constrained sample spaces

    Get PDF
    Phenomena with a constrained sample space appear frequently in practice. This is the case, for example, with strictly positive data, or with compositional data, such as percentages or proportions. If the natural measure of difference is not the absolute one, simple algebraic properties show that it is more convenient to work with a geometry different from the usual Euclidean geometry in real space, and with a measure different from the usual Lebesgue measure, leading to alternative models that better fit the phenomenon under study. The general approach is presented and illustrated using the normal distribution, both on the positive real line and on the D-part simplex. The original ideas of McAlister in his introduction to the lognormal distribution in 1879, are recovered and updated

    Log-ratio methods in mixture models for compositional data sets

    Get PDF
    When traditional methods are applied to compositional data misleading and incoherent results could be obtained. Finite mixtures of multivariate distributions are becoming increasingly important nowadays. In this paper, traditional strategies to fit a mixture model into compositional data sets are revisited and the major difficulties are detailed. A new proposal using a mixture of distributions defined on orthonormal log-ratio coordinates is introduced. A real data set analysis is presented to illustrate and compare the different methodologies

    On the interpretation of differences between groups for compositional data

    Get PDF
    Social polices are designed using information collected in surveys; such as the Catalan TimeUse survey. Accurate comparisons of time use data among population groups are commonlyanalysed using statistical methods. The total daily time expended on different activities by asingle person is equal to 24 hours. Because this type of data are compositional, its sample spacehas particular properties that statistical methods should respect. The critical points required tointerpret differences between groups are provided and described in terms of log-ratio methods.These techniques facilitate the interpretation of the relative differences detected in multivariateand univariate analysis

    Models de distribució sobre el símplex

    Get PDF
    Les dades composicionals són vectors les components dels quals representen proporcions respecte d'un total, i per tant estan sotmesos a la restricció que la suma de les seves components és una constant. L'espai natural per a vectors amb D components és el símplex SD. En l'àmbit de la modelització, ens trobem amb una gran dificultat: no coneixem prou classes de distribucions que permetin modelitzar adequadament la majoria dels conjunts de dades composicionals. En els anys 80, Aitchison proposa una metodologia per treballar amb dades composicionals que hem anomenat metodologia MOVE, ja que es basa en transformacions. En el tema específic de la modelització, Aitchison utilitza la transformació logquocient additiva per projectar les composicions a l'espai real i posteriorment les modelitza amb una distribució normal. D'aquesta manera introdueix la distribució normal logística additiva. Tot i les bones propietats algebraiques que presenta aquesta distribució ens trobem amb dues dificultats: el model normal no pot modelitzar alguns conjunts de dades transformades, especialment quan presenten una certa asimetria. Per altra banda, aquesta família de distribucions no és tancada respecte de l'amalgama (o suma) de components. El 1996 Azzalini i Dalla-Valle introdueixen la distribució normal asimètrica a RD. Es tracta d'una generalització del model normal amb un paràmetre de forma que regula la asimetria de la distribució. Utilitzant la teoria de les transformacions i la distribució normal asimètrica, hem definit una nova distribució que hem anomenat normal asimètrica logística additiva. Aquesta és especialment indicada per modelitzar conjunts de dades composicionals amb un biaix moderat, i consegüentment ens aporta la solució a una de les dificultats de la distribució normal logística additiva. Estudiant amb més detall aquest nou model, hem comprovat que presenta unes bones propietats algebraiques. Per altra banda i mitjançant simulacions, hem pogut il·lustrar l'efecte que tenen els paràmetres de la distribució normal logística additiva inicial en la distribució de l'amalgama i hem pogut comprovar que, en certs casos, el model normal asimètric proporciona un bon ajust per al logquocient de l'amalgama. Una eina útil en la modelització de vectors aleatoris són els tests de bondat d'ajust. Malauradament, no és gens freqüent trobar a la literatura tests de bondat d'ajust aplicables a la distribució normal asimètrica. Així doncs, hem desenvolupat uns tests per aquesta distribució i hem realitzat un estudi de potència utilitzant diverses distribucions alternatives. La metodologia que hem escollit és la de D'Agostino i Stephens que consisteix en mesurar la diferència entre la funció de distribució empírica (calculada mitjançant la mostra) i la funció de distribució teòrica (la normal asimètrica). L'estructura d'espai euclidià del símplex ens ha suggerit una nova metodologia que hem anomenat STAY ja que no es basa en les transformacions. Sabem que és equivalent utilitzar les operacions pròpies de SD que aplicar les operacions de l'espai real a les coordenades de les composicions respecte d'una base ortonormal. Sobre aquestes coordenades hem definit el model normal i el model normal asimètric a SD i hem realitzat un estudi comparatiu amb els models normal logístic additiu i normal asimètric logístic additiu. Si bé en determinades situacions aquesta nova metodologia dóna resultats totalment equivalents als obtinguts amb la tècnica de les transformacions, en altres aporta canvis importants. Per exemple, ha permès expressar directament sobre el símplex conceptes bàsics de l'estadística clàssica, com el concepte d'esperança o de variància. Donat que no existeixen treballs previs en aquesta direcció, proposem un exemple il·lustratiu en el cas univariant. Sobre les coordenades respecte d'una base unitària, hem definit el model normal a R+ i hem realitzat una comparació amb el model lognormal obtingut mitjançant la transformació logarítmica.Compositional data are vectors whose components represent proportions of some whole and this is the reason why they are subject to the unit-sum constraint of its components. Therefore, a suitable sample space for compositional data is the unit simplex SD. The modelling of compositional data has a great problem: the lack of enough flexible models. In the eighties Aitchison developed a methodology to work with compositional data that we have called MOVE methodology. It is based on the transformation of compositional data from SD to the real space and the transformed data is modelled by a multivariate normal distribution. The additive logratio transformation gives rice to the additive logistic normal model which exhibits rich properties. Unfortunately, sometimes a multivariate normal model cannot properly fit the transformed data set, especially when it presents some skewness. Also the additive logistic normal family is not closed under amalgamation of components. In 1996 Azzalini and Dalla Valle introduced the skew normal distribution: a family of distributions on the real space, including the multivariate normal distribution, but with an extra parameter which allows the density to have some skewness. Emulating Aitchison, we have combined the logistic normal approach with the skew-normal distribution to define a new class of distributions on the simplex: the additive logistic skew-normal class. We apply it to model compositional data sets when the transformed data presents some skewness. We have proved that this class of distributions has good algebraic properties. We have also studied the adequacy of the logistic skew-normal distribution to model amalgamations of additive logistic normal vectors. Simulation studies show that in some cases our distribution can provide a reasonable fit. A useful tool in the study of the modelisation of vectors is the test of goodness-of-fit. Unfortunately we don't find in the literature tests of goodness-of-fit for the skew-normal distribution. Thus, we have developed these kinds of tests and we have completed the work with a power study. We have chosen the R.B. D'Agostino and M.A. Stephens methodology that consists in computing the difference between the empirical distribution function (computed from the sample) and the theoretic distribution function (skew-normal). Parallel studies have recently developed the metric space structure of SD. This has suggested us a new methodology to work with compositional data sets that we have called STAY approach because it is not based on transformations. The theory of algebra tells us that any D dimensional real vector space with an inner product has an orthonormal basis to which the coefficients behave like usual elements in RD. Our suggestion is to apply to these coefficients all the standard methods and results available for real random vectors. Thus, on the coefficients with respect to an orthonormal basis we have defined the normal model in SD and the skew-normal model in SD and we have compared them with the additive logistic normal and the additive logistic skew-normal model respectively. From a probabilistic point of view, the laws on SD defined using the STAY methodology are identical to the laws defined using the MOVE methodology. But the STAY methodology has provided some important changes. For example, it has allowed us to express directly over the simplex some basic concepts like the expected value or the variance of a random composition. As we have not found in the literature previous work in this direction, we have started this study with an illustrative example. Over the coefficients with respect to a unitary basis we have defined the normal model in the positive real line and we have compared it with the lognormal model, defined with the logarithmic transformation

    Fundamentals of convex optimization for compositional data

    Get PDF
    Many of the most popular statistical techniques incorporate optimisation problems in their inner workings. A convex optimisation problem is defined as the problem of minimising a convex function over a convex set. When traditional methods are applied to compositional data, misleading and incoherent results could be obtained. In this paper, we fill a gap in the specialised literature by introducing and rigorously defining novel concepts of convex optimisation for compositional data according to the Aitchison geometry. Convex sets and convex functions on the simplex are defined and illustrated

    The Dirichlet distribution with respect to the Aitchison measure on the simplex - a first approach

    No full text
    The algebraic-geometric structure of the simplex, known as Aitchison geometry, is usedto look at the Dirichlet family of distributions from a new perspective. A classicalDirichlet density function is expressed with respect to the Lebesgue measure on realspace. We propose here to change this measure by the Aitchison measure on thesimplex, and study some properties and characteristic measures of the resulting densityGeologische Vereinigung; Institut d’Estadística de Catalunya; International Association for Mathematical Geology; Patronat de l’Escola Politècnica Superior de la Universitat de Girona; Fundació privada: Girona, Universitat i Futur; Càtedra Lluís Santaló d’Aplicacions de la Matemàtica; Consell Social de la Universitat de Girona; Ministerio de Ciencia i Tecnología

    Compositional amalgamations and balances: a critical approach

    No full text
    The amalgamation operation is frequently used to reduce the number of parts of compositional data but it is a non-linear operation in the simplex with the usual geometry,the Aitchison geometry. The concept of balances between groups, a particular coordinate system designed over binary partitions of the parts, could be an alternative to theamalgamation in some cases. In this work we discuss the proper application of bothconcepts using a real data set corresponding to behavioral measures of pregnant sowsGeologische Vereinigung; Institut d’Estadística de Catalunya; International Association for Mathematical Geology; Càtedra Lluís Santaló d’Aplicacions de la Matemàtica; Generalitat de Catalunya, Departament d’Innovació, Universitats i Recerca; Ministerio de Educación y Ciencia; Ingenio 2010

    Estadística en l'entorn informàtic: d'un ensenyament tradicional a l'ABP utilitzant la plataforma ACME

    No full text
    L’aprenentatge basat en problemes (ABP) es fonamenta en plantejar situacions que els alumnes probablement es trobaran en la vida real. Un ABP es caracteritza per tenir problemes acuradament seleccionats i dissenyats que requereixen l’adquisició de coneixement crític, habilitat en la resolució de problemes, estratègies d’aprenentatge autodirigides i capacitat de treball en grup. El projecte ACME (Avaluació Continuada i Millora de l’Ensenyament) té com a objectiu principal implementar un sistema eficient d’avaluació i treball continuat, mitjançant l’assignació de problemes de manera personalitzada per a cada alumne, oferint un sistema d’ajuda per a resoldre’ls, facilitant la comunicació professor-alumne i el seguiment i l’avaluació dels alumnes. En aquest treball es presenta una experiència d’adaptació a l’Espai Europeu d’Educació Superior (EEES) de les assignatures d’estadística de les enginyeries tècniques informàtiques de l’Escola Politècnica Superior de la UdG. Aquesta es basa en una concepció diferent de la manera d’ensenyar i aprendre l’estadística mitjançant la concreció de les competències i l’establiment de diverses activitats. Ens centrarem únicament en l’aplicació de la metodologia ABP i en la utilització de la plataforma e-learning ACM

    Modelling count data using the logratio-normal-multinomial distribution

    Get PDF
    The logratio-normal-multinomial distribution is a count data model resulting from compounding a multinomial distribution for the counts with a multivariate logratio-normal distribution for the multinomial event probabilities. However, the logratio-normal-multinomial probability mass function does not admit a closed form expression and, consequently, numerical approximation is required for parameter estimation. In this work, different estimation approaches are introduced and evaluated. We concluded that estimation based on a quasi-Monte Carlo Expectation-Maximisation algorithm provides the best overall results. Building on this, the performances of the Dirichlet-multinomial and logratio-normal-multinomial models are compared through a number of examples using simulated and real count data
    corecore