3 research outputs found

    Finite Mixture Models based on Scale Mixtures of Skew-Normal distributions applied to serological data

    Get PDF
    Serological data can be described as a mixture of distributions, with each mixture component representing a serological population (e.g. seronegative and seropositive population). In seroepidemiological studies of infectious diseases, mixture models with Normal distribution are mostly used, which implies that the components that make up the mixture are approximately symmetric. However, it has been observed that, especially in seropositive populations, it is possible to observe skewness to the left, leading to the violation of the assumption of normality underlying the data. Thus, and in order to capture the possible skewness in serological data, the family of Scale Mixtures of Skew-Normal (SMSN) distributions is used, of which the Skew-Normal distribution and the Skew-t distribution are particular cases. In the case of the Skew-t distribution, being a heavy-tailed distribution, it allows capturing the possible existence of outliers. In addition to the models used to describe the behavior of the serological data, the issue of estimating the cutoff point for classifying an individual as seropositive is explored. In this sense, two perspectives on the problem are presented: one in which the true state of the disease is unknown; another in which this state is known a priori. The generalization of the use of a cutoff point without statistical methodology to support the estimation of this point may have consequences in the seroprevalence of a population, that is, in the proportion of seropositive individuals. Thus, three methods based on mixture models are proposed in this work for estimating the cutoff point when the true infection status is unknown

    Transição para a “vida adulta”: segmentação de jovens europeus

    Get PDF
    A transição para a vida adulta é uma fase do ciclo de vida que tem vindo a motivar estudos em vários domínios das Ciências Sociais. Segundo vários teóricos, o impacto sobre a vida dos jovens das profundas mudanças ocorridas ao longo dos últimos 60 anos justifica uma análise da fase de transição para a chamada vida adulta. Vários investigadores consideram o período entre os 18 e os 25 anos, outros alargaram a amostra até aos 29 anos, não existindo, contudo, consenso quanto aos limites desta fase do ciclo de vida. A justificação para a actual conceptualização holística e dinâmica das fases de transição entre a adolescência e o período adulto é suportada pelo impacto estruturante de factores socio-económicos como desemprego, dificuldade na autonomia financeira e residência, e prolongamento dos estudos. Aplicando a estatística multivariada aos dados do European Social Survey (módulo de 2006), este artigo visa contribuir para a caracterização e medida da heterogeneidade presente na fase de transição para a vida adulta. Através de modelos de mistura finita segmentou-se a amostra com base nas dez dimensões dos valores de Schwartz (1995) e nas variáveis de caracterização demográfica e familiar. Para a escolha do número de segmentos foram considerados dois critérios de informação, o BIC e AIC, ambos apontando para a escolha da solução de 6 segmentos. Verifica-se que indivíduos com perfis demográficos e familiares diferentes evidenciam valores e perspectivas de vida semelhantes.The transition stage to the adulthood has been enhanced several studies from the different Social Science domains. According to several authors, the impact on the lives of young people of the deep changes over the past 60 years justifies a review of the phase of transition to the adulthood. Several researchers have been focused on the period from 18 to 25 years old, while others enlarged to the 29 years old. However, it isn‟t consensual the limit of age of that stage of the Life Cycle. The structural impact of the social-economic factors, like the unemployment, the difficulties in getting financial autonomy and a own residence and the late conclusion of the academic studies, are the main factors to justify the holistic and dynamic of the recent framework of this stage of life between the adolescence and the adult life. Applying a multivariate statistical analysis to the 2006 European Social Survey data, this article aims to contribute for characterization and measure of the heterogeneity present in transition to the adulthood stage of life. Trough finite mixture models the sample was segmented based on ten dimensions of Schwartz‟s values and on demographic and familiar variables. To choose the number of segments it were considered two information criteria, BIC and AIC, both suggesting the choice of six segments. It verifies that individuals with different demographic and familiar profiles have the same values and perspectives‟ life

    Evolutionary algorithms for gausian mixture models with and without constraints

    No full text
    Nesta tese, são estudados algoritmos para agrupamento de dados, com particular ênfase em Agrupamento de Dados com Restrições, no qual, além dos objetos a serem agrupados, são fornecidos pelo usuário algumas informações sobre o agrupamento desejado. Como fundamentação para o agrupamento, são considerados os modelos de mistura finitos, em especial, com componentes gaussianos, usualmente chamados de modelos de mistura de gaussianas. Dentre os principais problemas que os algoritmos desenvolvidos nesta tese de doutorado buscam tratar destacam-se: (i) estimar parâmetros de modelo de mistura de gaussianas; (ii) como incorporar, de forma eficiente, restrições no processo de aprendizado de forma que tanto os dados quanto as restrições possam ser adicionadas de forma online; (iii) estimar, via restrições derivadas de conceitos pré-determinados sobre os objetos (usualmente chamados de classes), o número de grupos destes conceitos. Como ferramenta para auxiliar no desenvolvimento de soluções para tais problemas, foram utilizados algoritmos evolutivos que operam com mais de uma solução simultaneamente, além de utilizarem informações de soluções anteriores para guiar o processo de busca. Especificamente, foi desenvolvido um algoritmo evolutivo baseado na divisão e união de componentes para a estimação dos parâmetros de um modelo de mistura de gaussianas. Este algoritmo foi comparado com o algoritmo do mesmo gênero considerado estado-da-arte na literatura, apresentando resultados competitivos e necessitando de menos parâmetros e um menor custo computacional. Nesta tese, foram desenvolvidos dois algoritmos que incorporam as restrições no processo de agrupamento de forma online. Ambos os algoritmos são baseados em algoritmos bem-conhecidos na literatura e apresentaram, em comparações empíricas, resultados melhores que seus antecessores. Finalmente, foram propostos dois algoritmos para se estimar o número de grupos por classe. Ambos os algoritmos foram comparados com algoritmos reconhecidos na literatura de agrupamento de dados com restrições, e apresentaram resultados competitivos ou melhores que estes. A estimação bem sucedida do número de grupos por classe pode auxiliar em diversas tarefas de mineração de dados, desde a sumarização dos dados até a decomposição de problemas de classificação em sub-problemas potencialmente mais simples.In the last decade, researchers have been giving considerable attention to the field of Constrained Clustering. Algorithms in this field assume that along with the objects to be clustered, the user also provides some constraints about which kind of clustering (s)he prefers. In this thesis, two scenarios are studied: clustering with and without constraints. The developments are based on finite mixture models, namely, models with Gaussian components, which are usually called Gaussian Mixture Models (GMMs). In this context the main problems addressed are: (i) parameter estimation of GMMs; (ii) efficiently integrating constraints in the learning process allowing both constraints and the data to be added in the modeling in an online fashion; (iii) estimating, by using constraints derived from pre-determined concepts (usually named classes), the number of clusters per concept. Evolutionary algorithms were adopted to develop solutions for such problems. These algorithms analyze more than one solution simultaneously and use information provided by previous solutions to guide the search process. Specifically, an evolutionary algorithm based on procedures that perform splitting and merging of components to estimate the parameters of a GMM was developed. This algorithm was compared to an algorithm considered as the state-of-the-art in the literature, obtaining competitive results while requiring less parameters and being more computationally efficient. Besides the aforementioned contributions, two algorithms for online constrained clustering were developed. Both algorithms are based on well known algorithms from the literature and get better results than their predecessors. Finally, two algorithms to estimate the number of clusters per class were also developed. Both algorithms were compared to well established algorithms from the literature of constrained clustering, and obtained equal or better results than the ones obtained by the contenders. The successful estimation of the number of clusters per class is helpful to a variety of data mining tasks, such as data summarization and problem decomposition of challenging classification problems
    corecore