30 research outputs found

    Size of random Galois lattices and number of frequent itemsets

    Get PDF
    19 pagesWe compute the mean and the variance of the size of the Galois lattice built from a random matrix with i.i.d. Bernoulli(p) entries. Then, obseving that closed frequent itemsets are in bijection with winning coalitions, we compute the mean and the variance of the number of closed frequent itemsets. This can be of interest for mining association rules

    Estimation du seuil de vitamine D qui peut induire une stimulation de la sécrétion de la parathormone chez des femmes africaines vivant en région parisienne

    No full text
    L'algorithme EM a été utilisé pour estimer la distribution de la iPTH comme mélange de Gaussiennes et l'algorithme SEMc pour estimer la distribution de la 25OHD, dont les valeurs inférieures à 17,5 nmol/l étaient censurées à 17,5nmol/l. Le seuil de levée de taux de iPTH est évalué à partir de la fonction de régression de l'iPTH par rapport à la 25OHD. Pour estimer cette fonction nous avons utilisé les estimations précédentes de mélange de Gaussiennes afin écarter les observations statistiquement extrêmes et améliorer le R2. La méthode de régression choisie est une méthode non paramétrique à noyaux où la forme de la courbe s'adapte aux données. Nous avons utilisé une version récente de cette méthode implémentée dans le logiciel R version « 2.10 » package « np ». Plusieurs types de noyaux ont été testés et leur paramètre de lissage sélectionné par critère de pénalité. Finalement, le seuil de levée proposé ( 48 mol/L +/- 2) a été, lorsque l'on a fait décroître la 25OHD, la première valeur de 25OHD à partir de laquelle la fonction de régression estimée est strictement croissante. Par Bootstrap, on obtient une région de confiance de 95% de la fonction de régression

    Clustering and mixtures of processes

    No full text
    Nous proposons une méthode de classification basée sur l'estimation de mélanges de lois, le point nouveau étant que les unités statistiques sont décrites par des lois de probabilité. Les composantes du mélange sont des processus de Dirichlet, des processus Gamma pondérés normalisés ou des processus de Kraft utilisés en satististique non paramétrique Bayesienne. Les mélanges obtenus par des algorithmes appliqués aux marginales des composantes en dimension finie convergent vers le mélange souhaité lorsque la dimension augmente car les composantes sont orthogonales grâce à un théorème de Kakutani et leur support sont alors les classes recherchées.We propose a clustering method based on the estimation of mixtures of probability distributions, the new point being that the statistical units are described by probability distributions. The components of the mixtures are Dirichlet processes, normalized weighted Gamma processes, and Kraft processes. Mixtures obtained by applying some algorithms to the finite dimensional distributions of the components converge to the desired mixture as the dimension increases, since the components are mutually singular due to a theorem of Kakutani. The desired clusters are then the support of these components.ou

    EDS de cascades avec régimes et à priori de dirichlet

    No full text
    Le cadre mathématique de notre travail est l estimation statistique Bayésienne de mélanges complexes de lois à partir de données temporelles qui sont supposées suivre localement une équation différentielle stochastique (EDS) en milieu aléatoire. L EDS considérée a été introduite par Schmitt et Marsan pour modéliser la dissipation d énergie due à l évolution de la vitesse du vent en milieu turbulent. Cette EDS appelée ici EDS de cascades, dépend de deux paramètres supposés constants, représentant l un un facteur d échelle de la cascade et l autre un coefficient d intermittence. Cependant des estimations montrent que ces paramètres changent avec l environnement. Nous proposons dans cette thèse, une extension aux milieux aléatoires du modèle de l EDS de cascades, en supposant que ses deux paramètres sont régis par une chaîne de Markov à temps continu dont les états représentent les divers régimes atmosphériques. L originalité de notre travail consiste à placer, comme loi a priori, un Processus de Dirichlet sur l espace des trajectoires de la chaîne et à proposer une méthode d estimation spécifique à cette EDF et à ce nouveau modèle, méthode testée aussi bien sur des données simulées que sur des données réelles. Nous mettons au point un algorithme de type Gibbs sampling adapté aux données temporelles qui classifie sur une même trajectoire les différents états de la chaîne en utilisant notamment un schéma stick-breaking approximant le processus de Dirichlet. Des calculs délicats de lois a posteriori ainsi qu une majoration de l erreur d approximation sont présentésCascade Stochastic Differential Equation (SDE), a continuous time model for energy dissipation in turbulence, is a generalization of the Yaglom discrete cascade model. We extend this SDE to a model in random environment by assuming that its two parameters are switched by a continuous time Markov chain whose states represent the states of the environment. Moreover, a Dirichlet process is placed as a prior on the space of sample paths of this chain. We propose a Bayesian estimation method of this model which is tested both on simulated data and on real dataPARIS-DAUPHINE-BU (751162101) / SudocSudocFranceF

    Characterization and Stochastic Modeling of Wind Speed Sequences

    No full text
    International audienceWind energy production is very sensitive to turbulent wind, in particular when wind power variations range from few seconds to 1 hour, are considered. Indeed rapid changes in the local meteorological condition as observed in tropical climate can provoke large variations of wind speed. Consequently the electric grid security can be jeopardized due to these fluctuations. This is particularly the case of island networks as in the Guadeloupean archipelago (French West Indies) where the installed 20 MW wind power already represents 11% of the electrical consumption. From 1 million wind sequences of duration 10 minutes, sampled at 1 Hz during the trade season, we proceed toward two objectives: i) the characterization of the wind speed sequences, ii) the dynamical simulation of the wind sequences using Langevin equation

    Classification of wind speed distributions using a mixture of Dirichlet mixtures

    No full text
    International audienceWind energy production is very sensitive to instantaneous wind speed fluctuations. Thus rapid variation of wind speed due to changes in the local meteorological conditions can lead to electrical power variations of the order of the nominal power output. The high variability of this renewable energy source can caused a disruptive effect on power quality and reliability, in non-interconnected island networks as in Guadeloupe (French West Indies). To palliate these difficulties, it is essential to identify and characterize the wind speed distribution over very short time intervals. This allows anticipating the eventuality of power shortage or power surge. Therefore, it is of interest to categorize wind speed fluctuations into distinct classes and to estimate the probability of a distribution to belong to a class. This paper presents a method for classifying wind speed distributions by estimating a finite mixture of Dirichlet distributions. The SAEM algorithm that we use provides a fine distinction between three wind speed distribution classes. It is a new nonparametric method for wind speed classification

    Modèles hiérarchiques de Dirichlet à temps continu

    No full text
    Nous étudions les processus de Dirichlet dont le paramètre est une mesure proportionnelle à la loi d'un processus stochastique temporel, par exemple un mouvement Brownien ou un processus de sauts Markoviens. Nous les utilisons pour proposer des modèles hiérarchiques bayésiens basés sur des équations différentielles stochastiques en milieu aléatoire. Nous proposons une méthode pour estimer les paramètres de tels modèles et nous l'illustrons sur l'équation de Black-Scholes en milieu aléatoire.ORLEANS-BU Sciences (452342104) / SudocSudocFranceF

    Characterization and stochastic modelling of wind speed sequences

    No full text
    International audienc
    corecore