172 research outputs found

    Cubes convexes

    Full text link
    In various approaches, data cubes are pre-computed in order to answer efficiently OLAP queries. The notion of data cube has been declined in various ways: iceberg cubes, range cubes or differential cubes. In this paper, we introduce the concept of convex cube which captures all the tuples of a datacube satisfying a constraint combination. It can be represented in a very compact way in order to optimize both computation time and required storage space. The convex cube is not an additional structure appended to the list of cube variants but we propose it as a unifying structure that we use to characterize, in a simple, sound and homogeneous way, the other quoted types of cubes. Finally, we introduce the concept of emerging cube which captures the significant trend inversions. characterizations

    Caractérisation de registres de langue par extraction de motifs séquentiels émergents

    Get PDF
    International audienceLanguage registers are the highly perceptible characteristic of written or spoken communication. In this paper we present a methodology to automatically characterize language registers using statistical tool named "emerging sequential patterns". Our approach is presented in two steps : the first one exhibits the relevance of the chosen statistical tool from artificial texts ; the second one shows that the characteristic patterns of the language registers from real data can be extracted by using this statistical tool. Experimental results show the quality of our methodology

    Fouille de données pour la stylistique : cas des motifs séquentiels émergents

    Get PDF
    Editeurs : Anne Dister, Dominique Longrée, Gérald Purnelle.ISBN : 978-2-9601246-0-6.International audienceIn this paper, we study the use of data mining techniques for stylistic analysis, from a linguistic point of view, by considering emerging sequential patterns. First, we show that mining sequential patterns of words with gapconstraints gives new relevant linguistic patterns with respect to patterns built on state-of-the-art n-grams. Then, we investigate how sequential patterns of itemsets can provide more generic linguistic patterns. We validate our approach both from a quantitative and a linguistic point of view by conducting experiments on three corpora of various types of French texts (poetry, letters, and fiction, respectively). By considering more particularly poetic texts, we show that characteristic linguistic patterns can be identified using data mining techniques.Dans cet article, nous présentons une étude sur l'utilisation de méthodes de fouille de données pour l'analyse stylistique - d'un point de vue linguistique - en considérant des motifs séquentiels émergents. Nous montrons tout d'abord que la fouille de motifs séquentiels de mots en utilisant la contrainte gap permet d'obtenir de nouveaux patrons linguistiques pertinents par rapport aux patrons construits à partir de n-grammes. Nous étudions ensuite l'utilisation de motifs séquentiels d'itemsets pour produire des patrons linguistiques plus généraux. Nous validons notre approche d'un point de vue quantitatif et d'un point de vue linguistique, en réalisant des expérimentations sur trois corpus français correspondant à différents genres de texte (la poésie, les correspondances et les romans, respectivement). En considérant plus particulièrement les textes poétiques, nous montrons que les techniques de fouille de données employées permettent d'identifier des patrons linguistiques caractéristiques

    Génération des règles d'association : treillis de concepts denses

    Get PDF
    La fouille de données est l'extraction non triviale d'informations implicites, inconnues et utiles à partir des données (Piatetsky-Shapiro & Frawley, 1991). Plus récemment, la notion de systèmes de gestion de base de données inductive (SGBDI) propose l'union de la base de données traditionnelle à la fouille de données et d'une base de motifs ou patrons de données. Ces derniers sont les agents fondamentaux dans les SGBDI. Dans ce mémoire le motif examiné est le concept formel. Cependant, pour un ensemble de données (nommé contexte formel dans l'AFC) de grande taille où les données sont fortement corrélées, l'extraction peut être difficile à cause des problèmes de combinatoire inhérente à cette structure. Il est vrai que l'extraction de la collection des concepts formels fréquents, donc un iceberg plutôt qu'un treillis, est une solution. Cependant, d'une part, pour un seuil de fréquence trop faible, l'extraction des concepts formels fréquents peut demeurer difficile et la combinatoire de l'extraction demeure. D'autre part, les utilisateurs pourraient préférer conserver le treillis mais appliquer une certaine relaxation sur le formalisme des concepts formels. Cette relaxation se ferait en acceptant des exceptions dans les concepts dont les seuils sur les exceptions seraient choisis par l'utilisateur. En dernier lieu, le contexte formel pourrait bien avoir des erreurs dans ses transactions. Ces erreurs pourraient donc être la cause du nombre indu de concepts formels extraits. Une relaxation au niveau de l'extraction des concepts formels pourrait être une solution à ce problème. Notre contribution se situe au niveau d'un motif en particulier et de son mode d'extraction. Ce mémoire propose donc un concept tolérant des exceptions bornées par des seuils, soit les concepts denses et explore la possibilité d'extraire un tel motif par l'algorithme incrémentaI par cardinalité. En dépit du fait que le concept ne soit plus formel mais tolérant des exceptions, les principales notions de l'analyse formelle de concepts, (e.g. la relation de précédence, le treillis) sont fortement désirées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Concepts formels, Concepts denses, Treillis de concepts formels, Analyse formelle de concepts, Concepts tolérant des exceptions, Algorithme d'extraction de concepts, Représentation condensée

    Des motifs séquentiels aux motifs hiérarchiques : l’apport des arbres lexico-syntaxiques récurrents pour le repérage des routines discursives

    Get PDF
    Cet article propose une réflexion à la fois théorique et méthodologique sur les objets de la phraséologie étendue, qui s’intéresse à des unités préfabriquées du discours au-delà des critères de figement. Plus précisément, nous tentons de clarifier le concept général de motif, ainsi que celui, plus spécifique, de routine discursive. Nous proposons ensuite de comparer deux approches méthodologiques différentes pour l’identification des routines en corpus : une méthode hiérarchique, basée sur le repérage d’arbres lexico-syntaxiques récurrents (ALR), et la méthode séquentielle classique des segments répétés (SR) ou n-grams. Nous montrons, au travers d’une étude sur corpus, que la méthode des ALR présente un réel intérêt pour le repérage des routines et des collocations, mais que les SR semblent plus adaptés et plus simples à mettre en œuvre pour des locutions figées ou des constructions syntaxiques impliquant des lexèmes grammaticaux – le modèle syntaxique des ALR nécessitant une adaptation pour pouvoir identifier ces cas.This article proposes a theoretical and methodological reflection in the field of extended phraseology, which focuses on prefabricated units of discourse. More precisely, we try to clarify the concepts of motif and discursive routine. We propose to compare two different methodological approaches for the identification of routines in corpora: a hierarchical method based on the identification of Recurrent Lexico-syntactic Trees (RLT) and the classical sequential n-gram method. We show, through a corpus study, that the RLT method has a real interest in spotting routines and collocations, but that the n-grams seem more adapted and easier to implement for frozen locutions or syntactic constructions. The underlying syntactic model of RLT would require some adaptation to be able to identify these latter cases

    Extraction de relations spatio-temporelles à partir des données environnementales et de la santé

    Get PDF
    Thanks to the new technologies (smartphones, sensors, etc.), large amounts of spatiotemporal data are now available. The associated database can be called spatiotemporal databases because each row is described by a spatial information (e.g. a city, a neighborhood, a river, etc.) and temporal information (e.g. the date of an event). This huge data is often complex and heterogeneous and generates new needs in knowledge extraction methods to deal with these constraints (e.g. follow phenomena in time and space).Many phenomena with complex dynamics are thus associated with spatiotemporal data. For instance, the dynamics of an infectious disease can be described as the interactions between humans and the transmission vector as well as some spatiotemporal mechanisms involved in its development. The modification of one of these components can trigger changes in the interactions between the components and finally develop the overall system behavior.To deal with these new challenges, new processes and methods must be developed to manage all available data. In this context, the spatiotemporal data mining is define as a set of techniques and methods used to obtain useful information from large volumes of spatiotemporal data. This thesis follows the general framework of spatiotemporal data mining and sequential pattern mining. More specifically, two generic methods of pattern mining are proposed. The first one allows us to extract sequential patterns including spatial characteristics of data. In the second one, we propose a new type of patterns called spatio-sequential patterns. This kind of patterns is used to study the evolution of a set of events describing an area and its near environment.Both approaches were tested on real datasets associated to two spatiotemporal phenomena: the pollution of rivers in France and the epidemiological monitoring of dengue in New Caledonia. In addition, two measures of quality and a patterns visualization prototype are also available to assist the experts in the selection of interesting patters.Face à l'explosion des nouvelles technologies (mobiles, capteurs, etc.), de grandes quantités de données localisées dans l'espace et dans le temps sont désormais disponibles. Les bases de données associées peuvent être qualifiées de bases de données spatio-temporelles car chaque donnée est décrite par une information spatiale (e.g. une ville, un quartier, une rivière, etc.) et temporelle (p. ex. la date d'un événement). Cette masse de données souvent hétérogènes et complexes génère ainsi de nouveaux besoins auxquels les méthodes d'extraction de connaissances doivent pouvoir répondre (e.g. suivre des phénomènes dans le temps et l'espace). De nombreux phénomènes avec des dynamiques complexes sont ainsi associés à des données spatio-temporelles. Par exemple, la dynamique d'une maladie infectieuse peut être décrite par les interactions entre les humains et le vecteur de transmission associé ainsi que par certains mécanismes spatio-temporels qui participent à son évolution. La modification de l'un des composants de ce système peut déclencher des variations dans les interactions entre les composants et finalement, faire évoluer le comportement global du système. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d'exploiter au mieux l'ensemble des données disponibles. Tel est l'objectif de la fouille de données spatio-temporelles qui correspond à l'ensemble de techniques et méthodes qui permettent d'obtenir des connaissances utiles à partir de gros volumes de données spatio-temporelles. Cette thèse s'inscrit dans le cadre général de la fouille de données spatio-temporelles et l'extraction de motifs séquentiels. Plus précisément, deux méthodes génériques d'extraction de motifs sont proposées. La première permet d'extraire des motifs séquentiels incluant des caractéristiques spatiales. Dans la deuxième, nous proposons un nouveau type de motifs appelé "motifs spatio-séquentiels". Ce type de motifs permet d'étudier l'évolution d'un ensemble d'événements décrivant une zone et son entourage proche. Ces deux approches ont été testées sur deux jeux de données associées à des phénomènes spatio-temporels : la pollution des rivières en France et le suivi épidémiologique de la dengue en Nouvelle Calédonie. Par ailleurs, deux mesures de qualité ainsi qu'un prototype de visualisation de motifs sont été également proposés pour accompagner les experts dans la sélection des motifs d'intérêts

    Visions de la complexité. Le démon de Laplace dans tous ses états

    Get PDF
    Nous distinguons trois visions de la complexité afin de clarifier les contours de la recherche dans ce domaine. Nous utilisons le démon de Laplace comme référence pour présenter ces visions. La vision 1 brise le rêve du démon de Laplace en identifiant des systèmes particuliers qui lui résistent en mathématiques, physique et informatique. La vision 2 propose une nouvelle version du rêve de Laplace fondée sur la disponibilité récente de grandes quantités de données et de nouvelles technologies de programmation, de stockage et de calcul. La vision 3 met le démon face au défi de simuler la subjectivité et ses effets collectifs. (Résumé d'auteur

    Chaos quantique et randomisation dans une chaîne avec blocage de Rydberg

    Get PDF
    Selon les lois de la thermodynamique un système isolé à N-corps est supposé évoluer vers un état d’équilibre thermodynamique. Ce fait repose sur l’hypothèse fondamentale que les systèmes complexes peuvent atteindre n’importe quel état de l’espace des phases en un temps raisonnable, ce qui n’est possible que si leur évolution est chaotique. Les difficultés surviennent dès lors que l’on cherche une description quantique : la mécanique quantique interdit en effet une telle dynamique chaotique. De plus, même si dans la plupart des cas la thermalisation survient bel et bien, certains systèmes quantiques à N-corps ont été découverts qui résistent au processus de thermalisation. Pour résoudre ce paradoxe, l’intrication semble être un ingrédient essentiel. Dans ce mémoire on espère pouvoir répondre à ces questions fondamentales dans le cadre d’un phénomène appelé "cicatrices quantiques à N-corps", récemment observé dans des simulateurs à atomes froids. Dans ces expériences, en initialisant le système dans un état non-intriqué très ordonné, de fortes contraintes locales donnent naissance à une dynamique non-triviale caractérisée par des oscillations de longues durée de vie et une thermalisation très lente. En utilisant un modèle simple qui reproduit ce phénomène nous sommes capable de simuler la dynamique quantique et de l’étudier par le prisme de l’intrication. Pour cela nous sondons la structure fine de l’intrication au cours du temps à l’aide d’outils statistiques issus de la théorie des matrices aléatoires. Nos résultats montrent que bien que la dynamique ne soit pas générique, elle présente tout de même certaines caractéristiques universelles

    Images du temps dans les manuels scolaires : recherche-création pour comprendre les rapports entre représentations et savoirs en physique

    Full text link
    Mémoire en recherche-création, associé à un programme de maîtrise individualisé dirigé en cotutelle. Département de physique et département de communication.Les milieux de production et de diffusion des savoirs sont marqués par une omniprésence des modalités visuelles de représentation, et la physique n’y fait pas exception. Ce mémoire de recherche-création en physique et communication explore la place et le fonctionnement de l’image, et de la relation texte-image, dans des dispositifs de médiation des connaissances appartenant à cette discipline scientifique. Après un retour historique sur la notion de temps en physique, je poursuis en dirigeant l’attention vers les images du temps objectif tout particulièrement. Le temps objectif, par la pluralité de ses compréhensions et représentations en physique, mais aussi par sa relation particulière aux images que l’on assume atemporelles, s’arrime bien aux motifs de ce travail. Huit manuels de physique standards sont analysés pour comprendre et catégoriser les types et les fonctions des images. Pour ce faire, j’effectue d’abord une analyse sémiotique des images. Avec les résultats, je développe une classification de six catégories d’images, ce qui me permet d’ordonner et de mettre en valeur leur richesse sémiotique. J’analyse ensuite les textes (titres et passages textuels référant aux images) par deux méthodes : 1) une analyse quantifié avec l’écriture d’un programme Python qui automatise la recherche de mots clés et 2) une lecture proche de ces textes pour en soutirer la façon dont les auteurs qualifient leurs images. J’incorpore une dimension créative supplémentaire à ma démarche en réalisant deux visualisations des concepts et thèmes émergents de l’analyse. Je propose ainsi une interprétation des résultats par une carte des images du temps objectif et une image qui aborde l’ambiguïté du discours des auteurs, la subordination du langage textuel ainsi que la négociation du statut de l’image entre modalité de représentation dévaluée et dispositif de présentation objectif. Tout au long de ce travail, j’intègre les questionnements de ma recherche dans ma propre démarche, en produisant de nombreuses figures pour analyser et interpréter les concepts, ce qui me permet d’expérimenter moi-même avec le visuel en tant que modalité de production de savoirs. À travers la poursuite d’une meilleure compréhension du fonctionnement épistémologique des images en physique, je propose des pistes méthodologiques pour travailler au croisement d’une science naturelle, de la communication et la culture visuelle.Knowledge production and dissemination environments are marked by the omnipresence of visual modes of representation, and physics is no exception. This research-creation project in physics and communication explores the place and functioning of the image, and of the text-image relationship, in knowledge mediation devices belonging to this scientific discipline. After a historical overview on the concept of time in physics, I continue by directing attention to the images of objective time in particular. Objective time, by the plurality of its understandings and representations in physics, but also by its particular relationship to images that we assume to be timeless, fits well with the reasons for this work. Eight standard physics textbooks are analyzed to understand and categorize the types and functions of images. To do this, I first perform a semiotic analysis of the images. With the results, I develop a classification of six categories of images, which allows me to order and highlight their semiotic richness. I then analyze the texts (titles and text segments referring to the images) by two methods: 1) a quantified analysis with the writing of a Python program which automates the research of keywords and 2) a close reading of these texts to extract the way in which the authors qualify their images. I incorporate an additional creative dimension to my approach by making two visualizations of the concepts and emerging themes of the analysis. I thus propose an interpretation of the results by a map of objective time images and an image that addresses the ambiguity of the authors’ discourse, the subordination of textual language as well as the negotiation of the status of the image between devalued representation mode and device objective presentation. Throughout this work, I integrate the questions of my research into my own approach, producing numerous figures to analyze and interpret the concepts, which allows me to experiment with the visual as a modality of knowledge production. Through the pursuit of a better understanding of the epistemological functioning of images in physics, I propose methodological tracks to work at the intersection of natural science, communication and visual culture
    • …
    corecore