207 research outputs found

    Modèle multidimensionnel en diamant dédié à l'OLAP sémantique de documents

    Get PDF
    National audienceLe document électronique représente aujourd’hui un support d’information que les entreprises ne peuvent plus négliger si elles veulent être certaines d’identifier et de gérer toutes les données qui leur sont utiles au quotidien. Plusieurs travaux ont proposé l’application des techniques OLAP (« On-line Analytical Processing ») aux informations documentaires. Dans cet article, nous présentons un nouveau modèle multidimensionnel dédié à l’OLAP de documents. Ce modèle, dit en diamant, est organisé autour d’une dimension centrale qui traduit la sémantique du contenu textuel du document

    Analyse en ligne (OLAP) de documents

    Get PDF
    Thèse également disponible sur le site de l'Université Paul Sabatier, Toulouse 3 : http://thesesups.ups-tlse.fr/160/Data warehouses and OLAP systems (On-Line Analytical Processing) provide methods and tools for enterprise information system data analysis. But only 20% of the data of a corporate information system may be processed with actual OLAP systems. The rest, namely 80%, i.e. documents, remains out of reach of OLAP systems due to the lack of adapted tools and processes. To solve this issue we propose a multidimensional conceptual model for representing analysis concepts. The model rests on a unique concept that models both analysis subjects as well as analysis axes. We define an aggregation function to aggregate textual data in order to obtain a summarised vision of the information extracted from documents. This function summarises a set of keywords into a smaller and more general set. We introduce a core of manipulation operators that allow the specification of analyses and their manipulation with the use of the concepts of the model. We associate a design process for the integration of data extracted from documents within an OLAP system that describes the phases for designing the conceptual schema, for analysing the document sources and for the loading process. In order to validate these propositions we have implemented a prototype.Les entrepôts de données et les systèmes d'analyse en ligne OLAP (On-Line Analytical Processing) fournissent des méthodes et des outils permettant l'analyse de données issues des systèmes d'information des entreprises. Mais, seules 20% des données d'un système d'information est constitué de données analysables par les systèmes OLAP actuels. Les 80% restant, constitués de documents, restent hors de portée de ces systèmes faute d'outils ou de méthodes adaptés. Pour répondre à cette problématique nous proposons un modèle conceptuel multidimensionnel pour représenter les concepts d'analyse. Ce modèle repose sur un unique concept, modélisant à la fois les sujets et les axes d'une analyse. Nous y associons une fonction pour agréger des données textuelles afin d'obtenir une vision synthétique des informations issues de documents. Cette fonction résume un ensemble de mots-clefs par un ensemble plus petit et plus général. Nous introduisons un noyau d'opérations élémentaires permettant la spécification d'analyses multidimensionnelles à partir des concepts du modèle ainsi que leur manipulation pour affiner une analyse. Nous proposons également une démarche pour l'intégration des données issues de documents, qui décrit les phases pour concevoir le schéma conceptuel multidimensionnel, l'analyse des sources de données ainsi que le processus d'alimentation. Enfin, pour valider notre proposition, nous présentons un prototype

    Building an XML document warehouse

    Get PDF
    International audienceData Warehouses and OLAP (On Line Analytical Processing) technologies are dedicated to analyzing structured data issued from organizations' OLTP (On Line Transaction Processing) systems. Furthermore, in order to enhance their decision support systems, these organizations need to explore XML (eXtensible Markup Language) documents as an additional and important source of unstructured data. In this context, this paper addresses the warehousing of document-centric XML documents. More specifically, we propose a two-method approach to build Document Warehouse conceptual schemas. The first method is for the unification of XML document structures; it aims to elaborate a global and generic view for a set of XML documents belonging to the same domain. The second method is for designing multidimensional galaxy schemas for Document Warehouses

    DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

    Get PDF
    With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures

    Galaxy-Gen: A Tool for Building Galaxy model from XML documents

    Get PDF
    National audienceA galaxy model is a multidimensional model dedicated for XML document warehouses. It can be seen as a network of entities (i.e., dimensions) connected via nodes. After giving an overview of our four-steps semi-automated method for the generation of galaxy models which aims to build data marts from XML documents. This paper focuses on the software tool, called Galaxy-Gen that implements the proposed method. We illustrate the Galaxy-Gen functionalities and make its first assessment through two experiments. The first experiment is applied to a set of twenty XML documents taken from the academic domain. The second one addressed a set of 1691 XML documents issued from the Clef-2007 collection. The assessment is performed by comparing manual design galaxy models with those produced by the Galaxy-Gen tool. The results are very promising

    Portail d'université : proposition d'un service OLAP via l'espace numérique de travail.

    Get PDF
    Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail de l'université tient compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. La description des ressources électroniques et la modélisation des acteurs montrent aujourd'hui la complémentarité de deux univers : les mondes de l'indexation et les mondes du décisionnel reliés par les entrepôts de données. A partir d'une expérimentation pour aider l'acteur «enseignant-chercheur» à enrichir un état de l'art par une fouille de données à partir d'un entrepôt de données, nous montrons les possibilités d'exploitation de données qui font partie de la partie immergée d'un système d'information universitaire. Nous portons les résultats de l'expérimentation au travers d'une application développée à partir d'un produit en open source Openi pour enrichir un espace numérique de travail d'un service d'analyses multidimensionnelles adaptées aux différents acteurs du portail de l'université

    Un entrepôt de données vu comme une base de connaissance intégrant la modélisation des acteurs : applications au système d'information universitaire

    Get PDF
    International audienceNotre approche conceptuelle de la modélisation du savoir est envisagée comme l'ensemble des méthodes et des techniques de gestion de l'information et d'utilisation des flux d'information pour l'anticipation des évolutions, pour l'action d'apprentissage organisationnel et pour l'activité stratégique d'adaptation de l'institution à l'environnement et aux besoins des utilisateurs. Nos réflexions à forte connotation systèmes d'informations stratégiques rejoignent les préoccupations des sciences de l'information et de la communication. La conception de systèmes d'informations stratégiques implique une modélisation complexe. Ce travail de conception en recourant à l'outil "entrepôt de données" favorise un travail collaboratif des acteurs pour mettre en commun des ressources qu'ils ont besoin de partager. Nos récents travaux de recherche permettent de mettre en évidence que "le monde de l'indexation et le monde du décisionnel sont reliés par les entrepôts de données". Une période expérimentale puis une phase applicative ont abouti à la constatation de l'importance d'une relation entre le monde du référentiel et le monde du décisionnel. En effet c'est dans la nécessité à réfléchir au référencement sous l'angle du choix du référencement et de sa mise en application que seront facilitées les possibilités d'analyses multidimensionnelles. Il ne s'agit plus seulement d'indexer pour répondre à des requêtes à l'aide de mots clés par les utilisateurs, mais de référencer pour favoriser des analyses faites par les acteurs en vue de passer d'un processus de recherche d' "information" à un processus de recherche de "connaissances" qui confère une intelligence au système d'information

    Conception assistée d’entrepôts de données et de documents XML pour l’analyse OLAP

    Get PDF
    Aujourd’hui, les entrepôts de données constituent un enjeu majeur pour les applications décisionnelles au sein des entreprises. Les sources d’un entrepôt, c’est à dire l’origine des données qui l’alimentent, sont diverses et hétérogènes : fichiers séquentiels, feuilles de tableur, bases de données relationnelles, documents du Web. La complexité est telle que les logiciels du marché ne répondent que partiellement aux attentes des décideurs lorsque ceux-ci souhaitent analyser les données. Nos travaux s’inscrivent donc dans le contexte des systèmes décisionnels qui intègrent tous types de données (principalement extraites de bases de données relationnelles et de bases de documents XML) et qui sont destinés à des décideurs. Ils visent à proposer des modèles, des méthodes et des outils logiciels pour élaborer et manipuler des entrepôts de données. Nos travaux ont plus précisément porté sur deux problématiques complémentaires : l’élaboration assistée d’un entrepôt de données ainsi que la modélisation et l’analyse OLAP de documents XML.Today, data warehouses are a major issue for business intelligence applications within companies. Sources of a warehouse, i.e. the origin of data that feed, are diverse and heterogeneous sequential files, spreadsheets, relational databases, Web documents. The complexity is such that the software on the market only partially meets the needs of decision makers when they want to analyze the data. Therefore, our work is within the decision support systems context that integrate all data types (mainly extracted from relational databases and XML documents databases) for decision makers. They aim to provide models, methods and software tools to elaborate and manipulate data warehouses. Our work has specifically focused on two complementary issues: aided data warehouse and modeling and OLAP analysis of XML documents
    • …
    corecore