16 research outputs found

    Portail d'université : proposition d'un service OLAP via l'espace numérique de travail.

    Get PDF
    Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un portail de l'université tient compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. La description des ressources électroniques et la modélisation des acteurs montrent aujourd'hui la complémentarité de deux univers : les mondes de l'indexation et les mondes du décisionnel reliés par les entrepôts de données. A partir d'une expérimentation pour aider l'acteur «enseignant-chercheur» à enrichir un état de l'art par une fouille de données à partir d'un entrepôt de données, nous montrons les possibilités d'exploitation de données qui font partie de la partie immergée d'un système d'information universitaire. Nous portons les résultats de l'expérimentation au travers d'une application développée à partir d'un produit en open source Openi pour enrichir un espace numérique de travail d'un service d'analyses multidimensionnelles adaptées aux différents acteurs du portail de l'université

    Modélisation et manipulation d'entrepôts de données complexes et historisées

    Get PDF
    Le mémoire de cette thèse traite de la modélisation conceptuelle et de la manipulation des données (par des algèbres) dans les systèmes d'aide à la décision. Notre thèse repose sur la dichotomie de deux espaces de stockage : l'entrepôt de données regroupe les extraits des bases sources utiles pour les décideurs et les magasins de données sont déduits de l'entrepôt et dédiés à un besoin d'analyse particulier.Au niveau de l'entrepôt, nous définissons un modèle de données permettant de décrire l'évolution temporelle des objets complexes. Dans notre proposition, l'objet entrepôt intègre des états courants, passés et archivés modélisant les données décisionnelles et leurs évolutions. L'extension du concept d'objet engendre une extension du concept de classe. Cette extension est composée de filtres (temporels et d'archives) pour construire les états passés et archivés ainsi que d'une fonction de construction modélisant le processus d'extraction (origine source). Nous introduisons également le concept d'environnement qui définit des parties temporelles cohérentes de tailles adaptées aux exigences des décideurs. La manipulation des données est une extension des algèbres objet prenant en compte les caractéristiques du modèle de représentation de l'entrepôt. L'extension se situe au niveau des opérateurs temporels et des opérateurs de manipulation des ensembles d'états.Au niveau des magasins, nous définissons un modèle de données multidimensionnelles permettant de représenter l'information en une constellation de faits ainsi que de dimensions munies de hiérarchies multiples. La manipulation des données s'appuie sur une algèbre englobant l'ensemble des opérations multidimensionnelles et offrant des opérations spécifiques à notre modèle. Nous proposons une démarche d'élaboration des magasins à partir de l'entrepôt.Pour valider nos propositions, nous présentons le logiciel GEDOOH (Générateur d'Entrepôts de Données Orientées Objet et Historisées) d'aide à la conception et à la création des entrepôts dans le cadre de l'application médicale REANIMATIC

    CONCEPTION ET MANIPULATION DE BASES DE DONNEES DIMENSIONNELLES À CONTRAINTES

    Get PDF
    This thesis defines a constraint-based model dedicated to multidimensional databases. The defined model represents data through a constellation of facts (subjects of analyse) associated to dimensions (axis of analyse), which are possibly shared. Each dimension is organised according to several hierarchies (views of analyse) integrating several levels of data granularity. In order to insure data consistency, 5 semantic constraints (exclusion, inclusion, partition, simultaneity, totality) are introduced, which can be intra-dimension or inter-dimensions. The intra-dimension constraints allow the expression of constraints between hierarchies within a same dimension whereas the inter-dimensions constraints focus on hierarchies of distinct dimensions. The repercussions of these constraints on multidimensional manipulations are studied and OLAP operator extensions are provided.L'accroissement du volume de données dans les systèmes d'information est de nos jours une réalité à laquelle chaque entreprise doit faire face. Notamment, elle doit permettre à ses responsables de déceler les informations pertinentes afin de prendre les bonnes décisions dans les plus brefs délais. Les systèmes décisionnels répondent à ces besoins en proposant des modèles et des techniques de manipulation des données. Dans le cadre de ces systèmes, mes travaux de thèse consistent à étudier la modélisation des données décisionnelles et à proposer un langage de manipulation adapté. Dans un premier temps, nous proposons un modèle dimensionnel organisant les données en une constellation de faits (sujets d'analyse) associés à des dimensions (axes d'analyse) pouvant être partagées. Notre modèle assure une plus grande cohérence des données par sa propriété de multi instanciations qui permet de spécifier des conditions d'appartenance des instances des dimensions aux hiérarchies. De plus, nous avons défini des contraintes exprimant des relations sémantiques entre les hiérarchies intra et inter dimensions (Inclusion, Exclusion, Totalité, Partition, Simultanéité). Au niveau de la manipulation des données, nous avons redéfini les opérateurs dimensionnels afin de permettre à l'utilisateur de mieux définir ses besoins en précisant l'ensemble des instances à analyser. Cette extension a permis d'éviter les incohérences lors de la manipulation des données dimensionnelles. Nous avons étudié également l'impact de ces contraintes sur l'optimisation des manipulations basée sur la technique de matérialisation des vues. La prise en compte des contraintes sémantiques a permis de supprimer des vues incohérentes et de réduire le nombre de vues candidates à la matérialisation. Dans un second temps, nous proposons un processus de conception d'un schéma dimensionnel comportant une démarche descendante, basée sur les besoins des décideurs, et une démarche ascendante basée sur les données sources. Une phase de confrontation, permet d'intégrer les résultats des deux démarches pour obtenir un schéma dimensionnel en constellation intégrant à la fois les besoins des décideurs et les données sources. Afin de valider nos propositions, nous avons développé un outil d'aide à la conception de schémas dimensionnels contraints intitulé GMAG (Générateur de MAGasin de données dimensionnelles)

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Analyse en ligne (OLAP) de documents

    Get PDF
    Thèse également disponible sur le site de l'Université Paul Sabatier, Toulouse 3 : http://thesesups.ups-tlse.fr/160/Data warehouses and OLAP systems (On-Line Analytical Processing) provide methods and tools for enterprise information system data analysis. But only 20% of the data of a corporate information system may be processed with actual OLAP systems. The rest, namely 80%, i.e. documents, remains out of reach of OLAP systems due to the lack of adapted tools and processes. To solve this issue we propose a multidimensional conceptual model for representing analysis concepts. The model rests on a unique concept that models both analysis subjects as well as analysis axes. We define an aggregation function to aggregate textual data in order to obtain a summarised vision of the information extracted from documents. This function summarises a set of keywords into a smaller and more general set. We introduce a core of manipulation operators that allow the specification of analyses and their manipulation with the use of the concepts of the model. We associate a design process for the integration of data extracted from documents within an OLAP system that describes the phases for designing the conceptual schema, for analysing the document sources and for the loading process. In order to validate these propositions we have implemented a prototype.Les entrepôts de données et les systèmes d'analyse en ligne OLAP (On-Line Analytical Processing) fournissent des méthodes et des outils permettant l'analyse de données issues des systèmes d'information des entreprises. Mais, seules 20% des données d'un système d'information est constitué de données analysables par les systèmes OLAP actuels. Les 80% restant, constitués de documents, restent hors de portée de ces systèmes faute d'outils ou de méthodes adaptés. Pour répondre à cette problématique nous proposons un modèle conceptuel multidimensionnel pour représenter les concepts d'analyse. Ce modèle repose sur un unique concept, modélisant à la fois les sujets et les axes d'une analyse. Nous y associons une fonction pour agréger des données textuelles afin d'obtenir une vision synthétique des informations issues de documents. Cette fonction résume un ensemble de mots-clefs par un ensemble plus petit et plus général. Nous introduisons un noyau d'opérations élémentaires permettant la spécification d'analyses multidimensionnelles à partir des concepts du modèle ainsi que leur manipulation pour affiner une analyse. Nous proposons également une démarche pour l'intégration des données issues de documents, qui décrit les phases pour concevoir le schéma conceptuel multidimensionnel, l'analyse des sources de données ainsi que le processus d'alimentation. Enfin, pour valider notre proposition, nous présentons un prototype

    Apports de l'Intelligence Economique dans un Système d'Information Stratégique universitaire : innovation par le processus de modélisation des acteurs

    Get PDF
    Nous abordons une nouvelle gouvernance des universités en empruntant le processus d'intelligence économique pour faire évoluer un système d'information universitaire en un système d'information stratégique universitaire. Le transfert d'un système d'information en système d'information décisionnel repose sur les bases métiers orientées vers les acteurs de l'université par la prise en compte de la modélisation des utilisateurs. Le développement d'un système d'information global de l'université doit tenir compte de l'évolutivité du contexte de l'université et de la prise en compte des systèmes d'information alternatifs. Par notre contribution, nous étudions les processus propres à l'organisation, les processus propres à l'enseignant et les processus propres à l'étudiant pour modéliser les utilisateurs d'un système d'information stratégique universitaire. La description des ressources électroniques inspirée en partie des observations de la «millenial generation» et la modélisation des acteurs montrent aujourd'hui la complémentarité de deux univers : les mondes de l'indexation et les mondes du décisionnel reliés par les entrepôts de données
    corecore