365 research outputs found

    Expériences de classification d'une collection de documents XML de structure homogène

    Get PDF
    Cette version corrige des erreurs dans le nom de 2 auteurs cites dans la bibliographie.National audienceThis paper presents some experiments in clustering homogeneous XMLdocuments to validate an existing classification or more generally anorganisational structure. Our approach integrates techniques for extracting knowledge from documents with unsupervised classification (clustering) of documents. We focus on the feature selection used for representing documents and its impact on the emerging classification. We mix the selection of structured features with fine textual selection based on syntactic characteristics.We illustrate and evaluate this approach with a collection of Inria activity reports for the year 2003. The objective is to cluster projects into larger groups (Themes), based on the keywords or different chapters of these activity reports. We then compare the results of clustering using different feature selections, with the official theme structure used by Inria. ––– Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d'expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des éléments XML et une sélection linguistique basée sur un typage syntaxique des mots. Nous illustrons ces principes sur la collection des rapports d'activité 2003 des équipes de recherche de l'Inria en cherchant des groupements d'équipes (Thèmes) à partir du contenu de différentes parties de ces rapports. Nous comparons nos premiers résultats avec les thèmes de recherche officiels de l'Inria

    Organiser la documentation scientifique en entreprise: enjeux, méthodes, outils : le cas Kejako

    Get PDF
    La société Kejako est active dans le domaine de l’ophtalmologie et en particulier dans la recherche, le développement et la commercialisation de dispositifs médicaux liés à ce domaine. Toutefois, depuis sa création, l’entreprise a accumulé une masse documentaire importante, et s’interrogeait sur la mise en valeur de ses documents, mise en valeur d’autant plus importante qu’elle constitue une fenêtre sur les activités de Kejako. De plus, face à la masse documentaire utilisée et produite, les procédures originellement mises en place commençaient à atteindre des limites quant à leur efficacité, notamment en ce qui concernait la recherche documentaire. Notre tâche a donc consisté à évaluer l’ensemble des documents de Kejako, puis à proposer non seulement une solution remplissant l’exigence de mise en valeur des documents, mais également celle de gestion numérique des documents et un ensemble de procédures permettant une visibilité accrue sur l’information1. Nous avons commencé par réaliser un état des lieux afin d’obtenir une vue d’ensemble sur les activités et pratiques documentaires de Kejako, puis nous avons proposé un système de classification et d’identification des documents afin de faciliter leur recherche dans les interfaces utilisées par les membres de la société. Enfin, nous avons réalisé un benchmark afin de proposer plusieurs solutions à Monsieur David Enfrun, directeur général de Kejako, pour qu’il puisse bénéficier d’un outil adapté à ses besoins et remplissant les exigences qu’il nous avait fixées durant ce travail. De plus, nous avons également produit un guide pratique regroupant l’ensemble des actions et des procédures à entreprendre lors du traitement d’un nouveau document. Ce mémoire décrit l’ensemble des démarches, réflexions, entretiens et rencontres que nous avons entrepris pour arriver à remplir nos objectifs, et proposer un ensemble de solutions à Kejako

    Panorama : des métadonnées pour les ressources électroniques

    Get PDF
    Article issu d\u27une intervention à l\u27occasion du 1er Atelier des réseaux de la documentation scientifique "Métadonnées et Archives Ouvertes" qui s’est tenu les 11, 12 et 13 octobre 2005 à Arcachon

    Indigo : une approche multi-stratégique et adaptative pour un alignement sémantique intégrant le contexte des données à apparier

    Full text link
    Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Livre universitaire numérique en sciences humaines et sociales : pour un foyer d’expertise et une infrastructure de stature mondiale (Le)

    Get PDF
    Au moment où le numérique occupe de plus en plus d’espace dans la communication scientifique, il est utile de s’interroger sur la capacité d’implantation (formes organisationnelles et modèles d’affaires) d’un système de publication numérique issu de la communauté universitaire en mesure d’éditer, de mettre en valeur et d’assurer la présence internationale du livre universitaire en sciences humaines et sociales

    L'utilisation de vecteurs de liens bibliographiques comme descripteurs de documents juridiques dans un système de recherche d'information

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    Développement d'une offre de formation sur la gestion des données de la recherche en médecine et santé publique

    Get PDF
    Le présent mandat a été réalisé pour la Bibliothèque Universitaire de Médecine (BIUM) du CHUV ainsi que pour l’unité de Documentation et Données en Santé Publique (uDDSP) de l’Institut en Médecine Sociale et Préventive (IUMSP) de Lausanne. La problématique de la gestion des données de la recherche est actuellement l’un des axes de réflexion majeurs des universités, notamment de l’Université de Lausanne (UNIL). Les données de la recherche en médecine et santé publique, en ce sens, n’échappent pas à la règle et leur gestion est d’autant plus importante que leur partage et leur description sont des conditions sine qua non à la reproduction des expériences ainsi qu’à leur compréhension. Soucieuses de cette thématique, la BIUM et l’uDDSP ont décidé de proposer aux chercheurs de l’IUMSP ainsi que de la Faculté de Biologie et de Médecine (FBM) de l’UNIL deux modules de formation enseignant cette problématique aux scientifiques. Ce travail s’articulera autour de trois axes. Le premier consistera à réaliser une réflexion sur l'importance de la gestion des données de recherche notamment dans le contexte de la recherche biomédicale effectuée à la Faculté de Biologie et de Médecine ainsi qu’en santé publique effectuée à l’IUMSP. Le deuxième axe consistera en une revue et une analyse de formations existantes à la gestion des données de recherche en Suisse mais aussi à l’étranger. Ces formations pourront être généralistes ou s’intéresser précisément aux données biomédicales. Le but étant de faire ressortir des exemples pertinents dont nous pourrons nous inspirer par la suite. Le troisième axe consistera en la proposition de deux modules de formation complémentaires pour les chercheurs. Le premier se réalisera au début du processus de recherche et représentera une introduction à la thématique de la gestion des données de recherche. Cette introduction s’articulera autour du Data Management Plan, document indispensable dans la gestion des données de recherche. Le second module sera réalisé à la fin du cycle de recherche. Il s’intéressera plus précisément à la problématique du partage des données de la recherche, la mise en ligne sur des dépôts spécialisés ainsi que la création des métadonnées. Ces modules ne seront pas obligatoires pour les chercheurs et aucun prérequis n’est demandé. La durée de chaque module sera de deux heures, rendant difficile la création d’un compromis entre exhaustivité et rapidité. Au terme de ce travail, nous espérons donc pouvoir réaliser une formation complète, mariant pratique et théorie qui sera adaptée aux besoins des chercheurs et des institutions concernées

    DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

    Get PDF
    With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures
    corecore