15 research outputs found

    Nouveau modèle de documents pour une bibliothèque numérique de thèses accessibles par leur contenu sémantique

    No full text
    The variety of existing initiatives in favor of the diffusion of the theses on Internet shows the interest of this need within the academic world. The current projects of digital libraries offer the user an access to the digital theses by searching within the title of the thesis, the name of the author, the name of the tutor, and the date of the defense of the thesis. On the other hand, this type of research does not make possible to extract the relevant parts of the thesis and it only returns the integral thesis. Thus, the user must have to read the whole chapters to know which parts of the thesis correspond to his needs. The project named CITHER of the INSA of Lyon (Consultation en texte Intégral des THèses En Réseau), in which is registered this study, relates to the setting of the theses online. CITHER, in a first phase, has set up a diffusion of the theses, via a server, in the form of complete text, in PDF (Portable Document Format). So, by making a research is possible to reach the contents of only one thesis at the same time, by the means of each chapter. This way, there is the need to carry out a research for information in a more precise and more selective way in order to offer to the user the most relevant information exists. The objective of our research is to improve the diffusion of the theses. For that, we propose to give access to its contents in a precise way thanks to the use of « semantic markups » added into the thesis, by the PhD student, during the writing step. The exploitation of these markups makes possible to refine the contents of research to better satisfy the user. Our work concerns the definition of a new model of document by studying the different structures of the thesis (logic structure and semantic structure). Our approach is based on the semantic modeling of the theses of the INSA of Lyon. In the same way, we had set up functionalities to ameliorate the research and the access to the documentary contents, adapted to our case of study, i. E. The scientific theses. Finally, we had set up qualitative and quantitative procedures of experimental evaluations, allowing an analysis of the performance of the results of iterative research of our prototype in order to compare them with the current system of CITHER. This research represents an important contribution for the search for relevant information in the theses, by providing to the PhD student a tool to easily organize his thesis in an adapted way. Our results have made possible to validate the importance to define the semantic structure at the time of the creation of documents in order to better access the information containedLa diversité des initiatives existantes en faveur de la diffusion des thèses sur Internet témoigne de l'intérêt pour ce besoin au sein des milieux universitaires. Les projets de bibliothèques numériques actuels offrent à l'utilisateur l'accès aux thèses à partir d'une recherche en utilisant le titre de la thèse, les noms de l'auteur, le nom du directeur de la thèse, et la date de soutenance. Ce type de recherche ne permet pas d'extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi l'utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER de l'INSA de Lyon (Consultation en texte Intégral des THèses En Réseau) dans lequel s'inscrit cette étude, porte sur la mise en ligne des thèses. CITHER, dans une première phase, a mis en place une diffusion des thèses, via un serveur, sous forme de texte intégral, en format PDF (Portable Document Format). De ce fait, lors d'une recherche il est possible d'accéder au contenu d'une seule thèse à la fois, par le biais de chaque chapitre. Pourtant il existe le besoin d'effectuer une recherche d'information de manière plus précise, plus sélective et d'offrir à l'utilisateur l'information la plus pertinente. L'objet du travail de recherche vise à améliorer la diffusion des thèses. Pour cela, nous proposons de permettre l'accès à son contenu de façon précise grâce à l'utilisation de " tags sémantiques " rajoutés, par le doctorant, au sein de la thèse lors de sa rédaction. L'exploitation de ces tags permet d'affiner la recherche et ainsi mieux satisfaire l'utilisateur. Notre travail porte sur la définition d'un nouveau modèle de document en nous appuyant sur l'étude des différentes structures de la thèse (structure logique et structure sémantique). Notre approche est fondée sur la modélisation sémantique des thèses de l'INSA de Lyon. Nous avons aussi, été amenés à mettre en place des fonctionnalités d'aide à la recherche et à l'accès aux contenus documentaires, adaptées à notre cas d'étude, c'est à dire les thèses scientifiques. Enfin, nous avons mis en place des procédures d'évaluations expérimentales qualitatives et quantitatives, permettant une analyse de performance des résultats des recherches itératives de notre prototype et de les comparer avec le système actuel de CITHER. Cette recherche représente un apport intéressant pour la recherche d'information pertinente dans les thèses, en fournissant au doctorant les moyens de construire facilement sa thèse de manière adaptée. Nos résultats ont permis de valider l'importance de définir la structure sémantique lors de la création de documents afin de mieux exploiter l'information contenu

    Knowledge Extraction to Improve Information Retrieval in Scientific Documents

    No full text
    International audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    Adaptive Semantic Annotations for a Digital Library

    No full text
    National audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    Evaluación de herramientas de extracción automática de conceptos dentro de un ambiente de biblioteca digital

    No full text
    International audienceThe fast advance of the technology has originated the proliferation of digital sources of information. This computer evolution has caused the creation of digital libraries that have become a big pillar for the diffusion of knowledge. However, the information contained in the digital libraries is not totally described and its exploitation is still insufficient. Recently, it has been proven that describing the information by using “metadata” can be fundamental for the improvement of the research of the information within a digital library. Our approach is based on the creation and the introduction of new “metadata” able to describe, in our case, the PhD theses of the digital library. These “metadata” correspond to the most important concepts of each one of the theses contained in the digital library. At the moment, manual identification of concepts is a long process that is carried out by a specialist of the area. Therefore, we considered the use of tools to be able to automatically extract concepts. In this article we analyze four tools of NLP(Natural Language Processing) able to automatically extract the key concepts of a corpus. These tools are: (1) TerminologyExtractor of Chamblon Systems Inc., (2) Xerox Terminology Suite of Xerox, (3) Nomino of Nomino Technologies and (4) Copernic Summarizer of NRC. This paper also presents a prototype developed to automatically insert concepts into digital theses

    Knowledge Extraction to Improve Information Retrieval in Scientific Documents

    No full text
    International audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    Conceptualización de Tesis Científicas dentro del Contexto de una Biblioteca Digital mediante el uso de metadatos

    No full text
    International audienceEn los últimos años, el uso de las bibliotecas digitales se ha incrementado hasta llegar hoy en día a convertirse en unimportante portal de información. A pesar de esto, la información contenida en las bibliotecas digitales aún no estádescrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de lainformación usando metadatos puede ser primordial para el mejoramiento de la consulta de la información dentro deuna biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos metadatos capaces dedescribir, en nuestro caso, tesis doctorales. Estos metadatos corresponden a los conceptos más importantes tratados encada una de las tesis. En este artículo analizamos algunas herramientas del Procesamiento del Lenguaje Natural (PLN)capaces de extraer automáticamente los conceptos claves de un determinado grupo de documentos. Posteriormente,presentamos el análisis de la estructura lógica y semántica de las tesis con el fin de crear una base de conceptos queayudará al tesista a caracterizar su tesis durante la redacción. Finalmente, presentamos un nuevo modelo del documentousando el XML Schema, el cual contiene nuevos metadatos y sobre el cual nos basaremos para darle al usuariodurante su búsqueda la información pertinente

    Adaptive Semantic Annotations for a Digital Library

    No full text
    National audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    A semantic structure to improve information retrieval using XML

    No full text
    International audienceNowadays the information stored in the digital libraries is not completely described, so this information is not really used. The description of information by using metadata seems a good solution to permit the users to find pertinent information. Our proposal is based on the creation and the insertion of new metadata within the document as «semantic tags». These metadata can describe, in our case, the doctoral theses, by taking advantage of XML technology to structure digital documents

    Proposition d'une nouvelle structure de document pour améliorer la recherche d'information

    No full text
    National audienceActuellement l'information contenue dans les bibliothèques numériques n'est pas totalement décrite et son exploitation est insuffisante. La description de l'information en utilisant des métadonnées nous semble une bonne solution pour envisager une recherche d'information plus pertinente. Notre proposition est fondée sur la création et l'introduction au sein du document de « tags sémantiques » capables de décrire, dans notre cas, des thèses doctorales. Nous présentons l'analyse de quatre outils de Traitement Automatique des Langues (TAL) capables d'extraire automatiquement des concepts. Ensuite, nous proposons une base de concepts fondée sur l'analyse des structures logique et sémantique des thèses. Nous présentons ensuite un nouveau modèle du document, en utilisant le XML Schéma, qui contient les nouveaux « tags sémantiques » sur lesquels nous nous appuierons lors de sessions de recherche pour fournir à l'utilisateur l'information pertinente
    corecore