188 research outputs found

    Analyse comparative de corpus : cas de l'ingénierie des connaissances

    Get PDF
    We describe a real experiment in order to build a thematic index of a scientific book. This book is a compilation of 21 articles from the French Knowledge Engineering conferences (1999-2001). The corpus has been analysed by SYNTEX then by INDDOC, software dedicated to index formation. This work has been realized in a full digital context, with digital HTML articles and HTML index. The user uses a browser for exploring the articles through the index. We describe the work, the main problems and the chosen solutions.Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils

    Analyse comparative de corpus : cas de l'ingénierie des connaissances

    Get PDF
    : Dans cet article, nous présentons une analyse de l'évolution du domaine de recherche de l'Ingénierie des connaissances telle qu'elle peut être saisie par l'étude comparative de deux corpus de textes représentatifs du domaine et chronologiquement successifs. La méthode utilisée, une analyse lexicale constrastive, s'appuie sur l'hypothèse que les évolutions du vocabulaire utilisé dans ces deux corpus peuvent être la trace d'évolutions thématiques dans ce domaine de recherche. L'article présente les deux analyseurs utilisés (SYNTEX et UPERY) avant de détailler plusieurs des interprétations construites sur la base de différences de fréquence, de répartition et d'environnement contextuel des termes révélées par les outils.corpus; analyse syntaxique; analyse ditributionnelle; analyse contrastive de corpus; application

    Modèle d'analyse morpho-syntaxique adaptatif au web usages : ré-indexation sociale dans une norme syntagmatique

    Get PDF
    Colloque international, Novembre 2013, sur : "La Néologie, les corpus informatisés et les processus d’élaboration des langues de moindre diffusion“, tenu à Ghardaïa, Algérie. (http://www.paragraphe.univ-paris8.fr/colloque_international/amenagement_lexical_terminologie_traductionnelle/).International audienceIn the presentation of this problematic , the contribution of the user whom consults content while leaving traces of his actions, can capitalize information and knowledge for the benefit of the reindexing process . this opens reflections on the process of research on content management (see multimedia) by usage and therefore a review on the organization of knowledge between content, users and needs . In the context of the reindexing , it is necessary to rethink the system of knowledge management to contain the activities around content, uses and needs. To do so, the proposed methodology and applied grows on the following aspects: (i ) Definition and filtering semantic concepts in content for indexing , (ii) Organization of knowledge in the process of information retrieval , (iii) Management knowledge to answer an information need of the user, and ( iv ) Cognitive comments on the content and implication of Practice for control the variability formal implementations.Le processus d'indexation consiste dans le fait de décrire des contenus dans une forme simple et manipulable pour les rendre exploitables et pour en assurer l'usage. Ce dernier est le plus habituel qu'est la recherche d'informations par le contenu. Ce dernier est décrit par une séquence structurée ou non de mots-clés (concepts ou descripteurs) ; cette séquence constitue l'index pour un document. L'usager quand il invoque le processus de recherche d'informations (RI), sa requête se formule en une séquence de mots empruntés ou assimilés au même vocabulaire que l'indexation, puis le système RI compare la requête et l'index des contenus pour proposer des documents qui coïncident en tout ou en partie au besoin informationnel exprimé. Dans l'exposé de cette problématique, l'apport de l'usager, qui consulte des contenus tout en laissant des traces sur ses actions, permet de capitaliser des informations et des connaissances au profit du processus de réindexation. Ce dernier point ouvrira des réflexions de recherche autour du processus de gestion de contenus (voir le multimédia) par les usages et donc un réexamen sur l'organisation des connaissances entre les contenu, les usagers et les besoins. Dans le contexte de la réindexation, il est nécessaire de repenser le système de management de la connaissance pour contenir les activités autour des contenus, usages et besoins. Pour se faire, la méthodologie proposée et appliquée se développe sur les aspects suivants : (i) Définition et filtrage de concepts sémantiques dans les contenus pour l'indexation, (ii) Organisation des connaissances dans le processus de recherche d'informations, (iii) Gestion de connaissances pour réponde à un besoin informationnel de l'usager, et (iv) Observations cognitives sur les contenus et implication des usages pour maîtriser la variabilité des implémentations formelles

    Repérage automatique de structures linguistiques en corpus : le cas des énoncés définitoires

    Get PDF
    International audienceThis paper presents the process that leads from a linguistic study on a given type of discourse phenomena (definitions, in our case) to the practical design of morpho-syntactic patterns for their automatic retrieval in corpora. We present and assess the technological aspects of such a study, including an evaluation of the resulting patterns, and we discuss the three different kinds of skill needed in the process: generic linguistic knowledge, use of NLP tools, and corpus linguistics.Cet article propose, pour le cas spécifique des énoncés définitoires, une démarche qui s'échelonne depuis une étude linguistique du phénomène jusqu'à la constitution de patrons permettant un repérage automatique des énoncés. Une attention particulière est portée aux technologies d'analyse de corpus, et l'accent est tout particulièrement mis sur les différentes pratiques à l'oeuvre dans cette démarche : une pratique linguistique, une pratique des outils de repérage, et une pratique spécifique à l'étude des corpus

    Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantique

    Get PDF
    Chapitre 05 : Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantiqueNational audiencePartie 1 : construction et peuplement d'ontologies à partir de textes : démarche générale - critères de bonne structuration d'une ontologie - outils de Traitement Automatique des Langues pour faciliter la construction d'ontologies - ouvertures Partie 2 : "donner du sens" à des contenus : l'annotation sémantique : associer des données et des modèles sémantiques - démarche générale - quel type de ressource pour caractériser "sémantiquement" des contenus/ des données ? - où l'on retrouve le TAL / ouverture

    Désignations nominales des événements (étude et extraction automatique dans les textes)

    Get PDF
    Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments notables des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Modélisation du domaine par une méthode fondée sur l'analyse de corpus (2000)

    Get PDF
    12 pagesNational audienceLes nombreux travaux actuels sur les ontologies et modèles de domaines, justifiés par la perspective de leur réutilisabilité, proposent très peu de solutions aux problèmes pratiques de recueil et de structuration de ces connaissances. Cet article propose une méthode de construction de modèles de domaine ou d'ontologies, dont l'originalité est de se fonder sur l'analyse de corpus en utilisant ses principes linguistiques et ses logiciels de traitement automatique de la langue. Cette démarche se veut un complément efficace et précis aux méthodes classiques de modélisation du domaine à partir d'expertises individuelles

    Modèle d'analyse pour l'activité en Community Management : de la ré-indexation sociale à l'organisation des connaissances en nanosciences

    Get PDF
    International audienceRésumé : La contribution de ce travail s'inscrit dans un domaine multidisciplinaire faisant appel au traitement automatique du langage naturel pour construire l'indexation de contenus et développer la recherche d'informations et l'organisation des connaissances dans les réseaux sociaux professionnels. En expérimentation dans le domaine des nanosciences, des valorisations ont été observées par la ré-indexation sociale au travers de nouveaux concepts dans un questionnaire d'une étude spécifique, à savoir : (i) « Quelles sont les raisons pour lesquels le répondant a adhéré au Club nanoMétrologie ? » et (ii) « Qu'est-ce qu'il attend spécifiquement d'une telle structure collaborative ? ». A l'issu des traitements et analyses du questionnaire, des recommandations en matière d'aide à la décision ont pu être proposées pour le rapprochement des activités, des projets et des acteurs associant des compétences
    corecore