11 research outputs found

    Recherche d'information et fouille de textes

    Get PDF
    National audienceIntroduction Comprendre un texte est un but que l'Intelligence Artificielle (IA) s'est fixĂ© depuis ses dĂ©buts et les premiers travaux apportant des rĂ©ponses ont vu le jour dans les annĂ©es 70s. Depuis lors, le thĂšme est toujours d'actualitĂ©, bien que les buts et mĂ©thodes qu'il recouvre aient considĂ©rablement Ă©voluĂ©s. Il est donc nĂ©cessaire de regarder de plus prĂšs ce qui se cache derriĂšre cette dĂ©nomination gĂ©nĂ©rale de « comprĂ©hension de texte ». Les premiers travaux, qui ont eu lieu du milieu des annĂ©es 70 jusqu'au milieu des annĂ©es 80 [Charniak 1972; Dyer 1983; Schank et al. 1977], Ă©tudiaient des textes relatant de courtes histoires et comprendre signifiait mettre en Ă©vidence les tenants et aboutissants de l'histoire-les sujets traitĂ©s, les Ă©vĂ©nements dĂ©crits, les relations de causalitĂ© les reliant-ainsi que le rĂŽle de chaque personnage, ses motivations et ses intentions. La comprĂ©hension Ă©tait vue comme un processus d'infĂ©rence visant Ă  expliciter tout l'implicite prĂ©sent dans un texte en le retrouvant Ă  partir des connaissances sĂ©mantiques et pragmatiques dont disposait la machine. Cela prĂ©supposait une modĂ©lisation prĂ©alable de ces connaissances. On rejoint ici les travaux effectuĂ©s sur les diffĂ©rents formalismes de reprĂ©sentation des connaissances en IA, dĂ©crivant d'une part les sens associĂ©s aux mots de la langue (rĂ©seaux sĂ©mantiques vs logique, et notamment graphes conceptuels [Sowa 1984] et d'autre part les connaissances pragmatiques [Schank 1982]. Tous ces travaux ont montrĂ© leur limite dĂšs lors qu'il s'agissait de modĂ©liser manuellement ces connaissances pour tous les domaines, ou de les apprendre automatiquement. Le problĂšme de la comprĂ©hension automatique en domaine ouvert restait donc entier. Puisque le problĂšme ainsi posĂ© est insoluble en l'Ă©tat des connaissances, une approche alternative consiste Ă  le redĂ©finir et Ă  le dĂ©composer en sous-tĂąches potentiellement plus faciles Ă  rĂ©soudre. Ainsi la comprĂ©hension de texte peut ĂȘtre redĂ©finie selon diffĂ©rents points de vue sur le texte qui permettent de rĂ©pondre Ă  des besoins spĂ©cifiques. De mĂȘme qu'un lecteur ne lit pas un texte de façon identique selon qu'il veut Ă©valuer sa pertinence par rapport Ă  un thĂšme qui l'intĂ©resse (tĂąche de type recherche documentaire), qu'il veut classer des documents, prendre connaissances des Ă©vĂ©nements relatĂ©s ou rechercher une information prĂ©cise, de mĂȘme les processus automatiques seront multiples et s'intĂ©resseront Ă  des aspects diffĂ©rents du texte en fonction de la tĂąche visĂ©e. Suivant le type de connaissance cherchĂ© dans un document, le lecteur n'extraira du texte que l'information qui l'intĂ©resse et s'appuiera pour cela sur les indices et sur les connaissances qui lui permettent de rĂ©aliser sa tĂąche de lecture, et donc de comprĂ©hension, sans avoir Ă  tout assimiler. On peut alors parler de comprĂ©hension Ă  niveaux variables, qui va permettre d'accĂ©der Ă  des niveaux de sens diffĂ©rents. Cette dĂ©marche est bien illustrĂ©e par les travaux en extraction d'information, Ă©valuĂ©s dans le cadre des confĂ©rences MUC [Grishman and Sundheim 1996], qui ont eu lieu de la fin des annĂ©es 1980 jusqu'en 1998. L'extraction d'information consistait alors Ă  modĂ©liser un besoin d'information par un patron, dĂ©crit par un ensemble d'attributs typĂ©s, et Ă  chercher Ă  remplir ces attributs selon l'information contenue dans les textes. C'est ainsi que se sont notamment dĂ©veloppĂ©es les recherches sur les « entitĂ©s nommĂ©es » (Ă  savoir le repĂ©rage de noms de personne, d'organisation, de lieu, de date, etc.) et sur les relations entre ces entitĂ©s. C'est aussi dans cette optique que se sont dĂ©veloppĂ©es les approches se situant au niveau du document, que ce soit pour la recherche d'information ou pour en dĂ©terminer la structur

    Désignations nominales des événements (étude et extraction automatique dans les textes)

    Get PDF
    Ma thĂšse a pour but l'Ă©tude des dĂ©signations nominales des Ă©vĂ©nements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une dĂ©marche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles Ă  une application particuliĂšre. Dans ce but gĂ©nĂ©ral, de nombreuses campagnes d'extraction d'information ont Ă©tĂ© menĂ©es~: pour chaque Ă©vĂ©nement considĂ©rĂ©, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). DĂšs le dĂ©part, ces challenges touchent de prĂšs aux entitĂ©s nommĂ©es (Ă©lĂ©ments notables des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'Ă©vĂ©nement. Pourtant, ces travaux ne s'intĂ©ressent que peu aux mots utilisĂ©s pour dĂ©crire l'Ă©vĂ©nement (particuliĂšrement lorsqu'il s'agit d'un nom). L'Ă©vĂ©nement est vu comme un tout englobant, comme la quantitĂ© et la qualitĂ© des informations qui le composent. Contrairement aux travaux en extraction d'informations gĂ©nĂ©rale, notre intĂ©rĂȘt principal est portĂ© uniquement sur la maniĂšre dont sont nommĂ©s les Ă©vĂ©nements qui se produisent et particuliĂšrement Ă  la dĂ©signation nominale utilisĂ©e. Pour nous, l'Ă©vĂ©nement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les Ă©vĂ©nements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un Ă©vĂ©nement peut ĂȘtre Ă©voquĂ© par une description verbale ou nominale. Dans cette thĂšse, nous avons rĂ©flĂ©chi Ă  la notion d'Ă©vĂ©nement. Nous avons observĂ© et comparĂ© les diffĂ©rents aspects prĂ©sentĂ©s dans l'Ă©tat de l'art jusqu'Ă  construire une dĂ©finition de l'Ă©vĂ©nement et une typologie des Ă©vĂ©nements en gĂ©nĂ©ral, et qui conviennent dans le cadre de nos travaux et pour les dĂ©signations nominales des Ă©vĂ©nements. Nous avons aussi dĂ©gagĂ© de nos Ă©tudes sur corpus diffĂ©rents types de formation de ces noms d'Ă©vĂ©nements, dont nous montrons que chacun peut ĂȘtre ambigu Ă  des titres divers. Pour toutes ces Ă©tudes, la composition d'un corpus annotĂ© est une Ă©tape indispensable, nous en avons donc profitĂ© pour Ă©laborer un guide d'annotation dĂ©diĂ© aux dĂ©signations nominales d'Ă©vĂ©nements. Nous avons Ă©tudiĂ© l'importance et la qualitĂ© des lexiques existants pour une application dans notre tĂąche d'extraction automatique. Nous avons aussi, par des rĂšgles d'extraction, portĂ© intĂ©rĂȘt au cotexte d'apparition des noms pour en dĂ©terminer l'Ă©vĂ©nementialitĂ©. À la suite de ces Ă©tudes, nous avons extrait un lexique pondĂ©rĂ© en Ă©vĂ©nementialitĂ© (dont la particularitĂ© est d'ĂȘtre dĂ©diĂ© Ă  l'extraction des Ă©vĂ©nements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de reprĂ©senter des Ă©vĂ©nements. UtilisĂ©e comme indice pour l'extraction des noms d'Ă©vĂ©nements, cette pondĂ©ration permet d'extraire des noms qui ne sont pas prĂ©sents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillĂ© sur des traits d'apprentissage contextuels en partie fondĂ©s sur la syntaxe pour extraire de noms d'Ă©vĂ©nements.The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Contribution Ă  l’amĂ©lioration de la recherche d’information par utilisation des mĂ©thodes sĂ©mantiques: application Ă  la langue arabe

    Get PDF
    Un systĂšme de recherche d’information est un ensemble de programmes et de modules qui sert Ă  interfacer avec l’utilisateur, pour prendre et interprĂ©ter une requĂȘte, faire la recherche dans l’index et retourner un classement des documents sĂ©lectionnĂ©s Ă  cet utilisateur. Cependant le plus grand challenge de ce systĂšme est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons prĂ©sentĂ© deux contributions. Dans la premiĂšre nous avons proposĂ© une nouvelle approche pour la reformulation des requĂȘtes dans le contexte de la recherche d’information en arabe. Le principe est donc de reprĂ©senter la requĂȘte par un arbre sĂ©mantique pondĂ©rĂ© pour mieux identifier le besoin d'information de l'utilisateur, dont les nƓuds reprĂ©sentent les concepts (synsets) reliĂ©s par des relations sĂ©mantiques. La construction de cet arbre est rĂ©alisĂ©e par la mĂ©thode de la Pseudo-RĂ©injection de la Pertinence combinĂ©e Ă  la ressource sĂ©mantique du WordNet Arabe. Les rĂ©sultats expĂ©rimentaux montrent une bonne amĂ©lioration dans les performances du systĂšme de recherche d’information. Dans la deuxiĂšme contribution, nous avons aussi proposĂ© une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la mĂ©thode de la stratĂ©gie de Pooling utilisant les moteurs de recherches et l’algorithme NaĂŻve-Bayes de classification par l’apprentissage automatique. Pour l’expĂ©rimentation nous avons crĂ©Ă© une nouvelle collection de test composĂ©e d’une base documentaire de 632 documents et de 165 requĂȘtes avec leurs jugements de pertinence sous plusieurs topics. L’expĂ©rimentation a Ă©galement montrĂ© l’efficacitĂ© du classificateur BayĂ©sien pour la rĂ©cupĂ©ration de pertinences des documents, encore plus, il a rĂ©alisĂ© des bonnes performances aprĂšs l’enrichissement sĂ©mantique de la base documentaire par le modĂšle word2vec

    TOTh 2007 : Terminologie et Ontologie : Théories et Applications. Annecy 1er Juin 2007

    Get PDF
    National audienceProceedings of the TOTh 2007 Conference: Terminology and Ontology: Theories and Applications. Annecy, France 1st June 200

    SystĂšme de recherche d’information Ă©tendue basĂ© sur une projection multi-espaces

    Get PDF
    Depuis son apparition au dĂ©but des annĂ©es 90, le World Wide Web (WWW ou Web) a offert un accĂšs universel aux connaissances et le monde de l’information a Ă©tĂ© principalement tĂ©moin d’une grande rĂ©volution (la rĂ©volution numĂ©rique). Il est devenu rapidement trĂšs populaire, ce qui a fait de lui la plus grande et vaste base de donnĂ©es et de connaissances existantes grĂące Ă  la quantitĂ© et la diversitĂ© des donnĂ©es qu'il contient. Cependant, l'augmentation et l’évolution considĂ©rables de ces donnĂ©es soulĂšvent d'importants problĂšmes pour les utilisateurs notamment pour l’accĂšs aux documents les plus pertinents Ă  leurs requĂȘtes de recherche. Afin de faire face Ă  cette explosion exponentielle du volume de donnĂ©es et faciliter leur accĂšs par les utilisateurs, diffĂ©rents modĂšles sont proposĂ©s par les systĂšmes de recherche d’information (SRIs) pour la reprĂ©sentation et la recherche des documents web. Les SRIs traditionnels utilisent, pour indexer et rĂ©cupĂ©rer ces documents, des mots-clĂ©s simples qui ne sont pas sĂ©mantiquement liĂ©s. Cela engendre des limites en termes de la pertinence et de la facilitĂ© d'exploration des rĂ©sultats. Pour surmonter ces limites, les techniques existantes enrichissent les documents en intĂ©grant des mots-clĂ©s externes provenant de diffĂ©rentes sources. Cependant, ces systĂšmes souffrent encore de limitations qui sont liĂ©es aux techniques d’exploitation de ces sources d’enrichissement. Lorsque les diffĂ©rentes sources sont utilisĂ©es de telle sorte qu’elles ne peuvent ĂȘtre distinguĂ©es par le systĂšme, cela limite la flexibilitĂ© des modĂšles d'exploration qui peuvent ĂȘtre appliquĂ©s aux rĂ©sultats de recherche retournĂ©s par ce systĂšme. Les utilisateurs se sentent alors perdus devant ces rĂ©sultats, et se retrouvent dans l'obligation de les filtrer manuellement pour sĂ©lectionner l'information pertinente. S’ils veulent aller plus loin, ils doivent reformuler et cibler encore plus leurs requĂȘtes de recherche jusqu'Ă  parvenir aux documents qui rĂ©pondent le mieux Ă  leurs attentes. De cette façon, mĂȘme si les systĂšmes parviennent Ă  retrouver davantage des rĂ©sultats pertinents, leur prĂ©sentation reste problĂ©matique. Afin de cibler la recherche Ă  des besoins d'information plus spĂ©cifiques de l'utilisateur et amĂ©liorer la pertinence et l’exploration de ses rĂ©sultats de recherche, les SRIs avancĂ©s adoptent diffĂ©rentes techniques de personnalisation de donnĂ©es qui supposent que la recherche actuelle d'un utilisateur est directement liĂ©e Ă  son profil et/ou Ă  ses expĂ©riences de navigation/recherche antĂ©rieures. Cependant, cette hypothĂšse ne tient pas dans tous les cas, les besoins de l’utilisateur Ă©voluent au fil du temps et peuvent s’éloigner de ses intĂ©rĂȘts antĂ©rieurs stockĂ©s dans son profil. Dans d’autres cas, le profil de l’utilisateur peut ĂȘtre mal exploitĂ© pour extraire ou infĂ©rer ses nouveaux besoins en information. Ce problĂšme est beaucoup plus accentuĂ© avec les requĂȘtes ambigĂŒes. Lorsque plusieurs centres d’intĂ©rĂȘt auxquels est liĂ©e une requĂȘte ambiguĂ« sont identifiĂ©s dans le profil de l’utilisateur, le systĂšme se voit incapable de sĂ©lectionner les donnĂ©es pertinentes depuis ce profil pour rĂ©pondre Ă  la requĂȘte. Ceci a un impact direct sur la qualitĂ© des rĂ©sultats fournis Ă  cet utilisateur. Afin de remĂ©dier Ă  quelques-unes de ces limitations, nous nous sommes intĂ©ressĂ©s dans ce cadre de cette thĂšse de recherche au dĂ©veloppement de techniques destinĂ©es principalement Ă  l'amĂ©lioration de la pertinence des rĂ©sultats des SRIs actuels et Ă  faciliter l'exploration de grandes collections de documents. Pour ce faire, nous proposons une solution basĂ©e sur un nouveau concept d'indexation et de recherche d'information appelĂ© la projection multi-espaces. Cette proposition repose sur l'exploitation de diffĂ©rentes catĂ©gories d'information sĂ©mantiques et sociales qui permettent d'enrichir l'univers de reprĂ©sentation des documents et des requĂȘtes de recherche en plusieurs dimensions d'interprĂ©tations. L’originalitĂ© de cette reprĂ©sentation est de pouvoir distinguer entre les diffĂ©rentes interprĂ©tations utilisĂ©es pour la description et la recherche des documents. Ceci donne une meilleure visibilitĂ© sur les rĂ©sultats retournĂ©s et aide Ă  apporter une meilleure flexibilitĂ© de recherche et d'exploration, en donnant Ă  l’utilisateur la possibilitĂ© de naviguer une ou plusieurs vues de donnĂ©es qui l’intĂ©ressent le plus. En outre, les univers multidimensionnels de reprĂ©sentation proposĂ©s pour la description des documents et l’interprĂ©tation des requĂȘtes de recherche aident Ă  amĂ©liorer la pertinence des rĂ©sultats de l’utilisateur en offrant une diversitĂ© de recherche/exploration qui aide Ă  rĂ©pondre Ă  ses diffĂ©rents besoins et Ă  ceux des autres diffĂ©rents utilisateurs. Cette Ă©tude exploite diffĂ©rents aspects liĂ©s Ă  la recherche personnalisĂ©e et vise Ă  rĂ©soudre les problĂšmes engendrĂ©s par l’évolution des besoins en information de l’utilisateur. Ainsi, lorsque le profil de cet utilisateur est utilisĂ© par notre systĂšme, une technique est proposĂ©e et employĂ©e pour identifier les intĂ©rĂȘts les plus reprĂ©sentatifs de ses besoins actuels dans son profil. Cette technique se base sur la combinaison de trois facteurs influents, notamment le facteur contextuel, frĂ©quentiel et temporel des donnĂ©es. La capacitĂ© des utilisateurs Ă  interagir, Ă  Ă©changer des idĂ©es et d’opinions, et Ă  former des rĂ©seaux sociaux sur le Web, a amenĂ© les systĂšmes Ă  s’intĂ©resser aux types d’interactions de ces utilisateurs, au niveau d’interaction entre eux ainsi qu’à leurs rĂŽles sociaux dans le systĂšme. Ces informations sociales sont abordĂ©es et intĂ©grĂ©es dans ce travail de recherche. L’impact et la maniĂšre de leur intĂ©gration dans le processus de RI sont Ă©tudiĂ©s pour amĂ©liorer la pertinence des rĂ©sultats. Since its appearance in the early 90's, the World Wide Web (WWW or Web) has provided universal access to knowledge and the world of information has been primarily witness to a great revolution (the digital revolution). It quickly became very popular, making it the largest and most comprehensive database and knowledge base thanks to the amount and diversity of data it contains. However, the considerable increase and evolution of these data raises important problems for users, in particular for accessing the documents most relevant to their search queries. In order to cope with this exponential explosion of data volume and facilitate their access by users, various models are offered by information retrieval systems (IRS) for the representation and retrieval of web documents. Traditional SRIs use simple keywords that are not semantically linked to index and retrieve these documents. This creates limitations in terms of the relevance and ease of exploration of results. To overcome these limitations, existing techniques enrich documents by integrating external keywords from different sources. However, these systems still suffer from limitations that are related to the exploitation techniques of these sources of enrichment. When the different sources are used so that they cannot be distinguished by the system, this limits the flexibility of the exploration models that can be applied to the results returned by this system. Users then feel lost to these results, and find themselves forced to filter them manually to select the relevant information. If they want to go further, they must reformulate and target their search queries even more until they reach the documents that best meet their expectations. In this way, even if the systems manage to find more relevant results, their presentation remains problematic. In order to target research to more user-specific information needs and improve the relevance and exploration of its research findings, advanced SRIs adopt different data personalization techniques that assume that current research of user is directly related to his profile and / or previous browsing / search experiences. However, this assumption does not hold in all cases, the needs of the user evolve over time and can move away from his previous interests stored in his profile. In other cases, the user's profile may be misused to extract or infer new information needs. This problem is much more accentuated with ambiguous queries. When multiple POIs linked to a search query are identified in the user's profile, the system is unable to select the relevant data from that profile to respond to that request. This has a direct impact on the quality of the results provided to this user. In order to overcome some of these limitations, in this research thesis, we have been interested in the development of techniques aimed mainly at improving the relevance of the results of current SRIs and facilitating the exploration of major collections of documents. To do this, we propose a solution based on a new concept and model of indexing and information retrieval called multi-spaces projection. This proposal is based on the exploitation of different categories of semantic and social information that enrich the universe of document representation and search queries in several dimensions of interpretations. The originality of this representation is to be able to distinguish between the different interpretations used for the description and the search for documents. This gives a better visibility on the results returned and helps to provide a greater flexibility of search and exploration, giving the user the ability to navigate one or more views of data that interest him the most. In addition, the proposed multidimensional representation universes for document description and search query interpretation help to improve the relevance of the user's results by providing a diversity of research / exploration that helps meet his diverse needs and those of other different users. This study exploits different aspects that are related to the personalized search and aims to solve the problems caused by the evolution of the information needs of the user. Thus, when the profile of this user is used by our system, a technique is proposed and used to identify the interests most representative of his current needs in his profile. This technique is based on the combination of three influential factors, including the contextual, frequency and temporal factor of the data. The ability of users to interact, exchange ideas and opinions, and form social networks on the Web, has led systems to focus on the types of interactions these users have at the level of interaction between them as well as their social roles in the system. This social information is discussed and integrated into this research work. The impact and how they are integrated into the IR process are studied to improve the relevance of the results

    Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)

    Get PDF
    National audienceLes JournĂ©es Francophones d'IngĂ©nierie des Connaissances fĂȘtent cette annĂ©e leurs 25 ans. Cette confĂ©rence est le rendez-vous annuel de la communautĂ© française et francophone qui se retrouve pour Ă©changer et rĂ©flĂ©chir sur des problĂšmes de recherche qui se posent en acquisition, reprĂ©sentation et gestion des connaissances. Parmi les vingt et un articles sĂ©lectionnĂ©s pour publication et prĂ©sentation Ă  la confĂ©rence, un thĂšme fondateur de l'ingĂ©nierie des connaissances domine : celui de la modĂ©lisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sĂ©mantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systĂšmes Ă  base de connaissances. L'informatique mĂ©dicale est le domaine d'application privilĂ©giĂ© des travaux prĂ©sentĂ©s, que l'on retrouve dans sept articles. L'ingĂ©nierie des connaissances accompagne l'essor des technologies du web sĂ©mantique, en inventant les modĂšles, mĂ©thodes et outils permettant l'intĂ©gration de connaissances et le raisonnement dans des systĂšmes Ă  base de connaissances sur le web. Ainsi, on retrouve les thĂšmes de la reprĂ©sentation des connaissances et du raisonnement dans six articles abordant les problĂ©matiques du web de donnĂ©es : le liage des donnĂ©es, leur transformation et leur interrogation ; la reprĂ©sentation et la rĂ©utilisation de rĂšgles sur le web de donnĂ©es ; la programmation d'applications exploitant le web de donnĂ©es. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la sociĂ©tĂ© engendre des mutations dans les pratiques individuelles et collectives. L'ingĂ©nierie des connaissances accompagne cette Ă©volution en plaçant l'utilisateur au cƓur des systĂšmes informatiques, pour l'assister dans le traitement de la masse de donnĂ©es disponibles. Quatre articles sont dĂ©diĂ©s aux problĂ©matiques du web social : analyse de rĂ©seaux sociaux, dĂ©tection de communautĂ©s, folksonomies, personnalisation de recommandations, reprĂ©sentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systĂšmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide Ă  la prise de dĂ©cision. Le taux de sĂ©lection de cette Ă©dition de la confĂ©rence est de 50%, avec dix-neuf articles longs et deux articles courts acceptĂ©s parmi quarante-deux soumissions. S'y ajoutent une sĂ©lection de neuf posters et dĂ©monstrations parmi douze soumissions, prĂ©sentĂ©s dans une session dĂ©diĂ©e et inclus dans les actes. Enfin, une innovation de cette Ă©dition 2014 de la confĂ©rence est la programmation d'une session spĂ©ciale " Projets et Industrie ", animĂ©e par FrĂ©dĂ©rique Segond (Viseo), Ă  laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et MylĂšne Leitzelman (Mnemotix). Trois confĂ©renciĂšres invitĂ©es ouvriront chacune des journĂ©es de la confĂ©rence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'Ă©volution de l'ingĂ©nierie des connaissances en France depuis 25 ans, de la pĂ©nurie Ă  la surabondance. A sa suite, FrĂ©dĂ©rique Segond (Viseo) abordera le problĂšme de " l'assouvissement " de la faim de connaissances dans la nouvelle Ăšre des connaissances dans laquelle nous sommes entrĂ©s. Enfin, Marie-Laure Mugnier (LIRMM) prĂ©sentera un nouveau cadre pour l'interrogation de donnĂ©es basĂ©e sur une ontologie, fondĂ© sur des rĂšgles existentielles

    Vocabulaire employé pour l'accÚs thématique aux documents d'archives patrimoniaux : étude linguistique exploratoire de termes de recherche, de description, d'indexation

    Full text link
    Les usagers recherchent des documents d’archives par sujet mais l’accĂšs offert dans les services d’archives est principalement par provenance : il rĂ©side un Ă©cart entre l’accĂšs recherchĂ© et l’accĂšs offert. Pour rĂ©pondre Ă  la demande des usagers, certains services d’archives fournissent dĂ©jĂ  des accĂšs thĂ©matiques. Les instruments de recherche de ces prĂ©curseurs servent de base Ă  notre recherche. Nous avons analysĂ© le vocabulaire que les archivistes emploient pour dĂ©crire et indexer par sujet, c’est-Ă -dire le choix des mots et les relations sĂ©mantiques que ces mots entretiennent les uns avec les autres dans les documents dont ils sont issus (notices descriptives, index). ParallĂšlement, nous avons analysĂ© le vocabulaire des usagers dans les questions envoyĂ©es par courriel Ă  la rĂ©fĂ©rence avec la rĂ©ponse de l’archiviste. Ainsi, notre Ă©tude couvre une large partie de la chaĂźne communicationnelle entre les usagers et les documents d’archives qu’ils recherchent par sujet. La comparaison de ces deux vocabulaires a fait Ă©merger l’écart sĂ©mantique qui les sĂ©pare. Par l’étude des termes de recherche, de description, d’indexation, nous souhaitons contribuer Ă  l’avancement des connaissances sur le vocabulaire employĂ© pour l’accĂšs thĂ©matique aux archives patrimoniales (VATAP). Notre mĂ©thode de recherche est l’étude de corpus. Nous Ă©tudions les relations sĂ©mantiques entre les termes d’un corpus de termes provenant de quatre sources de donnĂ©es (questions d’usagers Ă  la rĂ©fĂ©rence, rĂ©ponses d’archivistes, notices descriptives, index), collectĂ©es dans trois milieux. Nous circonscrivons la recherche Ă  des donnĂ©es de centres ou services d’archives de grande envergure parce qu’ils ont les moyens de dĂ©velopper des outils pour encadrer et faciliter l’accĂšs. L’originalitĂ© de notre recherche rĂ©side dans l’application de la linguistique Ă  l’étude du VATAP. Par cette recherche, nous souhaitons dĂ©crire le VATAP et contribuer Ă  l’amĂ©lioration de l’accĂšs thĂ©matique aux archives patrimoniales en Ă©mettant des recommandations Ă  l’usage des archivistes Ă  partir de l’étude des relations sĂ©mantiques les plus frĂ©quentes dans notre corpus. La formalisation linguistique nĂ©cessaire Ă  notre recherche pourrait servir de prĂ©misses Ă  une automatisation de l’indexation. Cette Ă©tude exploratoire du vocabulaire des usagers permettra aux Ă©tablissements participants de mieux connaĂźtre cet aspect du profil de leur clientĂšle.Users carry out searches for archives by subject, yet the access offered in the archives is mainly by provenance resulting in a gap between the desired access and the offered access. To meet users’ demand, some archival services already offer access by subject. Research instruments used by these services provide the basis for our research. We analyzed the vocabulary used by archivists to describe and to index archival documents by subject. That is to say, the choice of words and the semantic relationships that exist between the meanings of these words in the documents from which they come from (descriptions, index). We analyzed both the users’ vocabulary in the questions asked to the reference archivist by email and the answers offered by the latter. Thus, our study covers a large part of the communicative chain between users and archives they are looking for by subject. The comparison of these two vocabularies has brought out the semantic gap that separates them. By studying the terms used for research, for description, and for indexing, we wish to contribute to the advancement of knowledge on the vocabulary used for thematic access to heritage archives (VATAP). We have chosen corpus studies as our research methodology. We study the semantic relationships between the terms in a corpus from four data sources (user-to-reference questions, reference archivists’ answers, descriptions, indexes), collected from three different archives services. We limit our research to data obtained from large archival repositories as they have the means to develop tools to guide and facilitate access. The originality of our research lies in the application of linguistics to the study of VATAP. Our study describes VATAP and contributes to a better accessing of heritage archives by subject. We accomplish this by formulating recommendations for the archivists’ use based on the study of the most frequent semantic relationships in our corpus. The linguistic formalization needed for our research could serve as a premise for automatic indexing. This exploratory study of users’ vocabulary allows participating institutions to better understand this aspect of their users’ profile
    corecore