54 research outputs found

    La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral

    Get PDF
    ConfrontĂ© Ă  Internet, le Traitement Automatique des Langues (TAL) a dĂ» relever le dĂ©fi que posait l’analyse de textes dialogiques Ă©crits (blog, forum, chat, rĂ©seaux sociaux etc.) et oraux. Les recherches prĂ©sentĂ©es ont, dans un premier temps, portĂ© sur le dĂ©veloppement de systĂšmes Ă  mĂȘme de repĂ©rer et d’analyser l’information Ă  partir d’une annotation des ressources. L’approche retenue privilĂ©gie l’intĂ©gration d’indices inhĂ©rents Ă  la nature de corpus « hors normes » afin d’amĂ©liorer les techniques de traitement automatique. La chaĂźne d’opĂ©rations comprend quatre Ă©tapes :(i) L’observation et l’analyse manuelle des donnĂ©es afin de recenser les variations dans les occurrences et d’évaluer l’ampleur des phĂ©nomĂšnes Ă  annoter, leur classification et l’identification de leurs marqueurs formels.(ii) La modĂ©lisation de l’information Ă  partir d’une typologie sous la forme d’un jeu d’étiquettes ajustĂ© Ă  la nature du corpus.(iii) La dĂ©finition de la technologie congrue (gĂ©nĂ©ralement, l’arbitrage entre le dĂ©veloppement d’un nouvel outil et l’adaptation d’un outil existant).(iv) L’implĂ©mentation du schĂ©ma d’annotation dĂ©fini afin de procĂ©der Ă  une analyse quantitative et qualitative des rĂ©sultats.L’annotation effectuĂ©e concerne les domaines de la syntaxe (Ă©tiquetage morpho-syntaxique et chunking), sĂ©mantique et/ou pragmatique (entitĂ©s nommĂ©es, indices d’identification de la personne, reformulations etc.). L’application concerne aussi bien des entretiens transcrits que des titres de cartes gĂ©ographiques, des recettes d’omelette que des articles du Monde. Les mĂ©thodes utilisĂ©es varient en fonction du corpus et de la tĂąche traitĂ©e. L’annotation syntaxique et le repĂ©rage des segments reformulĂ©s sont fondĂ©s sur la technique d’apprentissage automatique avec les CRFs ; le repĂ©rage des entitĂ©s nommĂ©es et des indices d’identification de la personne dans les transcriptions de l’oral utilise les mĂ©thodes symboliques ; la dĂ©tection automatique des tours de parole contenant la reformulation emploie les mĂ©thodes heuristiques. Le travail sur le français parlĂ© et son annotation a conduit Ă  la modĂ©lisation des caractĂ©ristiques propres Ă  l’oral : disfluences, marqueurs discursifs, prĂ©sentateurs, segmentation, commentaires personnels etc. Un autre phĂ©nomĂšne caractĂ©ristique de l’oral, la reformulation, a fait l’objet d’une Ă©tude particuliĂšre. Le travail sur l’annotation du corpus oral, du corpus Web ou du corpus mĂ©diatique a permis de reconsidĂ©rer la notion de subjectivitĂ© qui constitue l’une des difficultĂ©s rĂ©currentes du traitement automatique. L’étude de la subjectivitĂ© et son expression dans le discours a Ă©tĂ© poursuivie dans plusieurs des recherches menĂ©es : la subjectivitĂ© Ă  partir des informations personnelles livrĂ©es par le locuteur, la subjectivitĂ© dans la perception et l’appropriation des lieux, la subjectivitĂ© dans les recettes de cuisine et enfin la subjectivitĂ© exprimĂ©e Ă  travers les noms gĂ©nĂ©raux

    Apports de la linguistique dans les systÚmes de recherche d'informations précises

    Get PDF
    International audienceSearching for precise answers to questions, also called "question-answering", is an evolution of information retrieval systems: can it, as its predecessors, rely mostly on numeric methods, using exceedingly little linguistic knowledge? After a presentation of the question-answering task and the issues it raises, we examine to which extent it can be performed with very little linguistic knowledge. We then review the different kinds of linguistic knowledge that researchers have been using in their systems: syntactic and semantic knowledge for sentence analysis, role of "named entity" recognition, taking into account of the textual dimension of documents. A discussion on the respective contributions of linguistic and non-linguistic methods concludes the paper.La recherche de rĂ©ponses prĂ©cises Ă  des questions, aussi appelĂ©e « questions-rĂ©ponses », est une Ă©volution des systĂšmes de recherche d'information : peut-elle, comme ses prĂ©dĂ©cesseurs, se satisfaire de mĂ©thodes essentiellement numĂ©riques, utilisant extrĂȘmement peu de connaissances linguistiques ? AprĂšs avoir prĂ©sentĂ© la tĂąche de questions-rĂ©ponses et les enjeux qu'elle soulĂšve, nous examinons jusqu'oĂč on peut la rĂ©aliser avec trĂšs peu de connaissances linguistiques. Nous passons ensuite en revue les diffĂ©rents types de connaissances linguistiques que les Ă©quipes ont Ă©tĂ© amenĂ©es Ă  mobiliser : connaissances syntaxiques et sĂ©mantiques pour l'analyse de phrases, rĂŽle de la reconnaissance d'« entitĂ©s nommĂ©es », prise en compte de la dimension textuelle des documents. Une discussion sur les contributions respectives des mĂ©thodes linguistiques et non linguistiques clĂŽt l'article

    Jeux pédagogiques collaboratifs situés (conception et mise en oeuvre dirigées par les modÚles)

    Get PDF
    Un jeu pĂ©dagogique constitue une dĂ©clinaison relative Ă  l apprentissage du concept de jeu sĂ©rieux (serious game). Ce type d'outil permet la ludification (gamification) de l'activitĂ© afin d'utiliser des Ă©lĂ©ments de jeu dans un contexte non ludique et conduit Ă  catalyser l attention, faire accroĂźtre l engagement et augmenter la motivation des joueurs-apprenants dans les situations d apprentissage. Les jeux pĂ©dagogiques reposent sur la mise en situation et l immersion des apprenants, utilisant les ressorts ludiques dans des simulations axĂ©es vers la rĂ©solution de problĂšmes. Parmi des recherches antĂ©rieures, certains retours d expĂ©riences font Ă©cho d une trop grande artificialitĂ© de l activitĂ© notamment par manque de contextualisation de l apprentissage dans l environnement d utilisation des connaissances apprises. Nous avons proposĂ© la mise en place un environnement mixte (physique et numĂ©rique) et l utilisation de techniques collaboratives pour raffiner l approche pĂ©dagogique. Ces orientations nous ont menĂ©s Ă  la mise en place de ce que nous appelons des Jeux PĂ©dagogiques Collaboratifs SituĂ©s (JPCS). Les deux questions de recherche qui nous ont Ă©tĂ© posĂ©es dans le cadre du projet SEGAREM et qui sont devenues les nĂŽtres sont : 1/ comment accompagner les jeux sĂ©rieux par l approche RĂ©alitĂ© AugmentĂ©e (RA) et l'approche Interface Tangible (IT)? 2/ comment rendre la conception et la mise en Ɠuvre des JPCS (Jeux PĂ©dagogiques Collaboratifs SituĂ©s) plus explicite et plus systĂ©matique ? Les rĂ©ponses que nous prĂ©sentons dans cette thĂšse sont les suivantes : 1/ la conception et la mise en Ɠuvre des pupitres interactifs supportant des objets rĂ©els augmentĂ©s, associĂ©s Ă  un protocole de communication existant, proposant un support gĂ©nĂ©rique des techniques d interaction dĂ©tectĂ©e et de prise en compte du contexte physique d utilisation ; 2/ une approche de production de JPCS se situant aprĂšs l Ă©tape de scĂ©narisation ludo-pĂ©dagogique qui constitue notre cahier des charges. Nous avons basĂ© notre approche sur des modĂšles pour permettre un support d expression qui prĂ©cise les caractĂ©ristiques des JPCS. Ces modĂšles sont soutenus par des Ă©diteurs contextuels et produisent comme rĂ©sultat des fichiers de descriptions en XML. La projection des descriptions obtenues sur une architecture gĂ©nĂ©rique d exĂ©cution du JPCS permet une spĂ©cialisation pour obtenir une version exĂ©cutable. Dans les six modĂšles, certains sont adaptĂ©s des travaux antĂ©rieurs de l Ă©quipe, d'autres issues de la littĂ©rature et les derniers sont directement proposĂ©s ici. Ces six modĂšles dĂ©crivent l activitĂ© (un modĂšle d orchestration de l activitĂ© et un modĂšle de tĂąches), la structure de diffĂ©rents environnements, l Ă©tat initial de l environnement et les conditions nĂ©cessaires d un Ă©tat final et les interactions possibles entre les joueurs et l environnement. Nos travaux tant sur les pupitres que sur les modĂšles et le support d exĂ©cution ont Ă©tĂ© concrĂ©tisĂ©s dans la mise en place de Lea(r)nIt. Ce JPCS avait pour but de consolider des acquis mĂ©thodologiques en Lean Manufacturing par l utilisation et l optimisation d une chaĂźne de production simulĂ©e sur pupitres (supportant interactions tactiles, interactions tangibles et pouvant ĂȘtre assemblĂ©s) et sur tĂ©lĂ©phones mobiles (permettant la mobilitĂ© des joueurs-apprenants).A Learning game is a declension of the serious game concept dedicated to the learning activity. A Learning game is based on a scenario and immersion of the learners with use of game mechanics on problem based simulation. The gamification concept is the use of game elements in a non-playful activity with as impact attention, motivation and engagement. However, some research feedback explains that too much artificiality on learning activity caused by a lack of contextualization of the activity on the professional environment. We propose to use Mixed Reality and Collaborative Supported Computer Work as technological solution to support situated and collaborative situation in aim to enhance pedagogical strategy and allow a better learning. We call it Situated Collaborative Learning Game (SCLG) as a concept of pedagogical tools to enhance learning of content with use of collaborative learning (when learners interactions is useful to learn), situated learning (when the environment context is meaningful) and human-physical objet interaction (with use of mixed reality, with kinesthetic and tangible interaction in augmented reality) and game based learning (when learner's motivation is improved by the learning activity). In these contexts, our two research questions are: 1 / How to create a serious games support by use of Augmented Reality (AR) approach and Tangible Interface (IT) approach? 2 / How to make design and development of SCLG (situated collaborative learning game) more explicit and systematic? We propose two solutions: 1/ the design and the production of four interactive desks with support of tangible interaction on and above the table. These devices are linked to a communication protocol which allows a generic support of technical interaction. 2/ A generic way to design the CSLG system, with integration of advanced human computer interaction support (as augmented reality and tangible interaction) and ubiquitous computing in Learning Games. For that, we propose, with a user centered oriented and model oriented design, a way to make a CSLG factory. For that, we propose use of six models to determinate the behavior of the CSLG. These six models describe learners activity (with use of three different models to follow the activity theory s), the mixed game environment, deployment of entities on the environment, and human computer interactions. All of these models are linked by an orchestration model and can be project on a multi-agent multi-layers architecture by use of XML description file. We propose tools to help each step of our design and production process. Our work on interactive desks, on the six models and on the runtime support has been realized in the production of Lea(r)nIT. This SCLG consolidate methodological knowledge of Lean Manufacturing by use and optimization of a simulated chain production on four desks (which support touch and tangible interactions and can be assembled) and on mobile phones (to allow movement of learners).LYON-Ecole Centrale (690812301) / SudocSudocFranceF

    Analyse et représentation des connaissances en sémantique verbale : l'interface syntaxe-sémantique du verbe entendre

    Get PDF
    Cette Ă©tude s'inscrit dans le domaine de l'informatique cognitive. Elle se situe Ă  l'intersection de la linguistique cognitive et de l'informatique. Elle porte sur le verbe entendre, le verbe gĂ©nĂ©rique d'expression de la perception auditive, mais en mĂȘme temps un verbe particuliĂšrement polysĂ©mique. Sa polysĂ©mie est trĂšs profonde puisqu'en plus de mĂȘler de nombreux sens, elle mĂȘle des domaines trĂšs diffĂ©rents, le domaine mental et le domaine sensoriel. L'analyse linguistique rencontre ici un dĂ©fi. L'Ă©tude repose sur l'analyse d'un corpus informatisĂ© construit dans le cadre de cette recherche et annotĂ© syntaxiquement et sĂ©mantiquement en vue de l'analyse. L'analyse relĂšve de la linguistique cognitive et propose que la sĂ©mantique du verbe soit reprĂ©sentĂ©e par un schĂ©ma conceptuel qui se dĂ©ploie sĂ©quentiellement. L'Ă©tude est parvenue Ă  dĂ©gager le noyau sĂ©mantique du verbe et expliquer ce qui est Ă  l'origine de son imposante polysĂ©mie. La polysĂ©mie provient de la possibilitĂ© de ne pas exprimer toutes les sĂ©quences du schĂ©ma conceptuel et d'attribuer des valeurs diffĂ©rentes aux entitĂ©s de chacune de ces Ă©tapes. L'analyse s'attache Ă©galement aux constructions utilisĂ©es pour exprimer la polysĂ©mie du verbe et Ă  la sĂ©mantique aspectuelle de l'Ă©vĂ©nement verbal. Une analyse cognitive a permis de proposer une explication du fonctionnement aspectuel des sens du verbe, en particulier des sens perceptuels, traditionnellement rĂ©putĂ©s problĂ©matiques. Les connaissances linguistiques mises au jour ont ensuite Ă©tĂ© transposĂ©es dans une base de connaissances qui repose sur le principe de l'hĂ©ritage et des cadres. La base de connaissances dĂ©finit un lexique computationnel qui encode une sĂ©rie d'informations syntaxiques, sĂ©mantiques et lexicales concernant le verbe entendre. Ce lexique se situe Ă  l'interface syntaxico-sĂ©mantique verbale et permet d'Ă©tablir le liage entre les entitĂ©s conceptuelles de l'analyse sĂ©mantique et les entitĂ©s syntaxiques de l'analyse syntaxique. Le modĂšle informatique de la base de connaissances a Ă©tĂ© dĂ©veloppĂ© Ă  l'aide de ProtĂ©gĂ©, un systĂšme dans lequel l'information est reprĂ©sentĂ©e Ă  l'aide de cadres et de l'hĂ©ritage. Les utilisations qui en sont proposĂ©es dans cette Ă©tude sont l'exploration de la variation syntaxique et sĂ©mantique et la rĂ©solution de la polysĂ©mie verbale. Au-delĂ  de l'analyse spĂ©cifique Ă  un verbe particuliĂšrement polysĂ©mique, cette recherche propose un modĂšle d'analyse et de reprĂ©sentation opĂ©rationnelle du sens qui repose sur la cognition.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : linguistique informatique, linguistique cognitive, sĂ©mantique cognitive, classement aspectuel, constructions syntaxiques, reprĂ©sentation des connaissances, ontologie, cadres, hĂ©ritage, entendre

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considÚre le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accÚs à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problÚmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relÚve du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rÎle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagiÚres

    La polys\ue9mie en fran\ue7ais et en italien : approche contrastive et retomb\ue9es didactiques

    Get PDF
    Polysemy is a formal property of a vocable, which is such that it contains more than one semantically related lexical units. Identifying the polysemic structure of vocables in a given language is a key issue in theoretical semantics and lexicography, since polysemy is at the heart of the internal structure of natural language systems. The purpose of this research is twofold. It targets the development of a contrastive approach to polysemy in order to implement a set of vocabulary learning strategies. The first chapter aims at reviewing the current state of the art in the field of polysemy. Where the term polysemy was introduced during the late XX century, the concept has its roots in the Aristotelian tradition and stimulated an open debate between the various approaches, until recent research literature. At present, there are several points of dis- agreement both among polysemy theories and lexicographical methods. The second chapter is intended to present the theoretical and methodological framework that underpins the study : the Explanatory and Combinatorial Lexicology, which is the lexical branch of the Meaning-Text Theory. Explanatory and Combinatorial Lexicology develops a lexicographical model of polysemy, based on a well-defined series of semantic and syntactic criteria. Each lexical unit of a vocable \u2014 a complex cluster of semantic, formal and combinatorial properties \u2014 is disambiguated by defining its semantic actants and its lexical relations. The set of paradigmatic and syntagmatic relations is translated in the system of lexical functions. One of the more recent developments of the Explanatory and Combinatorial Lexicology, is the French Lexical Network, an ongoing project that targets the construction of a full-scale lexical resource for the French language. It displaces the lexicographical description from a paper format to an electronic environment, through the use of the lexicographical editor Dicet. The French Lexical Network deepens the theoretical representation of polysemy, by establishing a typology of co-polysemy links. Furthermore, the French Lexical Network represents a lexicographic prototype, which can be applied to other languages. Some tween projects, developed on the French model, already exist for Russian and Spanish. Similarly, a lexicographical ressource for the Italian language, the Italian Lexical Network, is developed within the framework of this study. The third section of the study provides a polysemy-based contrastive analysis of taste vocabulary in French and Italian. As a preliminary step, a priming wordlist is drawn up of 4 704 Italian vocables. Subsequently, taste-related vocables (i.e. all the vocables which are semantically included in the lexical field of taste) are extracted and analysed. Data analysis mainly suggest two different trends : synonymous polysemes, two vocables which share the same meaning at all levels of their polysemic structure and which establish the same copolysemy links ; crossing polysemes, two vocables which intersect at some points of their polysemic structures. A contrastive polysemy approach can be exploited for pedagogical purposes. This is the aim of the last chapter, which consists in a three-session module designed for B1 students of French as a second language. Throughout a series of didactic activities, the student is expected to improve the quality of its lexical knowledge and to nip lexico-semantic mistakes in the bud

    SystĂšme de recherche d’information Ă©tendue basĂ© sur une projection multi-espaces

    Get PDF
    Depuis son apparition au dĂ©but des annĂ©es 90, le World Wide Web (WWW ou Web) a offert un accĂšs universel aux connaissances et le monde de l’information a Ă©tĂ© principalement tĂ©moin d’une grande rĂ©volution (la rĂ©volution numĂ©rique). Il est devenu rapidement trĂšs populaire, ce qui a fait de lui la plus grande et vaste base de donnĂ©es et de connaissances existantes grĂące Ă  la quantitĂ© et la diversitĂ© des donnĂ©es qu'il contient. Cependant, l'augmentation et l’évolution considĂ©rables de ces donnĂ©es soulĂšvent d'importants problĂšmes pour les utilisateurs notamment pour l’accĂšs aux documents les plus pertinents Ă  leurs requĂȘtes de recherche. Afin de faire face Ă  cette explosion exponentielle du volume de donnĂ©es et faciliter leur accĂšs par les utilisateurs, diffĂ©rents modĂšles sont proposĂ©s par les systĂšmes de recherche d’information (SRIs) pour la reprĂ©sentation et la recherche des documents web. Les SRIs traditionnels utilisent, pour indexer et rĂ©cupĂ©rer ces documents, des mots-clĂ©s simples qui ne sont pas sĂ©mantiquement liĂ©s. Cela engendre des limites en termes de la pertinence et de la facilitĂ© d'exploration des rĂ©sultats. Pour surmonter ces limites, les techniques existantes enrichissent les documents en intĂ©grant des mots-clĂ©s externes provenant de diffĂ©rentes sources. Cependant, ces systĂšmes souffrent encore de limitations qui sont liĂ©es aux techniques d’exploitation de ces sources d’enrichissement. Lorsque les diffĂ©rentes sources sont utilisĂ©es de telle sorte qu’elles ne peuvent ĂȘtre distinguĂ©es par le systĂšme, cela limite la flexibilitĂ© des modĂšles d'exploration qui peuvent ĂȘtre appliquĂ©s aux rĂ©sultats de recherche retournĂ©s par ce systĂšme. Les utilisateurs se sentent alors perdus devant ces rĂ©sultats, et se retrouvent dans l'obligation de les filtrer manuellement pour sĂ©lectionner l'information pertinente. S’ils veulent aller plus loin, ils doivent reformuler et cibler encore plus leurs requĂȘtes de recherche jusqu'Ă  parvenir aux documents qui rĂ©pondent le mieux Ă  leurs attentes. De cette façon, mĂȘme si les systĂšmes parviennent Ă  retrouver davantage des rĂ©sultats pertinents, leur prĂ©sentation reste problĂ©matique. Afin de cibler la recherche Ă  des besoins d'information plus spĂ©cifiques de l'utilisateur et amĂ©liorer la pertinence et l’exploration de ses rĂ©sultats de recherche, les SRIs avancĂ©s adoptent diffĂ©rentes techniques de personnalisation de donnĂ©es qui supposent que la recherche actuelle d'un utilisateur est directement liĂ©e Ă  son profil et/ou Ă  ses expĂ©riences de navigation/recherche antĂ©rieures. Cependant, cette hypothĂšse ne tient pas dans tous les cas, les besoins de l’utilisateur Ă©voluent au fil du temps et peuvent s’éloigner de ses intĂ©rĂȘts antĂ©rieurs stockĂ©s dans son profil. Dans d’autres cas, le profil de l’utilisateur peut ĂȘtre mal exploitĂ© pour extraire ou infĂ©rer ses nouveaux besoins en information. Ce problĂšme est beaucoup plus accentuĂ© avec les requĂȘtes ambigĂŒes. Lorsque plusieurs centres d’intĂ©rĂȘt auxquels est liĂ©e une requĂȘte ambiguĂ« sont identifiĂ©s dans le profil de l’utilisateur, le systĂšme se voit incapable de sĂ©lectionner les donnĂ©es pertinentes depuis ce profil pour rĂ©pondre Ă  la requĂȘte. Ceci a un impact direct sur la qualitĂ© des rĂ©sultats fournis Ă  cet utilisateur. Afin de remĂ©dier Ă  quelques-unes de ces limitations, nous nous sommes intĂ©ressĂ©s dans ce cadre de cette thĂšse de recherche au dĂ©veloppement de techniques destinĂ©es principalement Ă  l'amĂ©lioration de la pertinence des rĂ©sultats des SRIs actuels et Ă  faciliter l'exploration de grandes collections de documents. Pour ce faire, nous proposons une solution basĂ©e sur un nouveau concept d'indexation et de recherche d'information appelĂ© la projection multi-espaces. Cette proposition repose sur l'exploitation de diffĂ©rentes catĂ©gories d'information sĂ©mantiques et sociales qui permettent d'enrichir l'univers de reprĂ©sentation des documents et des requĂȘtes de recherche en plusieurs dimensions d'interprĂ©tations. L’originalitĂ© de cette reprĂ©sentation est de pouvoir distinguer entre les diffĂ©rentes interprĂ©tations utilisĂ©es pour la description et la recherche des documents. Ceci donne une meilleure visibilitĂ© sur les rĂ©sultats retournĂ©s et aide Ă  apporter une meilleure flexibilitĂ© de recherche et d'exploration, en donnant Ă  l’utilisateur la possibilitĂ© de naviguer une ou plusieurs vues de donnĂ©es qui l’intĂ©ressent le plus. En outre, les univers multidimensionnels de reprĂ©sentation proposĂ©s pour la description des documents et l’interprĂ©tation des requĂȘtes de recherche aident Ă  amĂ©liorer la pertinence des rĂ©sultats de l’utilisateur en offrant une diversitĂ© de recherche/exploration qui aide Ă  rĂ©pondre Ă  ses diffĂ©rents besoins et Ă  ceux des autres diffĂ©rents utilisateurs. Cette Ă©tude exploite diffĂ©rents aspects liĂ©s Ă  la recherche personnalisĂ©e et vise Ă  rĂ©soudre les problĂšmes engendrĂ©s par l’évolution des besoins en information de l’utilisateur. Ainsi, lorsque le profil de cet utilisateur est utilisĂ© par notre systĂšme, une technique est proposĂ©e et employĂ©e pour identifier les intĂ©rĂȘts les plus reprĂ©sentatifs de ses besoins actuels dans son profil. Cette technique se base sur la combinaison de trois facteurs influents, notamment le facteur contextuel, frĂ©quentiel et temporel des donnĂ©es. La capacitĂ© des utilisateurs Ă  interagir, Ă  Ă©changer des idĂ©es et d’opinions, et Ă  former des rĂ©seaux sociaux sur le Web, a amenĂ© les systĂšmes Ă  s’intĂ©resser aux types d’interactions de ces utilisateurs, au niveau d’interaction entre eux ainsi qu’à leurs rĂŽles sociaux dans le systĂšme. Ces informations sociales sont abordĂ©es et intĂ©grĂ©es dans ce travail de recherche. L’impact et la maniĂšre de leur intĂ©gration dans le processus de RI sont Ă©tudiĂ©s pour amĂ©liorer la pertinence des rĂ©sultats. Since its appearance in the early 90's, the World Wide Web (WWW or Web) has provided universal access to knowledge and the world of information has been primarily witness to a great revolution (the digital revolution). It quickly became very popular, making it the largest and most comprehensive database and knowledge base thanks to the amount and diversity of data it contains. However, the considerable increase and evolution of these data raises important problems for users, in particular for accessing the documents most relevant to their search queries. In order to cope with this exponential explosion of data volume and facilitate their access by users, various models are offered by information retrieval systems (IRS) for the representation and retrieval of web documents. Traditional SRIs use simple keywords that are not semantically linked to index and retrieve these documents. This creates limitations in terms of the relevance and ease of exploration of results. To overcome these limitations, existing techniques enrich documents by integrating external keywords from different sources. However, these systems still suffer from limitations that are related to the exploitation techniques of these sources of enrichment. When the different sources are used so that they cannot be distinguished by the system, this limits the flexibility of the exploration models that can be applied to the results returned by this system. Users then feel lost to these results, and find themselves forced to filter them manually to select the relevant information. If they want to go further, they must reformulate and target their search queries even more until they reach the documents that best meet their expectations. In this way, even if the systems manage to find more relevant results, their presentation remains problematic. In order to target research to more user-specific information needs and improve the relevance and exploration of its research findings, advanced SRIs adopt different data personalization techniques that assume that current research of user is directly related to his profile and / or previous browsing / search experiences. However, this assumption does not hold in all cases, the needs of the user evolve over time and can move away from his previous interests stored in his profile. In other cases, the user's profile may be misused to extract or infer new information needs. This problem is much more accentuated with ambiguous queries. When multiple POIs linked to a search query are identified in the user's profile, the system is unable to select the relevant data from that profile to respond to that request. This has a direct impact on the quality of the results provided to this user. In order to overcome some of these limitations, in this research thesis, we have been interested in the development of techniques aimed mainly at improving the relevance of the results of current SRIs and facilitating the exploration of major collections of documents. To do this, we propose a solution based on a new concept and model of indexing and information retrieval called multi-spaces projection. This proposal is based on the exploitation of different categories of semantic and social information that enrich the universe of document representation and search queries in several dimensions of interpretations. The originality of this representation is to be able to distinguish between the different interpretations used for the description and the search for documents. This gives a better visibility on the results returned and helps to provide a greater flexibility of search and exploration, giving the user the ability to navigate one or more views of data that interest him the most. In addition, the proposed multidimensional representation universes for document description and search query interpretation help to improve the relevance of the user's results by providing a diversity of research / exploration that helps meet his diverse needs and those of other different users. This study exploits different aspects that are related to the personalized search and aims to solve the problems caused by the evolution of the information needs of the user. Thus, when the profile of this user is used by our system, a technique is proposed and used to identify the interests most representative of his current needs in his profile. This technique is based on the combination of three influential factors, including the contextual, frequency and temporal factor of the data. The ability of users to interact, exchange ideas and opinions, and form social networks on the Web, has led systems to focus on the types of interactions these users have at the level of interaction between them as well as their social roles in the system. This social information is discussed and integrated into this research work. The impact and how they are integrated into the IR process are studied to improve the relevance of the results

    Étudier la gĂ©ographie des activitĂ©s et des collectifs scientifiques dans le monde : de la croissance du systĂšme de production contemporain aux dynamiques d'une spĂ©cialitĂ©, la rĂ©paration de l'ADN

    Get PDF
    This thesis considers the geography of scientific activities through its productive dimension (publications retrieved from bibliographic databases). An original method is designed which relies on two principles: taking the urban area as an elementary level of analysis to study the repartition and organization of research activity at the world scale, taking into account co-authorship data to deduce networks of scientific collaborations between places. The main results show a trend toward the spatial diffusion of production activity at several scales, mitigating the monopoly of hegemonic and over-represented areas in the whole corpus of scientific references considered (SCI Expanded). A case study is realized on a research field in molecular biology: DNA Repair. Considering the role of individual trajectories, it explains the geography of the emergence of the scientific specialty as well as the spatial diffusion of a problem area related to the field of DNA Transcription.Cette thĂšse envisage la gĂ©ographie des activitĂ©s scientifiques Ă  travers leur dimension productive (les publications des chercheurs). La mĂ©thode dĂ©finie permet de localiser et d’analyser Ă  plusieurs dates la production et les rĂ©seaux de collaboration entre chercheurs Ă  l'Ă©chelle mondiale depuis le niveau de l’agglomĂ©ration urbaine. Les rĂ©sultats montrent un mouvement rĂ©cent de diffusion de l’activitĂ© Ă  un nombre croissant de lieux, attĂ©nuant le monopole d’espaces autrefois hĂ©gĂ©moniques et sur-reprĂ©sentĂ©s dans le corpus de rĂ©fĂ©rences Ă©tudiĂ© (le Science Citation Index Expanded). Une Ă©tude de cas est rĂ©alisĂ©e sur un domaine de recherche en biologie molĂ©culaire : la rĂ©paration de l'ADN. ConsidĂ©rant le rĂŽle des trajectoires individuelles, elle aborde les principes gĂ©ographiques d'Ă©mergence de la spĂ©cialitĂ© et la diffusion spatiale d'une question de recherche associĂ©e au domaine de la transcription de l'ADN
    • 

    corecore