80 research outputs found

    Un système pour l'annotation semi-automatique des vidéos et application à l'indexation

    Get PDF

    Fédération et amélioration des activités documentaires par la pratique d'annotation collective

    Get PDF
    Daily activities carried out with paper documents are nowadays transposed onto their digital counterparts. A plethora of software enable people to achieve document-related activities. In particular, these comprise information retrieval used while drafting new documents. Documents may later be disseminated, exploited and organized in readers' document repositories. Our study on current systems showed two main limitations. On the one hand, any system meets only one or at most two activities. The underlying activity compartmentalization is detrimental to users—who have to master and juggle several systems—as well as to systems—having partial knowledge of users' needs. On the other hand, systems do not harness the organizational members' document-related activities. The proposed contribution is twofold. Firstly, we designed a model for federating the document-related activities through collective annotation practice. Associated with this model are collective processes intending to give each activity the benefit of the other ones. This also fosters inter-user benefit as people take advantage of the group and vice versa. Actually, the purpose of the proposed approach is twofold: simplifying document access and appropriation while anticipating individuals' needs to offer them unintrusive assistance. Secondly, our approach exploits the organizational members' document repositories. Although they do contain highly valuable information being collected with a lot of efforts, they paradoxically remain dormant. With the aim of harnessing these information sources, we designed a multi-faceted interface for accessing any organization's document resources. This interface allows the exploration of documents as well as users of these documents, according to various dimensions and granularity levels. Our proposals were validated through several experiments and the TafAnnote prototype development. They demonstrate the feasibility of our approach which federates document-related activities with collective annotation practice.Les activités documentaires couramment réalisées sur les documents papier sont aujourd'hui transposées sur leurs homologues électroniques. Ainsi, une kyrielle de systèmes permet de mener à bien les activités liées aux documents. Ils permettent notamment de rechercher de l'information utilisée pour rédiger un document qui peut être ensuite diffusé, exploité et organisé par ses lecteurs dans leur espace documentaire. Notre étude des systèmes existants a permis de révéler deux limites principales. Premièrement, un système ne répond généralement qu'à une seule, voire à deux activités. Ce cloisonnement des activités est préjudiciable à la fois pour les usagers (qui doivent maîtriser et jongler entre de nombreux outils) et pour les systèmes (qui ne possèdent qu'une représentation parcellaire des besoins des usagers). Deuxièmement, les systèmes n'exploitent pas les résultats des activités documentaires des membres organisationnels.Notre contribution comprend deux volets. Premièrement, nous proposons un modèle fédérant les activités documentaires autour de la pratique d'annotation collective. Des processus collectifs y sont associés afin d'exploiter chaque activité documentaire pour enrichir les autres, apportant ainsi une assistance à chaque individu en tirant parti du groupe, et vice versa. Le but de cette approche originale est double : simplifier l'accès et l'appropriation des documents tout en anticipant les besoins de l'usager pour lui offrir une assistance non intrusive. Deuxièmement, nous proposons d'exploiter les espaces documentaires des membres organisationnels. Bien qu'ils contiennent des informations à haute valeur pour l'organisation, collectées au prix de coûteux efforts, ces espaces demeurent paradoxalement en sommeil. Afin de tirer parti de ces espaces documentaires, nous proposons une interface multi-facettes d'accès au capital documentaire d'une organisation. Cette interface permet l'exploration des documents et individus de l'organisation selon différents axes et niveaux de granularité. Nos propositions ont été validées par différentes expérimentations ainsi que par le développement du prototype TafAnnote qui souligne la faisabilité de notre approche fédérant les activités documentaires autour de l'annotation collective

    Étudier des structures de discours : préoccupations pratiques et méthodologiques

    Get PDF
    National audienceThis paper deals with problems related to discourse analysis within the framework of corpus linguistics, through a linguistic study dealing with procedurality in discourse. The fact that the study does not concern a specific lexical item makes it difficult to collect data without any predefined idea, in other words without introducing a bias in the study. The paper proposes a method to solve these problems, involving several annotators on the same texts and merging their proposals in order to get an objective unified annotation. We show that this step is a real part of the overall linguistic analysis.Cet article porte sur des problèmes d'analyse en corpus de structures discursives, en partant de l'exemple de la procéduralité. Quand l'objet d'étude ne porte pas sur une forme particulière, il est difficile de recueillir les données à analyser sans idée préconçue, c'est-à-dire sans biaiser a priori les résultats. L'article propose une méthode permettant de résoudre en partie ces problèmes, en partant d'une annotation à plusieurs mains qui est progressivement unifiée afin d'obtenir un résultat objectif. Nous montrons que cette étape fait pleinement partie de l'étude linguistique elle-même

    Désignations nominales des événements (étude et extraction automatique dans les textes)

    Get PDF
    Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments notables des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Formes et rĂ´les des annotations discursives dans une liste de discussion professionnelle

    Get PDF
    International audienceNous souhaitons pour l'analyse de notre étude d'un fil discursif de la liste de discussion cdidoc nous appuyer sur la théorie des transactions communicationnelles (Zacklad 2005). Nous postulons que les collectifs sont en mesure de créer de nouvelles connaissances à travers leurs interactions langagières. L'action collective organisée génère des situations d'interdépendance cognitive entre les acteurs qui sont réduites par le biais de transactions communicationnelles. Cette présentation de la théorie des transactions communicationnelles va nous permettre de comprendre le rôle essentiel que jouent les annotations dans la coopération médiatisée par ce type de documents

    Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web

    Get PDF
    En Recherche d'Information (RI), les documents sont classiquement indexés en fonction de leur contenu, qu'il soit textuel ou multimédia. Les moteurs de recherche s'appuyant sur ces index sont aujourd'hui des outils performants, répandus et indispensables. Ils visent à fournir des réponses pertinentes selon le besoin de l'utilisateur, sous forme de textes, images, sons, vidéos, etc. Nos travaux de thèse s'inscrivent dans le contexte des documents de type image. Plus précisément, nous nous sommes intéressés aux systèmes d'annotation automatique d'images qui permettent d'associer automatiquement des mots-clés à des images afin de pouvoir ensuite les rechercher par requête textuelle. Ce type d'annotation cherche à combler les lacunes des approches d'annotation manuelle et semi-automatique. Celles-ci ne sont plus envisageables dans le contexte actuel qui permet à chacun de prendre de nombreuses photos à faible coût (en lien avec la démocratisation des appareils photo numériques et l'intégration de capteurs numériques dans les téléphones mobiles). Parmi les différents types de collections d'images existantes (par exemple, médicales, satellitaires) dans le cadre de cette thèse nous nous sommes intéressés aux collections d'images de type paysage (c.-à-d. des images qui illustrent des points d'intérêt touristiques) pour lesquelles nous avons identifié des défis, tels que l'identification des nouveaux descripteurs pour les décrire et de nouveaux modèles pour fusionner ces derniers, l'identification des sources d'information pertinentes et le passage à l'échelle. Nos contributions portent sur trois principaux volets. En premier lieu, nous nous sommes attachés à exploiter différents descripteurs qui peuvent influencer la description des images de type paysage : le descripteur de spatialisation (caractérisé par la latitude et la longitude des images), le descripteur de temporalité (caractérisé par la date et l'heure de la prise de vue) et le descripteur de thématique (caractérisé par les tags issus des plate formes de partage d'images). Ensuite, nous avons proposé des approches pour modéliser ces descripteurs au regard de statistiques de tags liées à leur fréquence et rareté et sur des similarités spatiale et temporelle. Deuxièmement, nous avons proposé un nouveau processus d'annotation d'images qui vise à identifier les mots-clés qui décrivent le mieux les images-requêtes données en entrée d'un système d'annotation par un utilisateur. Pour ce faire, pour chaque image-requête nous avons mis en œuvre des filtres spatial, temporel et spatio-temporel afin d'identifier les images similaires ainsi que leurs tags associés. Ensuite, nous avons fédéré les différents descripteurs dans un modèle probabiliste afin de déterminer les termes qui décrivent le mieux chaque image-requête. Enfin, le fait que les contributions présentées ci-dessus s'appuient uniquement sur des informations issues des plateformes de partage d'images (c.-à-d. des informations subjectives) a suscité la question suivante : les informations issues du Web peuvent-elles fournir des termes objectifs pour enrichir les descriptions initiales des images. À cet effet, nous avons proposé une approche basée sur les techniques d'expansion de requêtes du domaine de la RI. Elle porte essentiellement sur l'étude de l'impact des différents algorithmes d'expansion, ainsi que sur l'agrégation des résultats fournis par le meilleur algorithme et les résultats fournis par le processus d'annotation d'images. Vu qu'il n'existe pas de cadre d'évaluation standard d'annotation automatique d'images, plus particulièrement adapté aux collections d'images de type paysage, nous avons proposé des cadres d'évaluation appropriés afin de valider nos contributions. En particulier, les différentes approches proposées sont évaluées au regard de la modélisation des descripteur de spatialisation, de temporalité et de thématique. De plus, nous avons validé le processus d'annotation d'images, et nous avons montré qu'il surpasse en qualité deux approches d'annotation d'images de la littérature. Nous avons comparé également l'approche d'enrichissement avec le processus d'annotation d'image pour souligner son efficacité et l'apport des informations issues du Web. Ces expérimentations ont nécessité le prototypage du logiciel AnnoTaGT, qui offre aux utilisateurs un cadre technique pour l'annotation automatique d'images.The documents processed by Information Retrieval (IR) systems are typically indexed according to their contents: Text or multimedia. Search engines based on these indexes aim to provide relevant answers to users' needs in the form of texts, images, sounds, videos, and so on. Our work is related to "image" documents. We are specifically interested in automatic image annotation systems that automatically associate keywords to images. Keywords are subsequently used for search purposes via textual queries. The automatic image annotation task intends to overcome the issues of manual and semi-automatic annotation tasks, as they are no longer feasible in nowadays' context (i.e., the development of digital technologies and the advent of devices, such as smartphones, allowing anyone to take images with a minimal cost). Among the different types of existing image collections (e.g., medical, satellite) in our work we are interested in landscape image collections for which we identified the following challenges: What are the most discriminant features for this type of images ? How to model and how to merge these features ? What are the sources of information that should be considered ? How to manage scalability issues ? The proposed contribution is threefold. First, we use different factors that influence the description of landscape images: The spatial factor (i.e., latitude and longitude of images), the temporal factor (i.e., the time when the images were taken), and the thematic factor (i.e., tags crowdsourced and contributed to image sharing platforms). We propose various techniques to model these factors based on tag frequency, as well as spatial and temporal similarities. The choice of these factors is based on the following assumptions: A tag is all the more relevant for a query-image as it is associated with images located in its close geographical area ; A tag is all the more relevant for a query-image as it is associated with images captured close in time to it ; sourcing concept). Second, we introduce a new image annotation process that recommends the terms that best describe a given query-image provided by a user. For each query-image we rely on spatial, temporal, and spatio-temporal filters to identify similar images along with their tags. Then, the different factors are merged through a probabilistic model to boost the terms best describing each query-image. Third, the contributions presented above are only based on information extracted from image photo sharing platforms (i.e., subjective information). This raised the following research question: Can the information extracted from the Web provide objective terms useful to enrich the initial description of images? We tackle this question by introducing an approach relying on query expansion techniques developed in IR. As there is no standard evaluation protocol for the automatic image annotation task tailored to landscape images, we designed various evaluation protocols to validate our contributions. We first evaluated the approaches defined to model the spatial, temporal, and thematic factors. Then, we validated the annotation image process and we showed that it yields significant improvement over two state-of-the-art baselines. Finally, we assessed the effectiveness of tag expansion through Web sources and showed its contribution to the image annotation process. These experiments are complemented by the image annotation prototype AnnoTaGT, which provides users with an operational framework for automatic image annotation

    Extraction de données à partir du Web

    Get PDF
    Le Web est devenu riche en informations circulant à travers le monde entier via le réseau Internet. Cela a provoqué l'expansion de grandes quantités de données. De plus, ces données sont souvent non structurées et difficiles à être utilisées dans des applications Web. D'une part, l'intérêt des utilisateurs pour l'exploitation de ces données a augmenté d'une façon concurrentielle. D'autre part, les données ne sont pas faciles à être consultées par l'humain. Cet intérêt a motivé les chercheurs à penser à des approches d'extraction des données à partir du Web, d'où l'apparition des adaptateurs. Un adaptateur est basé sur un ensemble des règles d'extraction définissant l'emplacement des données dans le document à extraire. Plusieurs outils existent pour la construction de ces règles. Notre travail s'intéresse au problème de l'extraction de données à partir du Web. Dans ce document, nous proposons une méthode d'extraction des données à partir du Web basée sur l'apprentissage machine pour la construction des règles d'extraction. Les résultats de l'extraction de notre approche démontrent une importance en matière de précision d'extraction et une meilleure performance dans le processus d'apprentissage. L'utilisation de notre outil dans une application d'interrogation de sources de données a permis de répondre aux besoins des utilisateurs d'une manière très simple et automatique.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : extraction, adaptateurs, règles d'extraction, apprentissage machine, Web, applications Web

    La société libérale duplessiste, 1944-1960

    Get PDF
    La présente annexe fournit l'essentiel des informations nécessaires à la compréhension de la démarche méthodologique mise en oeuvre pour le traitement et l'analyse du discours politique dont les résultats font la trame de ce livre. On pourra trouver ailleurs un exposé plus élaboré des fondements théoriques et méthodologiques de notre travail. Nous procéderons plutôt ici à une description avant tout technique des différentes démarches et procédures de recherche. Cela ne nous dispensera cependant pas de situer notre démarche dans le cadre plus général de l'analyse du discours telle que nous l'avons conçue depuis le début de nos recherches sur le discours politique, ni de donner sens à la démarche interprétative qui est la nôtre dans ce livre. Nous décrirons donc succinctement la perspective d'analyse que nous avons privilégiée avant même de présenter les divers choix méthodologiques concernant le corpus, la catégorisation et la stratégie informatique de traitement des données
    • …
    corecore