19 research outputs found

    LORESA : un système de recommandation d'objets d'apprentissage basé sur les annotations sémantiques

    Full text link
    Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

    Désignations nominales des événements (étude et extraction automatique dans les textes)

    Get PDF
    Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments notables des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Un environnement sémantique à base d'agents pour la formation à distance (E-Learning)

    Get PDF
    Aujourd’hui, les établissements d’enseignement, tels que les universités, de plus en plus offrent des contenus d’E -Learning. Certains de ces cours sont utilisés avec l'enseignement traditionnel (face à face ou présentiel), tandis que d'autres sont utilisés entièrement en ligne. La création de contenu d'apprentissage est une tâche principale dans tous les environnements d'apprentissage en ligne. Les contraintes de réduire au minimum le temps nécessaire pour développer un contenu d'apprentissage, d'augmenter sa qualité scientifique et de l'adapter à de nombreuses situations (contenu adaptatif), ont été un principal objectif et donc plusieurs approches et méthodes ont été proposées. En outre, les caractéristiques intellectuelles et sociales, ainsi que les styles d'apprentissage des individus, peuvent être très différents. Ces différences conduisent les personnes à adapter le contenu d'apprentissage en tenant compte des profils des apprenants et de leurs objectifs et caractéristiques. Cette recherche ouvre des portes pour les systèmes d'apprentissage avancées, qui fournissent aux apprenants immédiatement, des contenus d’apprentissage adaptés selon plusieurs critères de chaque apprenant. Alors que, il ne peut pas être pratique si nous n'avons pas plus d'informations sur l'apprenant et le contenu d'apprentissage (objectifs d'apprentissage, les prérequis, préférences, niveaux ...etc). Par conséquent, nous développons un système collaboratif, où plusieurs auteurs travaillent en collaboration, pour créer et annoter le contenu éducatif en utilisant le système multi-agents. La contribution de notre système est l'hybridation des techniques d'adaptation avec celles de la collaboration et du Web sémantique (ontologie, annotation). Nous représentons les profils des apprenants et le contenu d'apprentissage en utilisant des ontologies et des annotations pour répondre à la diversité et aux besoins individuelles des apprenants. Nous utilisons le paradigme agent, dans notre système, pour bénéficier des points forts de ce paradigme tels que la modularité, autonomie, flexibilité... etc

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    Compression de données d'animation acquises par capture de mouvements

    Full text link
    Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Modèles structurés pour la reconnaissance d'actions dans des vidéos réalistes

    Get PDF
    Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions comme "ouvrir une porte" ou "courir" dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à-dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales - notamment les points d'intérêts spatio-temporels et le flot optique - et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils différent de par le type de problème traité et la structure sur laquelle ils reposent. Premièrement, nous proposons de modéliser une action par une séquence de parties temporelles atomiques correspondant à une décomposition sémantique. De plus, nous décrivons comment apprendre un modèle flexible de la structure temporelle dans le but de localiser des actions dans des vidéos de longue durée. Deuxièmement, nous étendons nos idées à l'estimation et à la représentation de la structure spatio-temporelle d'activités plus complexes. Nous décrivons un algorithme d'apprentissage non supervisé permettant de dégager automatiquement une décomposition hiérarchique du contenu dynamique d'une vidéo. Nous utilisons la structure arborescente qui en résulte pour modéliser une action de manière hiérarchique. Troisièmement, au lieu de comparer des modèles structurés, nous explorons une autre alternative : directement comparer des modèles de structure. Pour cela, nous représentons des actions de courte durée comme des séries temporelles en haute dimension et étudions comment la dynamique temporelle d'une action peut être utilisée pour améliorer les performances des modèles non structurés formant l'état de l'art en reconnaissance d'actions. Dans ce but, nous proposons un noyau calculant de manière efficace la similarité entre les dépendances temporelles respectives de deux actions. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes.This dissertation introduces novel models to recognize broad action categories - like "opening a door" and "running" - in real-world video data such as movies and internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich - in order to correctly differentiate between different action categories - and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in structuring collections of robust local features - such as spatio-temporal interest points and short-term point trajectories. We also propose efficient kernels to compare our structured action representations. Even if they share the same principles, our methods differ in terms of the type of problem they address and the structure information they rely on. We, first, propose to model a simple action as a sequence of meaningful atomic temporal parts. We show how to learn a flexible model of the temporal structure and how to use it for the problem of action localization in long unsegmented videos. Extending our ideas to the spatio-temporal structure of more complex activities, we, then, describe a large-scale unsupervised learning algorithm used to hierarchically decompose the motion content of videos. We leverage the resulting tree-structured decompositions to build hierarchical action models and provide an action kernel between unordered binary trees of arbitrary sizes. Instead of structuring action models, we, finally, explore another route: directly comparing models of the structure. We view short-duration actions as high-dimensional time-series and investigate how an action's temporal dynamics can complement the state-of-the-art unstructured models for action classification. We propose an efficient kernel to compare the temporal dependencies between two actions and show that it provides useful complementary information to the traditional bag-of-features approach. In all three cases, we conducted thorough experiments on some of the most challenging benchmarks used by the action recognition community. We show that each of our methods significantly outperforms the related state of the art, thus highlighting the importance of structure information for accurate and robust action recognition in real-world videos.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF

    Vers une vision systémique du processus de l'explication : récit d'une recherche sur l'intégration de la pédagogie, de l'ingénierie et de la modélisation

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Une redéfinition de la métaphoricité à l’oral:Mise en place d’outils d’analyse par une approche de corpus contrastive

    Get PDF
    A corpus of interviews carried out both in English and in French on the topic of music was collected, XML-formatted and tagged morphosyntactically and semantically (semantic distance worked out thanks to LSA). The goal is to devise and train tools not only for spotting metaphors but assessing metaphor liveliness. Thanks to a parallel use of semantic structure and the prosodic data, live metaphor templates are established, and then used to access contrastively the liveliness of metaphor production in the different conceptual mappings tapped in the particular area of interest. However close the deep underlying semantic structures may be in both languages, there are slight differences in the surface realizations due to idiosyncratic structural constraints. Metaphor liveliness seems to be nevertheless correlated with literal translatability, whereas lexicalised metaphors are usually not translatable literally. This sreening for hypercoding elements of discourse is potentially usable in huge oral corpora now conceivable with internet, not only with a view to providing tools for automatic translation, but also as an observation platform of language evolution at a time when things appear and disppear fast.A partir d'un ensemble d'interviews menées en anglais et en français auprès de membres de la communauté musicale et portant sur la musique, on se propose d'affiner des outils de détection de métaphores et d'analyse de la métaphoricité. Le corpus obtenu à partir des scripts est formaté en XML, ce qui permet l'adjonction de balises morphosyntaxiques et sémantiques. Celles-ci sont utilisées conjointement aux données prosodiques et mènent à l'établissement de patrons accentuels qui vont pouvoir compléter les indices purement discursifs et sémantiques utilisés jusqu'alors dans ce type de recherches. L'ensemble des paramètres de la matrice métaphorique est ensuite mis en pratique pour explorer les mappings conceptuels en jeu dans les métaphores sur la musique. Les structures sémantiques sous-jacentes présentes dans les deux langues ne sont pas réalisées en surface à l'aide du même "emballage" morphosyntaxique étant données les contraintes différentes mais sont traduisibles "littéralement" d'une langue à une autre pour les métaphores vives, ce qui n'est pas le cas lorsque celles-ci sont lexicalisées. Ce type de repérage d'éléments hyper-codants du discours semble être utilisable à partir d'énormes corpus oraux bientôt disponibles en ligne dans le but d'établir des cartographies conceptuelles qui seraient utiles à la traduction mais pourrait aussi être un observatoire de fonctionnement de ces mutations linguistiques initiées à l'oral
    corecore