22 research outputs found

    Un système pour l'annotation semi-automatique des vidéos et application à l'indexation

    Get PDF

    Indexation visuelle et recherche d\u27images sur le web : enjeux et problèmes

    Get PDF
    Si le texte reste très présent sur le web, ce sont désormais des documents multimédia qui s\u27y échangent majoritairement. Comment de tels documents peuvent-ils être cherchés, retrouvés sur la toile dont le système d’indexation et d’organisation est voué au texte ? Comment indexer des documents visuels, qu’est-ce qui est indexable au sein d’images ? C’est ce que ce mémoire se propose d’étudier en se focalisant sur l’indexation des images fixes à travers l’analyse de moteurs de recherche indexant des ressources visuelles, et de plateformes de stockage et de partage d’images. Ce sont ensuite les avantages et les limites de la folksonomie qui sont analysés, puis ceux du géotagging comme nouvelle forme d’indexation, de gestion documentaire et de navigation. Enfin, dans une dernière partie, l’auteure revient sur les présupposés techniques des systèmes d’indexation et de recherche d’images par le contenu et nous livre une analyse des enjeux documentaires, économiques et sociaux de ces procédés

    Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot

    Get PDF
    This thesis work focuses on audio-visual detection of emotional (laugh and smile) and attentional markers for elderly people in social interaction with a robot. To effectively understand and model the pattern of behavior of very old people in the presence of a robot, relevant data are needed. I participated in the collection of a corpus of elderly people in particular for recording visual data. The system used to control the robot is a Wizard of Oz, several daily conversation scenarios were used to encourage people to interact with the robot. These scenarios were developed as part of the ROMEO2 project with the Approche association. We described at first the corpus collected which contains 27 subjects of 85 years' old on average for a total of 9 hours, annotations and we discussed the results obtained from the analysis of annotations and two questionnaires.My research then focuses on the attention detection and the laughter and smile detection. The motivations for the attention detection are to detect when the subject is not addressing to the robot and adjust the robot's behavior to the situation. After considering the difficulties related to the elderly people and the analytical results obtained by the study of the corpus annotations, we focus on the rotation of the head at the visual index and energy and quality vote for the detection of the speech recipient. The laughter and smile detection can be used to study on the profile of the speaker and her emotions. My interests focus on laughter and smile detection in the visual modality and the fusion of audio-visual information to improve the performance of the automatic system. Spontaneous expressions are different from posed or acted expression in both appearance and timing. Designing a system that works on realistic data of the elderly is even more difficult because of several difficulties to consider such as the lack data for training the statistical model, the influence of the facial texture and the smiling pattern for visual detection, the influence of voice quality for auditory detection, the variety of reaction time, the level of listening comprehension, loss of sight for elderly people, etc. The systems of head-turning detection, attention detection and laughter and smile detection are evaluated on ROMEO2 corpus and partially evaluated (visual detections) on standard corpus Pointing04 and GENKI-4K to compare with the scores of the methods on the state of the art. We also found a negative correlation between laughter and smile detection performance and the number of laughter and smile events for the visual detection system and the audio-visual system. This phenomenon can be explained by the fact that elderly people who are more interested in experimentation laugh more often and therefore perform more various poses. The variety of poses and the lack of corresponding data bring difficulties for the laughter and smile recognition for our statistical systems. The experiments show that the head-turning can be effectively used to detect the loss of the subject's attention in the interaction with the robot. For the attention detection, the potential of a cascade method using both methods in a complementary manner is shown. This method gives better results than the audio system. For the laughter and smile detection, under the same leave-one-out protocol, the fusion of the two monomodal systems significantly improves the performance of the system at the segmental evaluation.Ces travaux de thèse portent sur la détection audio-visuelle de marqueurs affectifs (rire et sourire) et attentionnels de personnes âgées en interaction sociale avec un robot. Pour comprendre efficacement et modéliser le comportement des personnes très âgées en présence d'un robot, des données pertinentes sont nécessaires. J'ai participé à la collection d'un corpus de personnes âgées notamment pour l'enregistrement des données visuelles. Le système utilisé pour contrôler le robot est un magicien d'Oz, plusieurs scénarios de conversation au quotidien ont été utilisés pour encourager les gens à coopérer avec le robot. Ces scénarios ont été élaborés dans le cadre du projet ROMEO2 avec l'association Approche.Nous avons décrit tout d'abord le corpus recueilli qui contient 27 sujets de 85 ans en moyenne pour une durée totale de 9 heures, les annotations et nous avons discuté des résultats obtenus à partir de l'analyse des annotations et de deux questionnaires. Ma recherche se focalise ensuite sur la détection de l'attention et la détection de rire et de sourire. Les motivations pour la détection de l'attention consistent à détecter quand le sujet ne s'adresse pas au robot et à adapter le comportement du robot à la situation. Après avoir considéré les difficultés liées aux personnes âgées et les résultats d'analyse obtenus par l'étude des annotations du corpus, nous nous intéressons à la rotation de la tête au niveau de l'indice visuel et à l'énergie et la qualité de voix pour la détection du destinataire de la parole. La détection de rire et sourire peut être utilisée pour l'étude sur le profil du locuteur et de ses émotions. Mes intérêts se concentrent sur la détection de rire et sourire dans la modalité visuelle et la fusion des informations audio-visuelles afin d'améliorer la performance du système automatique. Les expressions sont différentes des expressions actées ou posés à la fois en apparence et en temps de réaction. La conception d'un système qui marche sur les données réalistes des personnes âgées est encore plus difficile à cause de plusieurs difficultés à envisager telles que le manque de données pour l'entrainement du modèle statistique, l'influence de la texture faciale et de la façon de sourire pour la détection visuelle, l'influence de la qualité vocale pour la détection auditive, la variété du temps de réaction, le niveau de compréhension auditive, la perte de la vue des personnes âgées, etc. Les systèmes de détection de la rotation de la tête, de la détection de l'attention et de la détection de rire et sourire sont évalués sur le corpus ROMEO2 et partiellement évalués (détections visuelles) sur les corpus standard Pointing04 et GENKI-4K pour comparer avec les scores des méthodes de l'état de l'art. Nous avons également trouvé une corrélation négative entre la performance de détection de rire et sourire et le nombre d'évènement de rire et sourire pour le système visuel et le système audio-visuel. Ce phénomène peut être expliqué par le fait que les personnes âgées qui sont plus intéressées par l'expérimentation rient plus souvent et sont plus à l'aise donc avec des poses variées. La variété des poses et le manque de données correspondantes amènent des difficultés pour la reconnaissance de rire et de sourire pour les systèmes statistiques.Les expérimentations montrent que la rotation de la tête peut être efficacement utilisée pour détecter la perte de l'attention du sujet dans l'interaction avec le robot. Au niveau de la détection de l'attention, le potentiel d'une méthode en cascade qui utilise les modalités d'une manière complémentaire est montré. Cette méthode donne de meilleurs résultats que le système auditif seul. Pour la détection de rire et sourire, en suivant le même protocole « Leave-one-out », la fusion des deux systèmes monomodaux améliore aussi significativement la performance par rapport à un système monomodal au niveau de l'évaluation segmentale

    Analyse acoustique de la voix émotionnelle de locuteurs lors d'une interaction humain-robot

    Get PDF
    Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux.This thesis deals with emotional voices during a human-robot interaction. In a natural interaction, we define at least, four kinds of variabilities: environment (room, microphone); speaker, its physic characteristics (gender, age, voice type) and personality; emotional states; and finally the kind of interaction (game scenario, emergency, everyday life). From audio signals collected in different conditions, we tried to find out, with acoustic features, to overlap speaker and his emotional state characterisation taking into account these variabilities.To find which features are essential and which are to avoid is hard challenge because it needs to work with a high number of variabilities and then to have riche and diverse data to our disposal. The main results are about the collection and the annotation of natural emotional corpora that have been recorded with different kinds of speakers (children, adults, elderly people) in various environments, and about how reliable are acoustic features across the four variabilities. This analysis led to two interesting aspects: the audio characterisation of a corpus and the drawing of a black list of features which vary a lot. Emotions are ust a part of paralinguistic features that are supported by the audio channel, other paralinguistic features have been studied such as personality and stress in the voice. We have also built automatic emotion recognition and speaker characterisation module that we have tested during realistic interactions. An ethic discussion have been driven on our work.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Du texte à la génération d'environnements virtuels 3D : application à la scénographie théâtrale

    Get PDF
    This thesis is part of a multidisciplinary project, the DRAMA project, which attempts to generate 3D virtual scenes from the descriptions which are obtained from theatrical text. This project aims to simplify, as soon as possible, the tasks of the end-users by providing simple, fast, and effective tools. Thus, the technique used in this study is focused on the declarative modeling of virtual environments that is based on three phases (description, generation and management of knowledge). The description phase allows the designer to describe the environment from a set of properties, interpreted as a set of constraints for a generation system which produces one or several virtual environments solutions. This project, new tagging methods have been proposed to detect essential for the creation of scene, including information on the placement of objects. In addition, users can also run queries in the text from these tags. Placement properties are translated into spatial constraints with the data originally stored in a knowledge base that uses XML. A technique adopting the method of metaheuristics is then used for solving constraints. The object physical properties (collision, gravity, friction) were also managed from a physics engine. At the end, the finals scenes solutions were be proposed to the user, using a 3D rendering engine.Cette thèse s'inscrit dans le cadre d'un projet pluridisciplinaire, le projet DRAMA, qui consiste à générer des scènes virtuelles 3D à partir des descriptions contenues dans les textes théâtraux. L'un des objectifs de ce projet consiste à simplifier au maximum la tâche des utilisateurs finaux en leur offrant un outil simple, rapide, et efficace. Ainsi, la technique adoptée dans cette étude est axée sur la modélisation déclarative d'environnements virtuels qui s'appuie sur trois phases (description, génération et prise de connaissances). La phase de description permet au concepteur de décrire l'environnement à partir d'un ensemble de propriétés, interprétées en un ensemble de contraintes destinées à un système de génération qui produit un ou plusieurs environnements virtuels solutions.Dans le cadre de ce projet DRAMA, des nouvelles méthodes de balisage ont été proposées afin de détecter les éléments essentiels pour la création d'une pièce théâtrale, notamment les informations sur les placements d'objets. Par ailleurs, les utilisateurs peuvent, aussi, lancer des requêtes au niveau du texte à partir de ces balises. Les propriétés sur les placements seront traduites en contraintes spatiales grâce aux données initialement stockées dans une base de connaissance qui utilise le langage XML. Une technique adoptant la méthode des métaheuristiques est ensuite utilisée pour la résolution des contraintes de placements obtenues précédemment. La gestion des propriétés physiques des objets (collision, gravité, friction) a été aussi gérée à partir d'un moteur physique. À la fin, les scènes solutions finales seront proposées à l'utilisateur, en utilisant un moteur de rendu 3D

    La position initiale dans l'organisation du discours : <br />une exploration en corpus

    Get PDF
    This thesis proposes an exploratory study of discourse organization based on a written French corpus of 700.000 words. It focuses on initial position (defined as the pre-verbal zone) constituting the starting point for textual units at different levels of granularity: sections, paragraphs and sentences. Initial position is relevant in both cognitive and discourse linguistics. It is in this position that the speaker expresses the crucial information and it is from there that the reader's interpretation proceeds. Crucial information may consist in marking either continuity (e.g. expressing old information first) or discontinuity (e.g. indicating that the discourse frame in which incoming information is to be interpreted has changed).All pre-verbal zones in the corpus have been automatically annotated (23217 sentences) and their composition has been quantitatively analysed. Our data show that the discourse role of elements that appear in initial position is significantly related to discourse factors, and more precisely to the following three factors: text-type, textual position, and collocations in initial position.Cette thèse propose une étude exploratoire de l'organisation du discours basée sur un corpus de français écrit (700 000 mots). L'organisation du discours est abordée par la position initiale définie en tant que point de départ d'unités textuelles pouvant relever de trois niveaux d'organisation : les phrases, les paragraphes et les sections. La position initiale est un sujet d'étude commun à la linguistique cognitive et à la linguistique du discours. C'est en cette position que l'auteur exprime l'information cruciale et c'est sur la base de cette information que l'interprétation du lecteur se réalise. L'information cruciale peut consister à marquer une continuité dans le discours (par exemple en commençant l'unité textuelle par une information donnée) ou une discontinuité (en signalant par exemple que le cadre dans lequel interpréter les propos a changé).Toutes les zones préverbales du corpus ont été annotées automatiquement. L'analyse quantitative de leur composition montre que le rôle discursif des éléments en position initiale varie significativement selon des facteurs discursifs tels que le type de texte, la position textuelle et les collocations présentes en cette position

    Une approche computationnelle de la complexité linguistique par le traitement automatique du langage naturel et l'oculométrie

    Full text link
    Le manque d'intégration des sciences cognitives et de la psychométrie est régulièrement déploré – et ignoré. En mesure et évaluation de la lecture, une manifestation de ce problème est l’évitement théorique concernant les sources de difficulté linguistiques et les processus cognitifs associés à la compréhension de texte. Pour faciliter le rapprochement souhaité entre sciences cognitives et psychométrie, nous proposons d’adopter une approche computationnelle. En considérant les procédures informatiques comme des représentations simplifiées et partielles de théories cognitivistes, une approche computationnelle facilite l’intégration d’éléments théoriques en psychométrie, ainsi que l’élaboration de théories en psychologie cognitive. La présente thèse étudie la contribution d’une approche computationnelle à la mesure de deux facettes de la complexité linguistique, abordées à travers des perspectives complémentaires. La complexité intrinsèque du texte est abordée du point de vue du traitement automatique du langage naturel, avec pour objectif d'identifier et de mesurer les attributs (caractéristiques mesurables) qui modélisent le mieux la difficulté du texte. L'article 1 présente ALSI (pour Analyseur Lexico-syntaxique intégré), un nouvel outil de traitement automatisé du langage naturel qui extrait une variété d'attributs linguistiques, principalement issus de la recherche en psycholinguistique et en linguistique computationnelle. Nous évaluons ensuite le potentiel des attributs pour estimer la difficulté du texte. L'article 2 emploie ALSI et des méthodes d’apprentissage statistique pour estimer la difficulté de textes scolaires québécois. Dans le second volet de la thèse, la complexité associée aux processus de lecture est abordée sous l'angle de l'oculométrie, qui permet de faire des inférences quant à la charge cognitive et aux stratégies d’allocation de l’attention visuelle en lecture. L'article 3 décrit une méthodologie d'analyse des enregistrements d’oculométrie mobile à l'aide de techniques de vision par ordinateur (une branche de l'intelligence artificielle); cette méthodologie est ensuite testée sur des données de simulation. L'article 4 déploie la même méthodologie dans le cadre d’une expérience pilote d’oculométrie comparant les processus de lecture de novices et d'experts répondant à un test de compréhension du texte argumentatif. Dans l’ensemble, nos travaux montrent qu’il est possible d’obtenir des résultats probants en combinant des apports théoriques à une approche computationnelle mobilisant des techniques d’apprentissage statistique. Les outils créés ou perfectionnés dans le cadre de cette thèse constituent une avancée significative dans le développement des technologies numériques en mesure et évaluation de la lecture, avec des retombées à anticiper en contexte scolaire comme en recherche.The lack of integration of cognitive science and psychometrics is commonly deplored - and ignored. In the assessment of reading, one manifestation of this problem is a theoretical avoidance regarding sources of text difficulty and cognitive processes underlying text comprehension. To facilitate the desired integration of cognitive science and psychometrics, we adopt a computational approach. By considering computational procedures as simplified and partial representations of cognitivist models, a computational approach facilitates the integration of theoretical elements in psychometrics, as well as the development of theories in cognitive psychology. This thesis studies the contribution of a computational perspective to the measurement of two facets of linguistic complexity, using complementary perspectives. Intrinsic text complexity is approached from the perspective of natural language processing, with the goal of identifying and measuring text features that best model text difficulty. Paper 1 introduces ISLA (Integrated Lexico-Syntactic Analyzer), a new natural language processing tool that extracts a variety of linguistic features from French text, primarily taken from research in psycholinguistics and computational linguistics. We then evaluate the features’ potential to estimate text difficulty. Paper 2 uses ISLA and statistical learning methods to estimate difficulty of texts used in primary and secondary education in Quebec. In the second part of the thesis, complexity associated with reading processes is addressed using eye-tracking, which allows inferences to be made about cognitive load and visual attention allocation strategies in reading. Paper 3 describes a methodology for analyzing mobile eye-tracking recordings using computer vision techniques (a branch of artificial intelligence); this methodology is then tested on simulated data. Paper 4 deploys the same methodology in the context of an eye-tracking pilot experiment comparing reading processes in novices and experts during an argumentative text comprehension test. Overall, our work demonstrates that it is possible to obtain convincing results by combining theoretical contributions with a computational approach using statistical learning techniques. The tools created or perfected in the context of this thesis constitute a significant advance in the development of digital technologies for the measurement and evaluation of reading, with easy-to-identify applications in both academic and research contexts

    Livre universitaire numérique en sciences humaines et sociales : pour un foyer d’expertise et une infrastructure de stature mondiale (Le)

    Get PDF
    Au moment où le numérique occupe de plus en plus d’espace dans la communication scientifique, il est utile de s’interroger sur la capacité d’implantation (formes organisationnelles et modèles d’affaires) d’un système de publication numérique issu de la communauté universitaire en mesure d’éditer, de mettre en valeur et d’assurer la présence internationale du livre universitaire en sciences humaines et sociales
    corecore