219 research outputs found

    Indexation et interrogation de pages web décomposées en blocs visuels

    Get PDF
    Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats.This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.AIX-MARSEILLE3-Bib. élec. (130559903) / SudocSudocFranceF

    Questions-Réponses en domaine ouvert (sélection pertinente de documents en fonction du contexte de la question)

    Get PDF
    Les problématiques abordées dans ma thèse sont de définir une adaptation unifiée entre la sélection des documents et les stratégies de recherche de la réponse à partir du type des documents et de celui des questions, intégrer la solution au système de Questions-Réponses (QR) RITEL du LIMSI et évaluer son apport. Nous développons et étudions une méthode basée sur une approche de Recherche d Information pour la sélection de documents en QR. Celle-ci s appuie sur un modèle de langue et un modèle de classification binaire de texte en catégorie pertinent ou non pertinent d un point de vue QR. Cette méthode permet de filtrer les documents sélectionnés pour l extraction de réponses par un système QR. Nous présentons la méthode et ses modèles, et la testons dans le cadre QR à l aide de RITEL. L évaluation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menée soit sur des documents complets, soit sur des segments de documents. L hypothèse suivie est que le contenu informationnel des segments est plus cohérent et facilite l extraction de réponses. Dans le premier cas, les gains obtenus sont faibles comparés aux résultats de référence (sans filtrage). Dans le second cas, les gains sont plus élevés et confortent l hypothèse, sans pour autant être significatifs. Une étude approfondie des liens existant entre les performances de RITEL et les paramètres de filtrage complète ces évaluations. Le système de segmentation créé pour travailler sur des segments est détaillé et évalué. Son évaluation nous sert à mesurer l impact de la variabilité naturelle des pages web (en taille et en contenu) sur la tâche QR, en lien avec l hypothèse précédente. En général, les résultats expérimentaux obtenus suggèrent que notre méthode aide un système QR dans sa tâche. Cependant, de nouvelles évaluations sont à mener pour rendre ces résultats significatifs, et notamment en utilisant des corpus de questions plus importants.This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted especially with larger corpora of questions to make them significant.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Fouille de séquences d'images médicales. Application en chirurgie mini-invasive augmentée

    Get PDF
    In this thesis, we are interested in computer-aided ophthalmic surgery. In this goal, we propose to use surgery videos already stored in database and associated with contextual information (data patients, diagnostics ... etc). During the surgery, the surgeon is focused on his task. We try to improve the surgical procedures by proposing a system able, at any time, to guide the surgery steps by generating surgical warnings or recommendations if the current surgery shares signs of complications with already stored videos. Our goal is to develop methods and a system to select in the databases videos similar to a video stream captured by a digital camera monitoring the surgery (query). Our work will therefore implement methods related to Content Based Video Retrieval (CBVR) and Case-Based Reasoning (CBR). The methods are evaluated on three databases. The first two databases are collected at Brest University Hospital (France): the epiretinal membrane surgery dataset and the cataract surgery dataset. Third, in order to assess its generality, the system is applied to a large dataset of movie clips (Holywood) with classified human actions. To caracterize our videos, we proposed three original indexing methods derived from the compressed ``MPEG-4 AVC/H.264'' video stream. 1) A global method is based on motion histogram created for every frame of a compressed video sequence to extract motion direction and intensity statistics. 2) A local method combine segmentation and tracking to extract region displacements between consecutive I-frames and therefore characterize region trajectories. 3) To reduce the loss of information caused by using only the I-frames, we constructed a summary of each video based on a selection of the Group Of Pictures (GOP defined in the standard of compression). An originality of these methods comes from the use of the compressed domain, they not rely on standard methods, such as the optical flow, to characterize motion in videos. Instead, motion is directly extracted from the compressed MPEG stream. The goal is to provide a fast video characterization. Once videos are characterized, search is made by computing, within the meaning of a given metric, the distance between the signature of the query video and the signature of videos in the database. This computing can select videos as answer to the query without any semantic meaning. For this we use three methods. DTW (Dynamic Time Warping) provides an effective distance between two sequences of images. This algorithm is at the origin of the fast algorithm (FDTW) that we use to compare signatures in the first method. To compare signatures resulting from approach based on region motion trajectories, we propose to use a combination of FDTW and EMD (Earth Mover's Distance). The proposed extension of FDTW is referred to as EFDTW. To improve the retrieval result, we introduce an optimization process for computing distances between signature, by using genetic algorithms. The results obtained on the two medical databases are satisfactory. Thus, the mean precision at five reaches 79% (4 videos similar to the query video) on the epiretinal membrane surgery dataset and 72,69% (3 to 4 videos similar to the query video) on the cataract surgery dataset.Dans cette thèse, nous nous intéressons à l'aide à la décision lors d'interventions chirurgicales. Dans ce but, nous proposons d'utiliser des enregistrements vidéos acquis lors d'interventions chirurgicales antérieures, vidéos numérisées et archivées dans des dossiers d'intervention, contenant toutes les informations relatives à leur déroulement. Au cours de l'opération, le chirurgien ne peut pas consulter lui même des dossiers et vidéos déjà archivées car il est totalement concentré sur l'acte; par contre des outils d'analyse automatique en temps réel des images acquises en cours d'opération pourraient permettre cette utilisation de séquences déjà archivées, avec comme applications directes : des alertes en cas de problème, des informations sur les suites de tel ou tel geste dans des situations opératoires voisines (opération, caractéristiques patient, etc ...), des conseils sur les décisions. Notre objectif est donc de développer des méthodes permettant de sélectionner dans des archives des vidéos similaires à la vidéo proposée en requête. Nous nous appuyons pour cela sur la recherche de vidéos par le contenu (CBVR : Content Based Video Retrieval) et le raisonnement à base de cas (CBR : Case Based Reasoning). Les méthodes sont évaluées sur trois bases de données. Les deux premières bases de données étudiées sont des bases réalisées en chirurgie ophtalmologique, en collaboration avec le service d'ophtalmologie du CHRU de Brest : une base de chirurgie de pelage de membrane de la rétine et une base de chirurgie de la cataracte. La troisième base est la base de clips vidéo Hollywood, utilisée pour montrer la généricité des méthodes proposées. Pour caractériser les vidéos, nous proposons trois méthodes originales d'indexation à partir du domaine compressé : 1) une première méthode consiste à caractériser globalement la vidéo en utilisant des histogrammes de directions de mouvement, 2) une deuxième méthode est basée sur une segmentation spatio-temporelle et sur le suivi des régions entre deux images I, pour construire une signature décrivant la trajectoire des régions identifiées comme les plus importantes visuellement, 3) la troisième méthode est une variante de la deuxième méthode : afin de réduire la perte d'information engendrée en utilisant uniquement les images I, nous avons construit un résumé de la vidéo basé sur une sélection des Group Of Pictures (groupes d'images définis dans la norme de compression). Une des originalités de ces trois méthodes est d'utiliser les données vidéos dans le domaine compressé. Ce choix nous permet d'accéder à des éléments caractérisant les vidéos d'une manière rapide et efficace, sans devoir passer par la reconstruction totale du flux vidéo à partir du flux compressé

    Indexation et navigation dans les contenus visuels : approches basées sur les graphes

    Get PDF
    La première partie de cette thèse concerne l’indexation des documents vidéo en scènes. Les scènes sont des ensembles de plans vidéo partageant des caractéristiques similaires. Nous proposons d’abord une méthode interactive de détection de groupes de plans, partageant un contenu couleur similaire, basé sur la fragmentation de graphe. Nous abordons ensuite l’indexation des documents vidéo en scènes de dialogue, basée sur des caractéristiques sémantiques et structurelles présentes dans l’enchaînement des plans vidéo. La seconde partie de cette thèse traite de la visualisation et de la recherche dans des collections d’images indexées. Nous présentons un algorithme de plongement d’un espace métrique dans le plan appliqué à la visualisation de collections d’images indexées. Ce type de visualisation permet de représenter les relations de dissimilarité entre images et d’identifier visuellement des groupes d’images similaires. Nous proposons enfin une interface de recherche d’images basée sur le routage local dans un graphe. Les résultats d’une validation expérimentale sont présentés et discutés.This thesis deals with the indexation and the visualisation of video documents and collections of images. The proposed methods are based on graphs to represent similarity relationships between indexed video shots and images. The first part of this thesis deals with the indexation of video documents into scenes. A scene is a set of video shots that share common features. We first propose an interactive method to group shots with similar color content using graph clustering. We then present a technique to index video documents into dialogue scenes based on semantic and structural features. The second part of this thesis deals with visualisation and search in collections of indexed images.We present an algorithm for embedding a metric space in the plane applied to collections of indexed images. The aim of this technique is to visualise the dissimilarity relationships between images to identify clusters of similar images. Finally, we present a user interface for searching images, inspired from greedy routing in networks. Results from experimental validation are presented and discussed

    Répondre à des questions à réponses multiples sur le Web

    Get PDF
    Les systèmes de question-réponse renvoient une réponse précise à une question formulée en langue naturelle. Les systèmes de question-réponse actuels, ainsi que les campagnes d'évaluation les évaluant, font en général l'hypothèse qu'une seule réponse est attendue pour une question. Or nous avons constaté que, souvent, ce n'était pas le cas, surtout quand on cherche les réponses sur le Web et non dans une collection finie de documents.Nous nous sommes donc intéressés au traitement des questions attendant plusieurs réponses à travers un système de question-réponse sur le Web en français. Pour cela, nous avons développé le système Citron capable d'extraire des réponses multiples différentes à des questions factuelles en domaine ouvert, ainsi que de repérer et d'extraire le critère variant (date, lieu) source de la multiplicité des réponses. Nous avons montré grâce à notre étude de différents corpus que les réponses à de telles questions se trouvaient souvent dans des tableaux ou des listes mais que ces structures sont difficilement analysables automatiquement sans prétraitement. C'est pourquoi, nous avons également développé l'outil Kitten qui permet d'extraire le contenu des documents HTML sous forme de texte et aussi de repérer, analyser et formater ces structures. Enfin, nous avons réalisé deux expériences avec des utilisateurs. La première expérience évaluait Citron et les êtres humains sur la tâche d'extraction de réponse multiples : les résultats ont montré que Citron était plus rapide que les êtres humains et que l'écart entre la qualité des réponses de Citron et celle des utilisateurs était raisonnable. La seconde expérience a évalué la satisfaction des utilisateurs concernant la présentation de réponses multiples : les résultats ont montré que les utilisateurs préféraient la présentation de Citron agrégeant les réponses et y ajoutant un critère variant (lorsqu'il existe) par rapport à la présentation utilisée lors des campagnes d'évaluation.Question answering systems find and extract a precise answer to a question in natural language. Both current question-answering systems and evaluation campaigns often assume that only one single answeris expected for a question. Our corpus studies show that this is rarely the case, specially when answers are extracted from the Web instead of a frozen collection of documents.We therefore focus on questions expecting multiple correct answers fromthe Web by developping the question-answering system Citron. Citron is dedicated to extracting multiple answers in open domain and identifying theshifting criteria (date, location) which is often the reason of this answer multiplicity Our corpus studies show that the answers of this kind of questions are often located in structures such as tables and lists which cannot be analysed without a suitable preprocessing. Consequently we developed the Kitten software which aims at extracting text information from HTML documents and also both identifying and formatting these structures.We finally evaluate Citron through two experiments involving users. Thefirst experiment evaluates both Citron and human beings on a multipleanswer extraction task: results show that Citron was faster than humans andthat the quality difference between answers extracted by Citron andhumans was reasonable. The second experiment evaluates user satisfaction regarding the presentation of multiple answers: results show that user shave a preference for Citron presentation aggregating answers and adding the shifting criteria (if it exists) over the presentation used by evaluation campaigns.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Analyse et recherche d'oeuvres d'art 2D selon le contenu pictural

    Get PDF
    État de l'art des méthodes manuelles et automatiques d'analyse des oeuvres d'art 2D -- Recherche d'images selon l'organisation spatiale des couleurs -- Seuil automatique pour la recherche d'images selon l'OSC -- Extraction des contours des traits -- Analyse de l'impact pictural dans les oeuvres au trait -- Conclusion et perspectives

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Représentation multi-facette des documents pour leur accès sémantique

    Get PDF
    La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness

    Nouvelle génération de systèmes de vision temps réel à grande dynamique

    Get PDF
    Cette thèse s intègre dans le cadre du projet européen EUREKA "High Dynamic Range - Low NoiseCMOS imagers", qui a pour but de développer de nouvelles approches de fabrication de capteursd images CMOS à haute performance. L objectif de la thèse est la conception d un système de visiontemps réel à grande gamme dynamique (HDR). L axe principal sera la reconstruction, en temps réelet à la cadence du capteur (60 images/sec), d une vidéo à grande dynamique sur une architecturede calcul embarquée.La plupart des capteurs actuels produisent une image numérique qui n est pas capable de reproduireles vraies échelles d intensités lumineuses du monde réel. De la même manière, les écrans, impri-mantes et afficheurs courants ne permettent pas la restitution effective d une gamme tonale étendue.L approche envisagée dans cette thèse est la capture multiple d images acquises avec des tempsd exposition différents permettant de palier les limites des dispositifs actuels.Afin de concevoir un système capable de s adapter temporellement aux conditions lumineuses,l étude d algorithmes dédiés à la grande dynamique, tels que les techniques d auto exposition, dereproduction de tons, en passant par la génération de cartes de radiances est réalisée. Le nouveausystème matériel de type "smart caméra" est capable de capturer, générer et restituer du contenu àgrande dynamique dans un contexte de parallélisation et de traitement des flux vidéos en temps réelThis thesis is a part of the EUREKA European project called "High Dynamic Range - Low NoiseCMOS imagers", which developped new approaches to design high performance CMOS sensors.The purpose of this thesis is to design a real-time high dynamic range (HDR) vision system. Themain focus will be the real-time video reconstruction at 60 frames/sec in an embedded architecture.Most of the sensors produce a digital image that is not able to reproduce the real world light inten-sities. Similarly, monitors, printers and current displays do not recover of a wide tonal range. Theapproach proposed in this thesis is multiple acquisitions, taken with different exposure times, to over-come the limitations of the standard devices.To temporally adapt the light conditions, the study of algorithms dedicated to the high dynamic rangetechniques is performed. Our new smart camera system is able to capture, generate and showcontent in a highly parallelizable context for a real time processingDIJON-BU Doc.électronique (212319901) / SudocSudocFranceF

    Comparaison et combinaison de rendus visuels et sonores pour la conception d'interfaces homme-machine (des facteurs humains aux stratégies de présentation à base de distorsion.)

    Get PDF
    Bien que de plus en plus de données sonores et audiovisuelles soient disponibles, la majorité des interfaces qui permettent d y accéder reposent uniquement sur une présentation visuelle. De nombreuses techniques de visualisation ont déjà été proposées utilisant une présentation simultanée de plusieurs documents et des distorsions permettant de mettre en relief l information plus pertinente. Nous proposons de définir des équivalents auditifs pour la présentation de plusieurs fichiers sonores en concurrence, et de combiner de façon optimale les stratégies audio et visuelles pour la présentation de documents multimédia. Afin d adapter au mieux ces stratégies à l utilisateur, nous avons dirigé nos recherches sur l étude des processus perceptifs et attentionnels impliqués dans l écoute et l observation d objets audiovisuels concurrents, en insistant sur les interactions entre les deux modalités.Exploitant les paramètres de taille visuelle et de volume sonore, nous avons étendu le concept de lentille grossissante, utilisée dans les méthodes focus+contexte visuelles, aux modalités auditive et audiovisuelle. A partir de ce concept, une application de navigation dans une collection de documents vidéo a été développée. Nous avons comparé notre outil à un autre mode de rendu dit de Pan&Zoom à travers une étude d utilisabilité. Les résultats, en particulier subjectifs, encouragent à poursuivre vers des stratégies de présentation multimodales associant un rendu audio aux rendus visuels déjà disponibles.Une seconde étude a concerné l identification de sons d environnement en milieu bruité en présence d un contexte visuel. Le bruit simule la présence de plusieurs sources sonores simultanées telles qu on pourrait les retrouver dans une interface où les documents audio et audiovisuels sont présentés ensemble. Les résultats de cette expérience ont confirmé l avantage de la multimodalité en condition de dégradation. De plus, au-delà des buts premiers de la thèse, l étude a confirmé l importance de la congruence sémantique entre les composantes visuelle et sonore pour la reconnaissance d objets et a permis d approfondir les connaissances sur la perception auditive des sons d environnement.Finalement, nous nous sommes intéressée aux processus attentionnels impliqués dans la recherche d un objet parmi plusieurs, en particulier au phénomène de pop-out par lequel un objet saillant attire l attention automatiquement. En visuel, un objet net attire l attention au milieu d objets flous et certaines stratégies de présentation visuelle exploitent déjà ce paramètre visuel. Nous avons alors étendu la notion de flou aux modalités auditives et audiovisuelles par analogie. Une série d expériences perceptives a confirmé qu un objet net parmi des objets flous attire l attention, quelle que soit la modalité. Les processus de recherche et d identification sont alors accélérés quand l indice de netteté correspond à la cible, mais ralentis quand il s agit d un distracteur, mettant ainsi en avant un phénomène de guidage involontaire. Concernant l interaction intermodale, la combinaison redondante des flous audio et visuel s est révélée encore plus efficace qu une présentation unimodale. Les résultats indiquent aussi qu une combinaison optimale n implique pas d appliquer obligatoirement une distorsion sur les deux modalités.Although more and more sound and audiovisual data are available, the majority of access interfaces are solely based on a visual presentation. Many visualization techniques have been proposed that use simultaneous presentation of multiple documents and distortions to highlight the most relevant information. We propose to define equivalent audio technique for the presentation of several competing sound files, and optimally combine such audio and visual presentation strategies for multimedia documents. To better adapt these strategies to the user, we studied attentional and perceptual processes involved in listening and watching simultaneous audio-visual objects, focusing on the interactions between the two modalities.Combining visual size and sound level parameters, we extended the visual concept of magnifying lens to auditory and audiovisual modalities. Exploiting this concept, a navigation application in a video collection has been developed. We compared our tool with another rendering mode called Pan & Zoom through a usability study. Results, especially subjective results, encourage further research to develop multimodal presentation strategies by combining an audio rendering to the visual renderings already available.A second study concerned the identification of environmental sounds in a noisy environment in the presence of a visual context. The noise simulated the presence of multiple competing sounds as would be observed in an interface where several multimedia documents are presented together. The experimental results confirmed the multimodality advantage in condition of audio degradation. Moreover, beyond the primary goals of the thesis, this study confirms the importance of the semantic congruency between visual and auditory components for object recognition and provides deeper knowledge about the auditory perception of environmental sounds.Finally, we investigated attentional processes involved in the search of a specific object among many, especially the pop-out phenomenon whereby a salient object automatically attracts attention. In vision, an sharp object attracts attention among blurred objects and some visual strategies already exploit this parameter to display the information. We extended by analogy the concept of visual blur to auditory and audiovisual modalities. A serie of experiments confirmed that a perceptual object among blurred objects attracts attention, regardless of the modality. The identification and search process is then accelerated when the sharpness parameter is applied to the target, but slow when it is applied to a distractor. These results highlight an involuntary attraction effect. Concerning the crossmodal interaction, a redundant combination of audio and visual blur proved to be more effective than a unimodal presentation. Results also indicate that optimal combination does not necessarily require a distortion of both modalities.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF
    • …
    corecore