13 research outputs found

    Indexation visuelle et recherche d\u27images sur le web : enjeux et problèmes

    Get PDF
    Si le texte reste très présent sur le web, ce sont désormais des documents multimédia qui s\u27y échangent majoritairement. Comment de tels documents peuvent-ils être cherchés, retrouvés sur la toile dont le système d’indexation et d’organisation est voué au texte ? Comment indexer des documents visuels, qu’est-ce qui est indexable au sein d’images ? C’est ce que ce mémoire se propose d’étudier en se focalisant sur l’indexation des images fixes à travers l’analyse de moteurs de recherche indexant des ressources visuelles, et de plateformes de stockage et de partage d’images. Ce sont ensuite les avantages et les limites de la folksonomie qui sont analysés, puis ceux du géotagging comme nouvelle forme d’indexation, de gestion documentaire et de navigation. Enfin, dans une dernière partie, l’auteure revient sur les présupposés techniques des systèmes d’indexation et de recherche d’images par le contenu et nous livre une analyse des enjeux documentaires, économiques et sociaux de ces procédés

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    Sémantique des sites Web de restaurants : analyse de productions polysémiotiques

    Get PDF

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    Modélisation probabiliste du style d'apprentissage et application à l'adaptation de contenus pédagogiques indexés par une ontologie

    Get PDF
    Cette thèse s'inscrit dans le cadre général des systèmes d'enseignement adaptatifs. La problématique traitée est l'adaptation de l'activité pédagogique au mode d'apprentissage préféré de l'élève. Les travaux réalisés ont eu pour objectifs de : modéliser les préférences d'apprentissage de l'élève ; modéliser les contenus pédagogiques du domaine à enseigner ; proposer une stratégie d'adaptation qui rapproche les préférences des contenus afin de proposer une méthode pédagogique appropriée. Pour atteindre le premier objectif, la thèse étudie le style d'apprentissage de Felder. Une étude empirique pour établir un modèle de dépendance entre style, pédagogie, et comportement de l'élève a été réalisée. Les résultats ont permis d'établir un modèle de préférences probabiliste. Une méthode en deux étapes pour apprendre ce odèle puis le renforcer est développée. Deux implantations sont proposées : un réseau bayésien et une machine à vecteurs de support. Le contenu quant à lui est modélisé en utilisant une ontologie combinant le domaine, la pédagogie, ainsi que les ressources physiques. Une stratégie d'adaptation structurée sur quatre dimensions est présentée. Celle-ci consiste à rechercher dans le contenu la séquence pédagogique sémantiquement pertinente pour les préférences de l'élève. La recherche s'appuie sur une mesure de similarité sémantique qui est établie. Ce travail a eu un impact sur deux projets européens. En effet, la méthode de production et structuration des contenus, basée sur SCORM, qui est proposée a servi pour le projet UP2UML. L'approche de modélisation de l'élève sert aux recherches sur le profilage dans le projet KPLAB. ABSTRACT : This thesis deals with adaptive teaching systems. The research question is how to adapt pedagogical activities to the prefered learning mode of a student. The scientific objectives are: modelisation of student's learning preferences ; modelisation of adaptive learning contents of a given domain ; establishing an adaptation strategy that maps preferences to contents in order to recommend an appropriate teaching method In order to reach the first objective, the thesis studies the learning style of Felder. An empirical study to derive a dependency model between the style, the pedagogy, and the student behaviour has been conducted. Results led to creating a probabilistic preference model. A two-stage method to learn and reinforce the model is developed. Two implementations are proposed: a bayesian network and an SVM classifier. The content is represented using an ontology that combines the domain, the pedagogy, and the physical resources. An adaptation strategy centered around four dimensions is presented. This consists of searching the content to retrieve the most semantically pertinent pedagogical sequence given the student preferences. The search implements an original semantic similarity measure. This work significantly impacted two European research projects. The production and structuration method designed in this thesis and based on SCORM has been applied in the Leonardo Da Vinci project called UP2UML. The student modeling approche serves currently our research on user profiling in the KPLAB projec

    La conception de jeux vidéo éducatifs : une méthodologie de recherche/création

    Get PDF
    De façon générale, cette thèse identifie et définit l'ensemble des concepts théoriques et pratiques nécessaires à l'exercice de la conception de jeux vidéo éducatifs en tenant compte des aspects d'intention, d'information, d'interface et d'interactivité. Elle répond à la question suivante : comment outiller et assister efficacement un artiste ou un créateur dans la démarche complexe de la conception de jeux vidéo éducatifs? En effet, les personnes abordant la conception multimédia se sentent souvent dépourvues lorsqu'il est question de développer ou de conceptualiser ce type d'œuvre. C'est d'abord parce qu'il s'agit d'un champ d'étude relativement nouveau qui cherche encore ses codes langagiers. Ensuite, il s'agit de se référer aux niveaux de complexité générés par des projets ludiques et pédagogiques intégrant à la fois des notions de science de l'information (gestion de la connaissance, bases de données), des notions d'esthétique et de forme (arts visuels, design graphique) et des notions d'informatique (langage de programmation, vie et intelligence artificielles). Les résultats de la recherche se présentent sous la forme d'une méthodologie de recherche/création systémique appuyée par une intervention prenant la forme d'une série de quatre capsules multimédias interactives couvrant l'ensemble des résultats générés. Ces capsules s'adressent à des professionnels œuvrant tant dans le domaine de la culture, de l'éducation, de la science, des arts et des communications que dans ceux de la recherche et de l'expérimentation. Elles décrivent, illustrent et démontrent les potentialités expressives, narratives, cognitives et interactives du langage multimédia; elles présentent le champ d'intervention dans son ensemble, incluant les concepts, les théories, les méthodes et les outils nécessaires à sa compréhension, à son élaboration et à sa pratique esthétique, ludique, pédagogique et communicationnelle. De façon plus précise, une première capsule présente des notions définissant le multimédia, ses multiples applications ainsi que les différents contextes de production dans lesquels elles se déploient. Une deuxième capsule expose ensuite des notions de langage cinématographique et hypermédia qui seront utiles pour la conception multimédia. Une troisième capsule aborde des notions relatives à la pédagogie, et comment celles-ci peuvent s'appliquer à la conception de jeux vidéo éducatifs. Enfin, la dernière capsule présente un modèle de devis de conception multimédia adapté aux productions culturelles ludo-éducatives. À travers l'ensemble de ces capsules, des exemples permettront de visualiser et d'expérimenter l'ensemble des concepts répondant aux énoncés théoriques et pratiques exposés par la recherche.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : jeux vidéo éducatifs, design multimédia, scénarisation multimédia, conception multimédia, conception hypermédia, loisir éducatif, jeu éducatif, enseignement par le jeu, apprentissage par le jeu, interface graphique, méthodologie de conception

    La protection des données personnelles sur l'internet. Analyse des discours et des enjeux sociopolitiques

    Get PDF
    This thesis, in Communication and Information Sciences, raises the question of the internet personal data protection through the discourses analysis of four actors concerned with this subject: internet companies, authorities regulating, French population and national press. The objective is to understand how, through the discourses of each one of these actors, the question of the jamming of the spheres private and public about the Internet takes shape. It is a question which increases with the development of the Internet, in particular with the multiplication of the social digital network, which gives to the Internet users various opportunities to display their privacy. The multiplication of the interpersonal relationship devices connection is then accompanied by a contemporary dialectical between private and public spheres, not always controlled by concerned people.This interaction between private and public leads to a transfert of the border wich separates the two spheres and can involves some drifts on behalf of specialized companies, such Google and Facebook, toward the aggregation of personal data contents. Indeed, databases are central in the economic system of these companies and gained a commercial value. However, the commercial use as of these data is not necessarily known by the user and can be realized without its agreement, at least in an explicit way. This double questioning related to the jamming of the private and public spheres, i.e., firstly, the individual aspect where the Internet user is incited to reveal personal elements more and more, and, secondly, the related aspect with the selling of the data by the Internet companies, then generates the question of the individual freedom and data confidentiality. The regulating authorities, in France or in European Union, try to provide answers in order to protect the Internet users by setting up actions relating to the right to be forgotten or by prosecuting Google, for example, when the company does not conform to the laws in force on the territory concerned. The various angles of incidence as well as the diversity of the studied actors required the constitution of a multidimentional corpus in order to have a comparative approach of the different representations. This corpus includes texts registered like political discourses, regulating authorities speeches, companies of the Internet speeches, specifically Google and Facebook, or press speeches which occupy a meta-discursive position since they repeat speeches of the actors previously stated. It includes also oral speeches made up of talks especially recorded for this research with some persons taken randomly in the French population. A quantitative analysis of the discourses between 2010 and 2013, contemporary period with the thesis, permit to carry out a first sorting and to select only the most relevant speeches compared to our hypothesis. The qualitative analysis which followed was based on the theoretical framework previously elaborate in order to cross the representations of the actors in connection with the personal data and to highlight the various visions about this question.Cette thèse, dans le cadre des Sciences de l'Information et de la Communication aborde la question de la protection des données personnelles sur l’internet à travers l’étude des discours de quatre acteurs concernés par ce sujet : les entreprises de l’internet, les instances régulatrices, la population française et la presse nationale. L’objectif est de comprendre comment, à travers les discours de chacun de ces acteurs, se dessinent la question du brouillage des sphères privée et publique sur l’internet. C’est une question qui prend de l’ampleur avec le développement de l’internet, notamment avec la multiplication des réseaux socionumériques, qui offrent aux internautes différentes possibilités pour afficher leur extimité. La multiplication des dispositifs de mise en relation interpersonnelle s'accompagne alors d'une nouvelle dialectique contemporaine entre le privé et le public, pas toujours maîtrisée par les personnes concernées.Cette interaction entre le public et le privé induit un déplacement de la frontière qui sépare les deux sphères et peut entraîner certaines dérives de la part des entreprises spécialisées, telles Google ou Facebook, par rapport à l'agrégation des données personnelles des internautes. En effet, les bases de données sont au cœur du système économique de ces entreprises et ont acquis une valeur marchande liée à des enjeux essentiels par rapport à leur fonctionnement. Or, l’utilisation commerciale des ces données n’est pas nécessairement connue par l’utilisateur et peut être réalisée sans son accord, du moins de manière explicite. Ce double questionnement lié au brouillage des sphères privée et publique, c'est-à-dire, premièrement, l’aspect individuel où l’internaute est incité à dévoiler de plus en plus d’éléments personnels, et, deuxièmement, l’aspect lié à la marchandisation des données par les entreprises de l’internet, engendre alors la question de la confidentialité des données et des libertés individuelles. Les instances régulatrices, que ce soit à l’échelle de la France ou de l’Union Européenne, tentent d’apporter des réponses afin de protéger l’internaute en mettant en place des actions concernant le droit à l’oubli ou en poursuivant juridiquement Google, par exemple, lorsque l’entreprise ne se conforme pas aux lois en vigueur sur le territoire concerné.Les différents angles d’approche ainsi que la diversité des acteurs étudiés ont nécessité la constitution d’un corpus multidimentionnel afin d’avoir une approche comparative des différents représentations. Ce corpus comprend à la fois des textes inscrits comme les discours politiques, les discours des instances régulatrices, les discours des entreprises de l’internet, plus spécifiquement Google et Facebook ou les discours de presse qui occupent une position méta-discursive puisqu’ils se font l’écho des discours des acteurs précédemment énoncés. Il comprend aussi des discours oraux constitués d’entretiens spécialement réalisés dans le cadre de cette recherche auprès d’individus pris au hasard de la population française. Une analyse quantitative des discours entre 2010 et 2013, période contemporaine à la thèse, a permis d’effectuer un premier tri et de ne sélectionner que les discours les plus pertinents par rapport à nos hypothèses. L’analyse qualitative qui a suivi a été basée sur le cadre théorique précédemment élaboré afin de croiser les représentations des acteurs à propos des données personnelles et mettre en évidence les différentes visions inhérentes à cette question.This double questioning related to the jamming of the private and public spheres, i.e., firstly, the individual aspect where the Internet user is incited to reveal personal elements more and more, and, secondly, the related aspect with the selling of the data by the Internet companies, then generates the question of the individual freedom and data confidentiality. The regulating authorities, in France or in European Union, try to provide answers in order to protect the Internet users by setting up actions relating to the right to be forgotten or by prosecuting Google, for example, when the company does not conform to the laws in force on the territory concerned. The various angles of incidence as well as the diversity of the studied actors required the constitution of a multidimentional corpus in order to have a comparative approach of the different representations. This corpus includes texts registered like political discourses, regulating authorities speeches, companies of the Internet speeches, specifically Google and Facebook, or press speeches which occupy a meta-discursive position since they repeat speeches of the actors previously stated. It includes also oral speeches made up of talks especially recorded for this research with some persons taken randomly in the French population. A quantitative analysis of the discourses between 2010 and 2013, contemporary period with the thesis, permit to carry out a first sorting and to select only the most relevant speeches compared to our hypothesis. The qualitative analysis which followed was based on the theoretical framework previously elaborate in order to cross the representations of the actors in connection with the personal data and to highlight the various visions about this question
    corecore