1,719 research outputs found

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    Contribution Ă  la maintenance des ontologies Ă  partir d'analyses textuelles : extraction de termes et de relations entre termes

    Get PDF
    Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité.\ud L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme\ud SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations.\ud Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones

    Enrichissement d'un curriculum par recherche sur Internet

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    Filtrage automatique de courriels : une approche adaptative et multi niveaux

    No full text
    International audienceCet article propose un système de courriers électroniques paramétrable avec plusieurs niveaux de filtrage: un filtrage simple basé sur l'information contenue dans l'entête du courriel ; un filtrage booléen basé sur l'existence ou non de mots clés dans le corps du courriel ; un filtrage vectoriel basé sur le poids de contribution des mots clés du courriel ; un filtrage approfondi basé sur les propriétés linguistiques caractérisant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au système la possibilité d'apprendre à partir de données, de modifier ses connaissances et de s'adapter à l'évolution des intérêts de l'utilisateur et à la variation de la nature des courriels dans le temps. De plus, nous utilisons un réseau lexical permettant d'améliorer la représentation du courriel en prenant en considération l'aspect sémantique.<BR /

    Le projet du recueil de nouvelles pour le développement d'une posture critique efficiente et opératoire

    Get PDF
    Cette étude théorique a été menée dans le but de présenter un dispositif didactique en lecture littéraire pour favoriser le développement d'une posture critique chez des élèves du 2 e cycle du secondaire et du collégial. Après avoir soutenu une conception personnelle des finalités de l'enseignement de la lecture littéraire, on a conceptualisé et opérationnalisé la notion posture critique telle qu'entendue par Marlène Lebrun (2005). À partir de la définition qui a été formulée et des compétences sous-tendues par ce concept, on a construit un dispositif didactique qui met à profit les caractéristiques formelles d'un recueil de nouvelles contemporain. Cette didactisation a pour objectif de rendre efficient le concept opératoire posture critique chez des élèves. Enfin, ce dispositif, qu'on appelle le projet du recueil de nouvelles, vise la formation d'un lecteur engagé

    Un système data mining en ligne pour la maintenance ontologique d'une mémoire corporative DM

    Get PDF
    L'intégration de la connaissance dans la mémoire corporative (Ribière et Matta, 1998), (Dieng et al., 1998) fait face à l'hétérogénéité des données (Visser, Jones et al., 1997). L'utilisation de l'ontologie est une approche possible pour surmonter ce problème. Cependant, l'ontologie est une structure de donnée comme n'importe quelle structure informatique, elle est donc dynamique et évolue dans le temps à cause des conditions dynamiques résultant des changements du domaine conceptuel, les changements de conceptualisation, les changements de spécification, les changements descendants, etc. (Yildiz, 2006). Ces dernières années, plusieurs approches ont été proposées pour résoudre le problème de la maintenance des ontologies. Cependant, la précision et le rappel ne permettent pas de satisfaire les besoins des utilisateurs. De plus, ces approches ne prennent pas en compte toute l'information disponible pour prendre une décision réaliste. Pour résoudre le problème de l'évolution de la connaissance dans les ontologies, nous proposons une approche hybride qui utilise l'apprentissage machine et un processus d'alignement qui contrôle les relations syntaxiques entre les entrées dans l'ontologie. De plus, des règles structurelles et des heuristiques sont appliquées pour améliorer le degré de similitude entre les entités ontologiques. Ce processus hybride crée des règles de correspondance qui définissent comment transformer les entrées dans l'ontologie en définissant tous les types d'associations possibles entre les entités ontologiques. L'approche d'enrichissement de l'ontologie exploite les techniques de la fouille de données, les techniques du traitement automatique du langage naturel et la recherche d'information pour améliorer la performance d'apprentissage durant la tâche d'enrichissement du domaine conceptuel. L'évaluation des ontologies demeure un problème important et le choix d'une approche appropriée dépend des critères utilisés. Dans notre approche, nous adoptons la vérification de la cohérence décrite dans (Maziar Amirhosseini et al., 2011) et (Abderrazak et al., 2011).\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Traitement automatique du langage naturel, Apprentissage machine, Recherche d'information, Intégration, Ontologie, Mémoire corporative, Web sémantique

    Propositions de méthodologies pour la valorisation de la médecine traditionnelle fondées sur une ontologie

    Get PDF
    The work presented in this thesis focuses on the problematic of the valorization of traditional medicine. Traditional medicine is a very rich biological andcultural diversity. His practise is widespread and occurs in various forms. The valorization of this medicine is now a very important issue; it will capitalize this knowledge to popularize, and thus improve its performance in terms of diagnosis, treatment and cost. World Health Organization (WHO)proposes its integration into the national health system. But the practice and exercise of this medicine face many problems which make its implementation difficult. Among these problems, we can list the informal nature of its practice, its content is not formalized, its access mode is not determined, etc. We propose in this thesis, practices more efficient based on the new technology of information and communications; they based specifically on semantic resource such as the ontology which is the formal structure of an acquaintance. The methods proposed in this thesis allow to formalize the contents of this medicine, to facilitate its exercise and ultimately to succeed its revalorization.Le travail présenté dans cette thèse porte sur la problématique de la valorisation de la médecine traditionnelle. La médecine traditionnelle est d’une diversité biologique et culturelle très riche. Sa pratique est très répandue et se fait sous des formes variées . La valorisation de cette médecine constitue aujourd’hui un enjeu très important ; elle permettra de capitaliser ce savoir, de le vulgariser, et donc d’améliorer ses prestations en termes de diagnostic, de traitement et de coût. L’Organisation Mondiale de la Santé (OMS) propose, du reste, de l’intégrer dans le système national de santé. Mais la pratique et l’exercice de cette médecine rencontrent de nombreux problèmes qui rendent son application difficile. Parmi ces problèmes, nous pouvons relever le caractère informel de sa pratique, son contenu non formalisé, son mode d’accès non déterminé, etc. Nous proposons, dans cette thèse, des techniques de pratiques plus efficaces puisque basées sur les nouvelles technologies de l’information et de la communication ; celles-ci reposent plus spécifiquement sur la ressource sémantique telle que l’ontologie qui est la structuration formelle d’une connaissance. Les méthodes proposées dans cette thèse permettent de formaliser le contenu de cette médecine, pour en faciliter l’exercice et en définitive, pour aboutir à sa revalorisation

    Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés

    Get PDF
    Depuis les dix dernières années, on observe une hausse considérable du nombre d'initiatives visant à numériser et à rendre disponible le patrimoine informationnel des organisations et des différentes branches du savoir. Les conséquences découlant de ces initiatives sont importantes et très nombreuses. Elles ont entre autres conduit à l'émergence d'applications permettant différentes opérations complexes d'analyse et de gestion des documents. Malgré la diversité de ces applications, on constate que l'ensemble des disciplines reliées à l'analyse et à la gestion des documents textuels sont axées sur la compréhension et l'informatisation des processus d'identification des contenus thématiques et d'analyse thématique. Le projet que nous présentons aborde précisément les problématiques de l'identification des thèmes et de l'assistance à l'analyse thématique des documents textuels. L'objectif général du projet est de développer et de valider deux méthodologies informatiques fondées respectivement sur la catégorisation et la classification automatiques permettant d'assister efficacement l'identification des thèmes et, surtout, l'analyse thématique des documents textuels. Il vise ainsi à effectuer un transfert de concepts et de méthodologies provenant, d'une part, des recherches théoriques et pluridisciplinaires portant sur l'analyse thématique et, d'autre part, des recherches appliquées en classification et en catégorisation automatiques des données afin de proposer une méthodologie et un prototype d'application flexible visant à assister le chercheur dans son travail d'analyse thématique des textes. Le défi principal de ce projet réside donc dans l'opérationnalisation de l'analyse thématique en employant certaines stratégies de classification et de catégorisation automatiques des textes. Au niveau cognitif, nous proposons d'explorer la pertinence et la fécondité de certaines théories d'inspiration linguistique et littéraire ayant abordé la question du thème pour nous aider dans l'identification du contenu thématique et l'analyse thématique des documents textuels. À ce niveau, notre objectif est de démontrer comment les théories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont défini le thème de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse à l'aide de la méthodologie que nous proposons. Au niveau informatique, un premier volet de notre démarche consiste à explorer et à comparer les performances des opérations de catégorisation et de classification automatiques à des fins d'identification du contenu thématique et d'analyse thématique des documents textuels non structurés. Les résultats sont évalués en appliquant un système de catégorisation hybride neuro-flou et un algorithme de classification neuronal non supervisé sur un corpus d'articles de journaux. Par ailleurs, la classification et la catégorisation sont des opérations traditionnellement appliquées à des documents entiers. Nous proposons une manière alternative de réaliser ces processus : notre démarche consiste d'abord à segmenter chacun des documents puis à soumettre aux processus de regroupement les différents segments de texte. Cette démarche a l'avantage de pouvoir attribuer plusieurs catégories thématiques à chaque document, ce qui est plus difficilement réalisable lorsque les documents sont traités en entier. Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de catégorisation est effectué en utilisant un plan de classification ou une taxinomie de catégories prédéfinies. Le développement de ces taxinomies, bien qu'il puisse être assisté dans certains cas par des applications informatiques, s'avère coûteux et très complexe. Dans ce projet, nous démontrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme étiquettes thématiques.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : analyse thématique, identification de thèmes, Lecture et Analyse de Textes Assistées par Ordinateur (LATAO), classification automatique, catégorisation automatique
    • …
    corecore