978 research outputs found

    Filtrage automatique de courriels : une approche adaptative et multi niveaux

    No full text
    International audienceCet article propose un système de courriers électroniques paramétrable avec plusieurs niveaux de filtrage: un filtrage simple basé sur l'information contenue dans l'entête du courriel ; un filtrage booléen basé sur l'existence ou non de mots clés dans le corps du courriel ; un filtrage vectoriel basé sur le poids de contribution des mots clés du courriel ; un filtrage approfondi basé sur les propriétés linguistiques caractérisant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au système la possibilité d'apprendre à partir de données, de modifier ses connaissances et de s'adapter à l'évolution des intérêts de l'utilisateur et à la variation de la nature des courriels dans le temps. De plus, nous utilisons un réseau lexical permettant d'améliorer la représentation du courriel en prenant en considération l'aspect sémantique.<BR /

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    Apports de la linguistique dans les systèmes de recherche d'informations précises

    Get PDF
    International audienceSearching for precise answers to questions, also called "question-answering", is an evolution of information retrieval systems: can it, as its predecessors, rely mostly on numeric methods, using exceedingly little linguistic knowledge? After a presentation of the question-answering task and the issues it raises, we examine to which extent it can be performed with very little linguistic knowledge. We then review the different kinds of linguistic knowledge that researchers have been using in their systems: syntactic and semantic knowledge for sentence analysis, role of "named entity" recognition, taking into account of the textual dimension of documents. A discussion on the respective contributions of linguistic and non-linguistic methods concludes the paper.La recherche de réponses précises à des questions, aussi appelée « questions-réponses », est une évolution des systèmes de recherche d'information : peut-elle, comme ses prédécesseurs, se satisfaire de méthodes essentiellement numériques, utilisant extrêmement peu de connaissances linguistiques ? Après avoir présenté la tâche de questions-réponses et les enjeux qu'elle soulève, nous examinons jusqu'où on peut la réaliser avec très peu de connaissances linguistiques. Nous passons ensuite en revue les différents types de connaissances linguistiques que les équipes ont été amenées à mobiliser : connaissances syntaxiques et sémantiques pour l'analyse de phrases, rôle de la reconnaissance d'« entités nommées », prise en compte de la dimension textuelle des documents. Une discussion sur les contributions respectives des méthodes linguistiques et non linguistiques clôt l'article

    Extraction d'information

    Get PDF

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    Contribution à la maintenance des ontologies à partir d'analyses textuelles : extraction de termes et de relations entre termes

    Get PDF
    Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité.\ud L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme\ud SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations.\ud Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones

    Élaboration d'un logiciel d'enseignement et d'application de la logique floue dans un contexte d'automate programmable

    Get PDF
    La logique floue, ou plus généralement le traitement des incertitudes, a pour objet d'étude la représentation des connaissances imprécises et le raisonnement proche du langage humain de tous les jours. La logique floue permet d'obtenir une loi de commande souvent efficace, sans devoir faire appel à des développements théoriques importants. Elle présente l'intérêt d'incorporer des connaissances linguistiques sur la manière de piloter un processus difficile en prenant compte les expériences acquises par les utilisateurs et opérateurs du processus à commander. Plutôt que d'utiliser une approche traditionnelle fondée sur les lois de commande classique, on utilise des contrôles ayant une loi de commande basée sur les notions de la logique floue. Ces contrôleurs flous ont surtout démontré des performances plus robustes, par rapport aux systèmes traditionnels, dans les situations où le modèle mathématique du procédé était mal connu ou lorsque le comportement du procédé varie ou est non linéaire. Malgré sa présence grandissante dans les applications industrielles, la logique floue est méconnue des techniciens qui oeuvrent dans le domaine de la commande industrielle. Or, il n'existe pas de logiciel pédagogique pour l'apprentissage des notions de la logique floue. Il existe, certes, des logiciels professionnels pour la mise en oeuvre des systèmes flous, par exemple Matlab®, mais rien qui ne préconise une approche pédagogique. Notre projet de recherche propose un logiciel d'enseignement et d'application de la logique floue dans un contexte d'automate programmable. Le logiciel permet l'apprentissage rapide des concepts de base de la logique floue. Il vise à montrer les techniques d'application issues de cette nouvelle technologie pour la conduite des procédés. Le logiciel permet l'interconnexion avec un automate programmable pour effectuer un contrôle en temps réel. Un contrôleur à logique floue a été élaboré à l'aide du logiciel pour contrôler un procédé simulé et réel. Les résultats de simulation et d'expérimentation présentés démontrent bien les performances du contrôleur à logique floue. Des données expérimentales vierment valider le fonctionnement du logiciel proposé

    Un modèle computationnel d'intelligence culturelle ouvert et extensible

    Get PDF
    Avec le phénomène de la globalisation qui prend de l'ampleur, les différences culturelles, dans les communications interculturelles, amènent leur lot de problèmes inévitables. Geet Hofstede a exprimé de manière représentative ce phénomène : "Culture is more often a source of conflict than of synergy. Cultural differences are a nuisance at best and often a disaster." (Geert Hofstede, Emeritus Professor, Maastricht University.) Dans la revue de la littérature, jusqu'à ce jour, les recherches relatives à l'intelligence culturelle (IC) utilisent les méthodes traditionnelles pour mesurer l'IC et trouver des solutions aux problèmes relatifs à l'IC. Ces méthodes dépendent essentiellement de questionnaires évaluant des aspects distincts, de documents (Ng et Earley, 2006) et d'évaluations variées, guidées par les connaissances spécialisées et des qualités psychologiques d'experts de l'IC. Ces façons de faire réduisent le nombre de solutions possibles. À notre connaissance, aucune recherche au sujet de l'IC n'a été empiriquement informatisée jusqu'à maintenant. En conséquence, l'intégration de l'IC dans le domaine de l'intelligence artificielle (IA) reste absente. L'objectif principal de la recherche est donc de créer un modèle computationnel de l'IC et de l'implémenter dans un système expert. Ce système se nomme Système Expert Neuro-Flou d'Intelligence Culturelle (SENFIC). Il intègre l'expertise d'experts de l'IC en intégrant le fruit des études à propos des quatre dimensions de l'IC comme un tout intégré et s'influençant les unes des autres. Il devrait permettre éventuellement d'atteindre un meilleur niveau de performance que celui des experts de l'IC. Comme un système intelligent efficace, il fournit une recommandation globale au problème et une forme de système de règles permettant l'adaptabilité des individus et des organisations à un environnement interculturel. C'est dans ce contexte que le SENFIC a vu le jour. Nous combinons deux techniques intelligentes dans le cadre du système. La technique d'hybride neuro-floue intégrant la logique floue et le réseau de neurones artificiels, et la technique du système expert. La technique de logique floue est une bonne solution pour exprimer des problèmes originalement en langue imprécise et naturelle, comme ceux soulevés dans les recherches relatives à l'IC. La technique du réseau de neurones artificiels aide le système à atteindre un niveau d'autorégulation, d'auto-adaptation et d'autoapprentissage. Le système expert utilise des connaissances et des procédures d'inférence dans le but de résoudre des problèmes difficiles, requérant normalement une expertise humaine dans le domaine d'IC. Ainsi, le SENFIC exprime des connaissances sous une forme facilement comprise par les utilisateurs, et traite les demandes simples en langage naturel plutôt qu'en langage de programmation. En utilisant une nouvelle approche pour la technique de soft-computing en concevant la technique hybride comme le cœur du système, notre SENFIC devient alors capable de raisonner et d'apprendre dans un environnement culturel incertain et imprécis. Ce SENFIC est ouvert et extensible, autant au niveau interne qu'externe. Au niveau interne, le modèle computationnel de l'IC fournit une interface standard pouvant faciliter le développement secondaire et la mise en pratique du système. Au niveau externe, le SENFIC a la capacité de se présenter comme un agent d'extension permettant l'intégration à n'importe quel système intelligent existant, pour que ce système devienne culturellement intelligent. Le SENFIC est « conscient de l'intelligence culturelle ». Cela représente une percée amenant son lot de contributions dans les domaines de l'IC et de l'IA.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : intelligence culturelle, logique floue, réseaux de neurones artificiels, soft-computing, hybride neuro-floue, système exper
    corecore