12 research outputs found

    Contribution Ă  la maintenance des ontologies Ă  partir d'analyses textuelles : extraction de termes et de relations entre termes

    Get PDF
    Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité.\ud L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme\ud SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations.\ud Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones

    Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    Contribution à la construction d’ontologies et à la recherche d’information : application au domaine médical

    Get PDF
    This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise à permettre un accès efficace à des informations pertinentes malgré le volume croissant des données disponibles au format électronique. Pour cela, nous avons étudié l’apport d’une ontologie au sein d’un système de recherche d'information (RI).Nous avons tout d’abord décrit une méthodologie de construction d’ontologies. Ainsi, nous avons proposé une méthode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances à partir de textes et la réutilisation de ressources sémantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs développé une méthode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre méthodologie a permis de créer une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons élaboré des algorithmes pour supporter la RI sémantique guidée par une ontologie. Les concepts issus d’une ontologie ont été utilisés pour décrire automatiquement les documents mais aussi pour reformuler les requêtes. Nous nous sommes intéressés à : 1) l’identification de concepts représentatifs dans des corpus, 2) leur désambiguïsation, 3), leur pondération selon le modèle vectoriel, adapté aux concepts et 4) l’expansion de requêtes. Ces propositions ont permis de mettre en œuvre un portail de RI sémantique dédié à la maladie d’Alzheimer. Par ailleurs, le contenu des documents à indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploité des informations incomplètes pour déterminer les concepts pertinents permettant malgré tout de décrire les documents. Pour cela, nous avons proposé deux méthodes de classification de documents issus d’un large corpus, l’une basée sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sémantique explicite. Ces méthodes ont été évaluées sur de larges collections de documents biomédicaux fournies lors d’un challenge international

    La position initiale dans l'organisation du discours : <br />une exploration en corpus

    Get PDF
    This thesis proposes an exploratory study of discourse organization based on a written French corpus of 700.000 words. It focuses on initial position (defined as the pre-verbal zone) constituting the starting point for textual units at different levels of granularity: sections, paragraphs and sentences. Initial position is relevant in both cognitive and discourse linguistics. It is in this position that the speaker expresses the crucial information and it is from there that the reader's interpretation proceeds. Crucial information may consist in marking either continuity (e.g. expressing old information first) or discontinuity (e.g. indicating that the discourse frame in which incoming information is to be interpreted has changed).All pre-verbal zones in the corpus have been automatically annotated (23217 sentences) and their composition has been quantitatively analysed. Our data show that the discourse role of elements that appear in initial position is significantly related to discourse factors, and more precisely to the following three factors: text-type, textual position, and collocations in initial position.Cette thèse propose une étude exploratoire de l'organisation du discours basée sur un corpus de français écrit (700 000 mots). L'organisation du discours est abordée par la position initiale définie en tant que point de départ d'unités textuelles pouvant relever de trois niveaux d'organisation : les phrases, les paragraphes et les sections. La position initiale est un sujet d'étude commun à la linguistique cognitive et à la linguistique du discours. C'est en cette position que l'auteur exprime l'information cruciale et c'est sur la base de cette information que l'interprétation du lecteur se réalise. L'information cruciale peut consister à marquer une continuité dans le discours (par exemple en commençant l'unité textuelle par une information donnée) ou une discontinuité (en signalant par exemple que le cadre dans lequel interpréter les propos a changé).Toutes les zones préverbales du corpus ont été annotées automatiquement. L'analyse quantitative de leur composition montre que le rôle discursif des éléments en position initiale varie significativement selon des facteurs discursifs tels que le type de texte, la position textuelle et les collocations présentes en cette position

    Vers une vision systémique du processus de l'explication : récit d'une recherche sur l'intégration de la pédagogie, de l'ingénierie et de la modélisation

    Full text link
    Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

    Exploitation des connaissances issues des processus de retour d'expérience industriels

    Get PDF
    Depuis plusieurs années, dans le secteur industriel, l’amélioration continue constitue un aspect important de la famille de normes ISO 9000 maintenue par l’organisation ISO (International Organization for Standardization). Elle se concentre sur l’amélioration de la satisfaction du client en passant par des améliorations continues et incrémentales des produits, des services et des processus. Afin de répondre à ces exigences, un point clé consiste à optimiser le processus de résolution de problèmes qui vise à analyser et résoudre les problèmes courants pour éviter de nouvelles occurrences. Différents processus de résolution de problèmes ont été définis et sont implantés dans les entreprises. L’un des plus connu est sans doute la méthode PLAN-DO-CHECK-ACT (PDCA), également connue sous le nom de « Roue de Deming ». D’autres méthodes sont également utilisées comme : 8 Disciplines (8D) également appelée TOPS (Team-Oriented Problem Solving), Six sigma ou DMAIC (Define, Measure, Analyze, Improve and Control), 7 step, etc. Les activités principales dans ces processus sont : la formation d’une équipe de résolution de problème, la description et l’évaluation de la criticité des événements, l’analyse des événements afin d’en rechercher les causes racine et valider cette analyse, la proposition d’une solution au problème et son application (solution curative), la suggestion d’actions pour éviter une nouvelle occurrence du problème (solution préventive, leçons apprises, etc.). Dans cette logique d’amélioration continue, un processus de Retour d’Expérience (Rex) est une représentation générique focalisé sur l'acquisition des connaissances des experts en phase de résolution de problème et sur la réutilisation de ces connaissances pour résoudre ou éviter de nouveaux problèmes. Une base de connaissances de retour d'expérience va servir de pivot entre la phase d'acquisition et la phase d'exploitation. Les points abordés dans le travail de thèse seront les suivants : Représenter les différentes composantes d'une expérience en utilisant les processus de résolution de problème comme support de capitalisation. Instrumenter les processus de capitalisation et d’exploitation Formaliser des mécanismes de recherche d’expérience, Formaliser des mécanismes de réutilisation d’analyses expertes - Développer un outil support de retour d’expérience sur une architecture Web. ABSTRACT : Continuous improvement of industrial processes is increasingly a key element of competitiveness for industrial systems. Management of experience feedback takes place in this framework to build, analyze and facilitate the reuse of immaterial potential of an organization in order to make it better in achieving its processes and / or products. For several years, the need for continuous improvement of products and processes has led many companies to set up standardized problem solving processes. For this purpose, different Problem Solving Processes are commonly used in the industrial field such as: 8D, PDCA (Plan Do Check Act), DMAICS (Define Measure Analyze Improve Control Standardize) or, more recently, the 9S process (9Steps). The main activities in the problem solving process are: The composition of the problem solving team, the description and assessment of the problem highlighted by events, the analysis of events to identify their root causes and their validation, the formulation of the problem solutions and their application checking (corrective actions), the action suggestions to prevent from a new occurrence of the problem (preventive actions, lessons learned, etc.). During the Problem Solving Processes, the intellectual investment of experts is often considerable. We propose to define mechanisms to reuse previously performed analysis (already solved issues) to guide the resolution of a new problem. The main contributions of this research work are : The structuring of a cognitive experience feedback framework allowing a flexible exploitation of expert knowledge: we propose a formal representation of an experience (according to the problem solving processes). - The definition of two mechanisms to exploit the context and analysis in these experiences. The specification and development of Experience Feedback Support Framework ProWhy offering methodological and software support for knowledge management (KM), and in particular for capitalization and exploitation phases of experience feedback processes

    Exploitation des connaissances issues des processus de retour d'expérience industriels

    Get PDF
    Depuis plusieurs années, dans le secteur industriel, l amélioration continue constitue un aspect important de la famille de normes ISO 9000 maintenue par l organisation ISO (International Organization for Standardization). Elle se concentre sur l amélioration de la satisfaction du client en passant par des améliorations continues et incrémentales des produits, des services et des processus. Afin de répondre à ces exigences, un point clé consiste à optimiser le processus de résolution de problèmes qui vise à analyser et résoudre les problèmes courants pour éviter de nouvelles occurrences. Différents processus de résolution de problèmes ont été définis et sont implantés dans les entreprises. L un des plus connu est sans doute la méthode PLAN-DO-CHECK-ACT (PDCA), également connue sous le nom de Roue de Deming . D autres méthodes sont également utilisées comme : 8 Disciplines (8D) également appelée TOPS (Team-Oriented Problem Solving), Six sigma ou DMAIC (Define, Measure, Analyze, Improve and Control), 7 step, etc. Les activités principales dans ces processus sont : la formation d une équipe de résolution de problème, la description et l évaluation de la criticité des événements, l analyse des événements afin d en rechercher les causes racine et valider cette analyse, la proposition d une solution au problème et son application (solution curative), la suggestion d actions pour éviter une nouvelle occurrence du problème (solution préventive, leçons apprises, etc.). Dans cette logique d amélioration continue, un processus de Retour d Expérience (Rex) est une représentation générique focalisé sur l'acquisition des connaissances des experts en phase de résolution de problème et sur la réutilisation de ces connaissances pour résoudre ou éviter de nouveaux problèmes. Une base de connaissances de retour d'expérience va servir de pivot entre la phase d'acquisition et la phase d'exploitation. Les points abordés dans le travail de thèse seront les suivants : Représenter les différentes composantes d'une expérience en utilisant les processus de résolution de problème comme support de capitalisation. Instrumenter les processus de capitalisation et d exploitation Formaliser des mécanismes de recherche d expérience, Formaliser des mécanismes de réutilisation d analyses expertes - Développer un outil support de retour d expérience sur une architecture Web.Continuous improvement of industrial processes is increasingly a key element of competitiveness for industrial systems. Management of experience feedback takes place in this framework to build, analyze and facilitate the reuse of immaterial potential of an organization in order to make it better in achieving its processes and / or products. For several years, the need for continuous improvement of products and processes has led many companies to set up standardized problem solving processes. For this purpose, different Problem Solving Processes are commonly used in the industrial field such as: 8D, PDCA (Plan Do Check Act), DMAICS (Define Measure Analyze Improve Control Standardize) or, more recently, the 9S process (9Steps). The main activities in the problem solving process are: The composition of the problem solving team, the description and assessment of the problem highlighted by events, the analysis of events to identify their root causes and their validation, the formulation of the problem solutions and their application checking (corrective actions), the action suggestions to prevent from a new occurrence of the problem (preventive actions, lessons learned, etc.). During the Problem Solving Processes, the intellectual investment of experts is often considerable. We propose to define mechanisms to reuse previously performed analysis (already solved issues) to guide the resolution of a new problem. The main contributions of this research work are : The structuring of a cognitive experience feedback framework allowing a flexible exploitation of expert knowledge: we propose a formal representation of an experience (according to the problem solving processes). - The definition of two mechanisms to exploit the context and analysis in these experiences. The specification and development of Experience Feedback Support Framework ProWhy offering methodological and software support for knowledge management (KM), and in particular for capitalization and exploitation phases of experience feedback processes.TOULOUSE-INP (315552154) / SudocSudocFranceF

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis
    corecore