13 research outputs found

    Extraction d'information

    Get PDF

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    Propositions de méthodologies pour la valorisation de la médecine traditionnelle fondées sur une ontologie

    Get PDF
    The work presented in this thesis focuses on the problematic of the valorization of traditional medicine. Traditional medicine is a very rich biological andcultural diversity. His practise is widespread and occurs in various forms. The valorization of this medicine is now a very important issue; it will capitalize this knowledge to popularize, and thus improve its performance in terms of diagnosis, treatment and cost. World Health Organization (WHO)proposes its integration into the national health system. But the practice and exercise of this medicine face many problems which make its implementation difficult. Among these problems, we can list the informal nature of its practice, its content is not formalized, its access mode is not determined, etc. We propose in this thesis, practices more efficient based on the new technology of information and communications; they based specifically on semantic resource such as the ontology which is the formal structure of an acquaintance. The methods proposed in this thesis allow to formalize the contents of this medicine, to facilitate its exercise and ultimately to succeed its revalorization.Le travail présenté dans cette thèse porte sur la problématique de la valorisation de la médecine traditionnelle. La médecine traditionnelle est d’une diversité biologique et culturelle très riche. Sa pratique est très répandue et se fait sous des formes variées . La valorisation de cette médecine constitue aujourd’hui un enjeu très important ; elle permettra de capitaliser ce savoir, de le vulgariser, et donc d’améliorer ses prestations en termes de diagnostic, de traitement et de coût. L’Organisation Mondiale de la Santé (OMS) propose, du reste, de l’intégrer dans le système national de santé. Mais la pratique et l’exercice de cette médecine rencontrent de nombreux problèmes qui rendent son application difficile. Parmi ces problèmes, nous pouvons relever le caractère informel de sa pratique, son contenu non formalisé, son mode d’accès non déterminé, etc. Nous proposons, dans cette thèse, des techniques de pratiques plus efficaces puisque basées sur les nouvelles technologies de l’information et de la communication ; celles-ci reposent plus spécifiquement sur la ressource sémantique telle que l’ontologie qui est la structuration formelle d’une connaissance. Les méthodes proposées dans cette thèse permettent de formaliser le contenu de cette médecine, pour en faciliter l’exercice et en définitive, pour aboutir à sa revalorisation

    Des propriétés syntaxiques des collocations dans des écrits scientifiques

    No full text
    Modeling the syntactic properties of collocations is not easy. This work focuses on the observation of syntactic constructions with the intent to understand how they work and propose a mechanism for encoding of these elements. The ultimate goal of this project is to provide the information necessary to create an online collocation dictionary. To that end, we used corpus linguistics methods. The lexical field is the transdisciplinary scientific lexicon of collocations.La modélisation des propriétés syntaxiques des collocations n’est pas une chose facile. Le présent travail se veut concentrer sur l’observation des constructions syntaxiques dans l’intention de comprendre leur fonctionnement, ainsi que proposer le codage de ces éléments. L'objectif final est de fournir les informations pour pouvoir créer un jour un dictionnaire électronique utilisable en ligne. Pour explorer cette problématique, nous avons recouru aux méthodes de la linguistique de corpus. Le champ lexical est celui des collocations du lexique scientifique transdisciplinaire

    Sémantique des sites Web de restaurants : analyse de productions polysémiotiques

    Get PDF

    Modélisation de l'apprenant : application d'un modèle cognitif au développement d'un système d'apprentissage

    Get PDF
    Bien que le diagnostic des erreurs des apprenants soit central à toute stratégie d'intervention correctrice relevant au mode d'évaluation dans un système d'apprentissage, trop souvent, la prise d'information qui l'accompagne est incomplète ou incertaine. Ajoutons aussi le problème de la modélisation dans un contexte d'apprentissage où on ne peut observer directement ce qui se passe dans la tête d'un apprenant, ni de savoir avec certitude son plan de raisonnement, ni le but qu'il cherche à accomplir. Il s'ensuit une réduction de l'efficacité des interventions pédagogiques qui limite les apprentissages scolaires. Cette thèse apporte des solutions à cette problématique. Elle consiste en la conception et le développement d'un Système Tutoriel Intelligent pour le Diagnostic des Erreurs en Soustraction (TIDES). Elle s'inscrit dans une perspective d'évaluation diagnostique des compétences et connaissances arithmétiques en utilisant une approche originale qui vise à modéliser l'apprenant dans une situation d'apprentissage où les informations sur cet apprenant sont potentiellement incomplètes ou incertaines. Dans cette thèse, nous présentons la conception, le développement et une mise à l'essai du système TIDES. Le design de ce système est basé sur un modèle cognitif, la théorie d'apprentissage ACT-R d'Anderson, capable d'analyser le comportement d'un apprenant et de savoir son état cognitif. Le choix de ce design est discuté et justifié aussi. L'architecture du système TIDES comporte au moins trois modules: un module qui permet de spécifier des tâches à l'apprenant, un module d'analyse qui permet d'analyser les actions de l'apprenant et un module de diagnostic qui permet d'inférer les informations sur l'apprenant, d'évaluer ses compétences impliquées dans une tâche d'apprentissage, de détecter sa stratégie mise en œuvre, en s'appuyant sur une méthode de reconnaissance de plan, de prédire sa prochaine action la plus probable et de savoir avec exactitude les causes réelles de ses erreurs. Les caractéristiques du système TIDES sont décrites en détail dans la thèse. La méthodologie d'une mise à l'essai du système avec une vingtaine d'élèves est présentée et les données recueillies dans cette mise à l'essai sont regroupées et analysées. L'ensemble des résultats obtenus indique que le système TIDES offre le potentiel d'analyser et de diagnostiquer les erreurs des apprenants de façon plus précise, et donne effectivement lieu à un apprentissage conforme à celui qui était prévu en se basant sur la méthode originale adoptée. Enfin, nous proposerons des améliorations possibles (extension du système TIDES à l'aide des réseaux bayésiens) que nous présenterons comme explorées mais non encore complètement intégrées dans l'état actuel du système TIDES et aussi non évaluées. Il s'agit en fait de déterminer à quelles conditions le modèle bayésien peut être intégré à un système d'apprentissage, en tant que système tutoriel intelligent et dont le domaine d'apprentissage est l'arithmétique. \ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Intelligence artificielle, environnement interactif pour l'apprentissage humain, système tutoriel intelligent, théories d'apprentissage, Modèle d'Anderson ACT-R, modélisation d'un apprenant, analyse des erreurs, diagnostic des erreurs, modélisation statistique et réseaux bayésiens

    Inférence de requêtes régulières dans les arbres et applications à l'extraction d'information sur le Web

    No full text
    Cette thèse se place dans le cadre de l'inférence de programmes d'extraction d'information à partir du Web. Elle soutiens les deux idées suivantes: - l'ultilisation de la structure arborescente des documents du Web permet de définir des programmes d'extraction expressifs et efficaces; - les techniques d'inférences grammaticale sur les arbres sont bien adaptées pour l'inférences de programmes d'extraction d'information
    corecore