26 research outputs found

    Modélisation informatique de structures dynamiques de segments textuels pour l'analyse de corpus

    No full text
    The objective of the thesis is to propose a data-processing model to represent, build and exploit textualstructures. The suggested model relies on a «type/token» form of text representation extended bysystems of lexical and contextual annotations. This model's establishment was carried out in the SATOsoftware -- of which the functionalities and the internal organization are presented. Reference to anumber of works give an account of the development and use of the software in various contexts.The formal assumption of the textual and discursive structures find an ally in the beaconing XMLlanguage and the proposals of the Text Encoding Initiative (TEI). Formally, the structures built on thetextual segments correspond to graphs. In a development driven textual analysis context, these graphsare multiple and partially deployed. Their resolution, within the fastening of the nodes to textualsegments or that of other graphs, is a dynamic process which can be sustained by various dataprocessingmechanisms. Examples drawn from textual linguistics are used to illustrate the principles ofstructural annotation. Prospective considerations for the data-processing establishment of amanagement system of the structural annotation are also exposed.L'objectif de la thèse est de proposer un modèle informatique pour représenter, construire et exploiterdes structures textuelles. Le modèle proposé s'appuie sur une représentation du texte sous la forme d'unplan lexique/occurrences augmenté de systèmes d'annotations lexicales et contextuelles, modèle dontune implantation a été réalisée dans le logiciel SATO dont on présente les fonctionnalités etl'organisation interne. La présentation d'un certain nombre de travaux rendent compte dudéveloppement et de l'utilisation du logiciel dans divers contextes.La prise en charge formelle des structures textuelles et discursives trouve un allié dans le langage debalisage XML et dans les propositions de la Text Encoding Initiative (TEI). Formellement, lesstructures construites sur les segments textuels correspondent à des graphes. Dans le contexte d'uneanalyse textuelle en élaboration, ces graphes sont multiples et partiellement déployés. La résolution deces graphes, au sens du rattachement des noeuds à des segments textuels ou à des noeuds d'autresgraphes, est un processus dynamique qui peut être soutenu par divers mécanismes informatiques. Desexemples tirés de la linguistique textuelle servent à illustrer les principes de l'annotation structurelle.Des considérations prospectives sur une implantation informatique d'un système de gestion del'annotation structurelle sont aussi exposées

    Livre universitaire numérique en sciences humaines et sociales : pour un foyer d’expertise et une infrastructure de stature mondiale (Le)

    Get PDF
    Au moment où le numérique occupe de plus en plus d’espace dans la communication scientifique, il est utile de s’interroger sur la capacité d’implantation (formes organisationnelles et modèles d’affaires) d’un système de publication numérique issu de la communauté universitaire en mesure d’éditer, de mettre en valeur et d’assurer la présence internationale du livre universitaire en sciences humaines et sociales

    Chaîne de traitement pour une approche discursive de l'analyse d'opinion

    Get PDF
    La structure discursive d'un texte est un élément essentiel à la compréhension du contenu véhiculé par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprétation des expressions anaphoriques. Dans cette thèse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues. Devant l'abondance de données subjectives disponibles, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thèse, nous nous plaçons dans le contexte de la théorie de la SDRT (Segmented Discourse Representation Theory) et proposons de répondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions émises dans ce même document ? -Quel est le rôle des relations de discours dans la détermination du caractère objectif ou subjectif d'un segment textuel ? -Quel est le rôle des éléments linguistiques, comme la négation et la modalité, lors de la détermination de la polarité d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la détermination de l'opinion globale véhiculée dans un document ? -Est-ce qu'une approche basée sur le discours apporte une réelle valeur ajoutée comparée à une approche classique basée sur la notion de 'sacs de mots'? -Cette valeur ajoutée est-elle dépendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

    Un système data mining en ligne pour la maintenance ontologique d'une mémoire corporative DM

    Get PDF
    L'intégration de la connaissance dans la mémoire corporative (Ribière et Matta, 1998), (Dieng et al., 1998) fait face à l'hétérogénéité des données (Visser, Jones et al., 1997). L'utilisation de l'ontologie est une approche possible pour surmonter ce problème. Cependant, l'ontologie est une structure de donnée comme n'importe quelle structure informatique, elle est donc dynamique et évolue dans le temps à cause des conditions dynamiques résultant des changements du domaine conceptuel, les changements de conceptualisation, les changements de spécification, les changements descendants, etc. (Yildiz, 2006). Ces dernières années, plusieurs approches ont été proposées pour résoudre le problème de la maintenance des ontologies. Cependant, la précision et le rappel ne permettent pas de satisfaire les besoins des utilisateurs. De plus, ces approches ne prennent pas en compte toute l'information disponible pour prendre une décision réaliste. Pour résoudre le problème de l'évolution de la connaissance dans les ontologies, nous proposons une approche hybride qui utilise l'apprentissage machine et un processus d'alignement qui contrôle les relations syntaxiques entre les entrées dans l'ontologie. De plus, des règles structurelles et des heuristiques sont appliquées pour améliorer le degré de similitude entre les entités ontologiques. Ce processus hybride crée des règles de correspondance qui définissent comment transformer les entrées dans l'ontologie en définissant tous les types d'associations possibles entre les entités ontologiques. L'approche d'enrichissement de l'ontologie exploite les techniques de la fouille de données, les techniques du traitement automatique du langage naturel et la recherche d'information pour améliorer la performance d'apprentissage durant la tâche d'enrichissement du domaine conceptuel. L'évaluation des ontologies demeure un problème important et le choix d'une approche appropriée dépend des critères utilisés. Dans notre approche, nous adoptons la vérification de la cohérence décrite dans (Maziar Amirhosseini et al., 2011) et (Abderrazak et al., 2011).\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Traitement automatique du langage naturel, Apprentissage machine, Recherche d'information, Intégration, Ontologie, Mémoire corporative, Web sémantique

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières
    corecore