213 research outputs found

    ...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux.

    Get PDF
    International audienceNotre travail porte sur la dĂ©tection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L'approche proposĂ©e est une approche syntagmatique qui tient compte des marqueurs de reformu-lation paraphrastique et des spĂ©cificitĂ©s de l'oral. Les donnĂ©es de rĂ©fĂ©rence sont consensuelles. Une mĂ©thode automatique fondĂ©e sur l'apprentissage avec les CRF est proposĂ©e afin de dĂ©tecter les segments paraphrasĂ©s. DiffĂ©rents descripteurs sont exploitĂ©s dans une fenĂȘtre de taille variable. Les tests effectuĂ©s montrent que les segments en relation de paraphrase sont assez difficiles Ă  dĂ©tecter, surtout avec leurs frontiĂšres correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de prĂ©cision et 0,63 de rappel. Nous avons plusieurs perspectives Ă  ce travail pour amĂ©liorer la dĂ©tection des segments en relation de paraphrase et pour Ă©tudier les donnĂ©es depuis d'autres points de vue. Abstract. Our work addresses automatic detection of segments with paraphrastic rephrasing relation in spoken corpus. The proposed approach is syntagmatic. It is based on paraphrastic rephrasing markers and the specificities of the spoken language. The reference data used are consensual. Automatic method based on machine learning using CRFs is proposed in order to detect the segments that are paraphrased. Different descriptors are exploited within a window with various sizes. The tests performed indicate that the segments that are in paraphrastic relation are quite difficult to detect. Our best average reaches up to 0.65 F-measure, 0.75 precision, and 0.63 recall. We have several perspectives to this work for improving the detection of segments that are in paraphrastic relation and for studying the data from other points of view

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numĂ©risation des documents et le dĂ©veloppement des technologies Internet ont engendrĂ© une augmentation permanente du nombre de documents et de types de documents disponibles. Face Ă  cette masse documentaire, XML (eXtensible Markup Language) s’est imposĂ© comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent ĂȘtre classĂ©s en deux types : les documents XML orientĂ©-donnĂ©es et les documents XML orientĂ©-textes. Les documents XML orientĂ©-donnĂ©es sont constituĂ©s d’un ensemble d’élĂ©ments gĂ©nĂ©ralement courts et prĂ©cis et sont similaires aux donnĂ©es relationnelles. Nous constatons que les balises utilisĂ©es pour ce type de documents dĂ©crivent gĂ©nĂ©ralement d’une maniĂšre prĂ©cise le contenu, et offrent la sĂ©mantique basique nĂ©cessaire Ă  la description de l’information (Exemples de balises : Article, Client, QuantitĂ©, Prix). A contrario, les documents XML orientĂ©-textes sont riches en texte et utilisent des balises qui reflĂštent la plupart du temps un dĂ©coupage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une trĂšs pauvre vocation sĂ©mantique. Partant de cette constatation, le dĂ©veloppement d’approches supportĂ©es par des outils automatisĂ©s permettant de dĂ©crire la sĂ©mantique des documents XML orientĂ©s-textes devient un besoin urgent, voire une nĂ©cessitĂ© pour certains usages. Dans ce contexte, nous proposons une approche de structuration sĂ©mantique des documents XML Ă  partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sĂ©mantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) DĂ©termination d’une taxonomie1 qui sera affectĂ©e au document, c’est-Ă -dire celle qui correspond au mieux Ă  sa sĂ©mantique (cette Ă©tape se base sur une dĂ©marche de pondĂ©ration d’un ensemble de taxonomies candidates) ; 3) Affectation, Ă  chaque Ă©lĂ©ment feuille de la structure logique du document, du concept le plus significatif Ă  partir de la taxonomie retenue ; 4) InfĂ©rence de concepts aux Ă©lĂ©ments non feuilles du document. Notre approche de structuration sĂ©mantique des documents se base sur l’indexation sĂ©mantique et diffĂšre des autres travaux par : 1) Le choix d’une taxonomie appropriĂ©e pour chaque document, il s’agit de dĂ©terminer la taxonomie qui dĂ©crit au mieux la sĂ©mantique du document, et 2) La pondĂ©ration des concepts extraits de maniĂšre Ă  donner plus d’importance aux concepts les plus spĂ©cifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiĂ©rarchie, plus l’information qu’il apporte est fine et ciblĂ©e. Pour exploiter ces structures sĂ©mantiques, nous avons Ă©tendu le mĂ©ta-modĂšle d’entrepĂŽts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de mĂ©tadocument afin de permettre l’interrogation de ces structures sĂ©mantiques. Enfin, pour Ă©valuer nos propositions, nous avons menĂ© un ensemble d’expĂ©rimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sĂ©mantique MeSH (NML's Medical Subject Headings). Les rĂ©sultats obtenus montrent que l’algorithme de pondĂ©ration des concepts des taxonomies qui a Ă©tĂ© proposĂ© permet de sĂ©lectionner avec prĂ©cision la taxonomie pertinente pour un document donnĂ© et, en consĂ©quence, les concepts pertinents Ă  affecter aux Ă©lĂ©ments feuilles de la structure sĂ©mantique de ce document.Le rĂ©sumĂ© en anglais n'a pas Ă©tĂ© communiquĂ© par l'auteur

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numĂ©risation des documents et le dĂ©veloppement des technologies Internet ont engendrĂ© une augmentation permanente du nombre de documents et de types de documents disponibles. Face Ă  cette masse documentaire, XML (eXtensible Markup Language) s’est imposĂ© comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent ĂȘtre classĂ©s en deux types : les documents XML orientĂ©-donnĂ©es et les documents XML orientĂ©-textes. Les documents XML orientĂ©-donnĂ©es sont constituĂ©s d’un ensemble d’élĂ©ments gĂ©nĂ©ralement courts et prĂ©cis et sont similaires aux donnĂ©es relationnelles. Nous constatons que les balises utilisĂ©es pour ce type de documents dĂ©crivent gĂ©nĂ©ralement d’une maniĂšre prĂ©cise le contenu, et offrent la sĂ©mantique basique nĂ©cessaire Ă  la description de l’information (Exemples de balises : Article, Client, QuantitĂ©, Prix). A contrario, les documents XML orientĂ©-textes sont riches en texte et utilisent des balises qui reflĂštent la plupart du temps un dĂ©coupage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une trĂšs pauvre vocation sĂ©mantique. Partant de cette constatation, le dĂ©veloppement d’approches supportĂ©es par des outils automatisĂ©s permettant de dĂ©crire la sĂ©mantique des documents XML orientĂ©s-textes devient un besoin urgent, voire une nĂ©cessitĂ© pour certains usages. Dans ce contexte, nous proposons une approche de structuration sĂ©mantique des documents XML Ă  partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sĂ©mantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) DĂ©termination d’une taxonomie1 qui sera affectĂ©e au document, c’est-Ă -dire celle qui correspond au mieux Ă  sa sĂ©mantique (cette Ă©tape se base sur une dĂ©marche de pondĂ©ration d’un ensemble de taxonomies candidates) ; 3) Affectation, Ă  chaque Ă©lĂ©ment feuille de la structure logique du document, du concept le plus significatif Ă  partir de la taxonomie retenue ; 4) InfĂ©rence de concepts aux Ă©lĂ©ments non feuilles du document. Notre approche de structuration sĂ©mantique des documents se base sur l’indexation sĂ©mantique et diffĂšre des autres travaux par : 1) Le choix d’une taxonomie appropriĂ©e pour chaque document, il s’agit de dĂ©terminer la taxonomie qui dĂ©crit au mieux la sĂ©mantique du document, et 2) La pondĂ©ration des concepts extraits de maniĂšre Ă  donner plus d’importance aux concepts les plus spĂ©cifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiĂ©rarchie, plus l’information qu’il apporte est fine et ciblĂ©e. Pour exploiter ces structures sĂ©mantiques, nous avons Ă©tendu le mĂ©ta-modĂšle d’entrepĂŽts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de mĂ©tadocument afin de permettre l’interrogation de ces structures sĂ©mantiques. Enfin, pour Ă©valuer nos propositions, nous avons menĂ© un ensemble d’expĂ©rimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sĂ©mantique MeSH (NML's Medical Subject Headings). Les rĂ©sultats obtenus montrent que l’algorithme de pondĂ©ration des concepts des taxonomies qui a Ă©tĂ© proposĂ© permet de sĂ©lectionner avec prĂ©cision la taxonomie pertinente pour un document donnĂ© et, en consĂ©quence, les concepts pertinents Ă  affecter aux Ă©lĂ©ments feuilles de la structure sĂ©mantique de ce document.Le rĂ©sumĂ© en anglais n'a pas Ă©tĂ© communiquĂ© par l'auteur

    Simplification de phrases pour l’extraction de relations

    Get PDF
    National audienceL’extraction de relations par apprentissage nĂ©cessite un corpus annotĂ© de trĂšs grande taille pour couvrir toutes les variations d’expressions des relations. Pour contrer ce problĂšme, nous proposons une mĂ©thode de simplification de phrases qui permet de rĂ©duire la variabilitĂ© syntaxique des relations. Elle nĂ©cessite l’annotation d’un petit corpus qui sera par la suite augmentĂ© automatiquement. La premiĂšre Ă©tape est l’annotation des simplifications grĂące Ă  un classifieur Ă  base de CRF, puis l’extraction des relations, et ensuite une complĂ©tion automatique du corpus d’entra\ⁱnement des simplifications grĂące aux rĂ©sultats de l’extraction des relations. Les premiers rĂ©sultats que nous avons obtenus pour la tĂąche d’extraction de relations d’i2b2 2010 sont trĂšs encourageant

    Extraction de relations en domaine de spécialité

    Get PDF
    La quantité d'information disponible dans le domaine biomédical ne cesse d'augmenter. Pour que cette information soit facilement utilisable par les experts d'un domaine, il est nécessaire de l'extraire et de la structurer. Pour avoir des données structurées, il convient de détecter les relations existantes entre les entités dans les textes. Nos recherches se sont focalisées sur la question de l'extraction de relations complexes représentant des résultats expérimentaux, et sur la détection et la catégorisation de relations binaires entre des entités biomédicales. Nous nous sommes intéressée aux résultats expérimentaux présentés dans les articles scientifiques. Nous appelons résultat expérimental, un résultat quantitatif obtenu suite à une expérience et mis en relation avec les informations permettant de décrire cette expérience. Ces résultats sont importants pour les experts en biologie, par exemple pour faire de la modélisation. Dans le domaine de la physiologie rénale, une base de données a été créée pour centraliser ces résultats d'expérimentation, mais l'alimentation de la base est manuelle et de ce fait longue. Nous proposons une solution pour extraire automatiquement des articles scientifiques les connaissances pertinentes pour la base de données, c'est-à-dire des résultats expérimentaux que nous représentons par une relation n-aire. La méthode procÚde en deux étapes : extraction automatique des documents et proposition de celles-ci pour validation ou modification par l'expert via une interface. Nous avons également proposé une méthode à base d'apprentissage automatique pour l'extraction et la classification de relations binaires en domaine de spécialité. Nous nous sommes intéressée aux caractéristiques et variétés d'expressions des relations, et à la prise en compte de ces caractéristiques dans un systÚme à base d'apprentissage. Nous avons étudié la prise en compte de la structure syntaxique de la phrase et la simplification de phrases dirigée pour la tùche d'extraction de relations. Nous avons en particulier développé une méthode de simplification à base d'apprentissage automatique, qui utilise en cascade plusieurs classifieurs.The amount of available scientific literature is constantly growing. If the experts of a domain want to easily access this information, it must be extracted and structured. To obtain structured data, both entities and relations of the texts must be detected. Our research is about the problem of complex relation extraction which represent experimental results, and detection and classification of binary relations between biomedical entities. We are interested in experimental results presented in scientific papers. An experimental result is a quantitative result obtained by an experimentation and linked with information that describes this experimentation. These results are important for biology experts, for example for doing modelization. In the domain of renal physiology, a database was created to centralize these experimental results, but the base is manually populated, therefore the population takes a long time. We propose a solution to automatically extract relevant knowledge for the database from the scientific papers, that is experimental results which are represented by a n-ary relation. The method proceeds in two steps: automatic extraction from documents and proposal of information extracted for approval or modification by the experts via an interface. We also proposed a method based on machine learning for extraction and classification of binary relations in specialized domains. We focused on the variations of the expression of relations, and how to represent them in a machine learning system. We studied the way to take into account syntactic structure of the sentence and the sentence simplification guided by the task of relation extraction. In particular, we developed a simplification method based on machine learning, which uses a series of classifiers.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Le vocabulaire médical du point de vue des trois fonctions primaires.

    Get PDF
    This thesis falls within the framework of the Three Primary Functions theory based on Z. Harris’s distributionalist theory (predicative function, argumental function and actualizing function), as well as in the line of work that does not distinguish between general and specialized languages considering their syntactic and semantic functioning. The medical terminology is described here in the context of the sentence. We analyzed the medical terms according to their argumental or predicative employment. This analysis led to the development of databases. A query interface has been developed subsequently, to allow potential users to conduct targeted research.Cette thĂšse s’inscrit Ă  la fois dans le cadre de la thĂ©orie des trois fonctions primaires qui s’inspire de la thĂ©orie distributionaliste de Z. Harris (la fonction prĂ©dicative, la fonction argumentale et la fonction actualisatrice) et dans la lignĂ©e des travaux qui ne distinguent pas la langue gĂ©nĂ©rale des langues spĂ©cialisĂ©es, du point de vue de leur fonctionnement syntaxique et sĂ©mantique. La terminologie mĂ©dicale est dĂ©crite, ici, dans le cadre de la phrase. Nous avons analysĂ© les termes mĂ©dicaux selon leurs emplois prĂ©dicatifs ou argumentaux. Cette analyse a donnĂ© lieu Ă  l’élaboration de bases de donnĂ©es. Une interface d’interrogation a Ă©tĂ© Ă©laborĂ©e, par la suite, afin de permettre aux utilisateurs potentiels d’effectuer des recherches ciblĂ©es

    Approche exploratoire sur la classification appliquée aux images

    Get PDF

    Vers un prototype de traduction automatique contrÎlée français/arabe appliquée aux domaines à sécurité critique

    Get PDF
    The result of our research is a proposal for a controlled French to Arabic machine translation model, applied to security critical domains. This cross-disciplinary research study covers controlled languages and French to Arabic machine translation, two intimately related concepts. In a situation of crisis where communication must play its full role, and in the context of increasing globalisation where many languages coexist, our research findings show that the combination of these two concepts is sorely needed. No one can deny today the predominant role played by security in people’s daily life and the significant challenges it presents in modern societies. These more and more complex and interconnected societies present evident vulnerabilities that force them to rethink their means of protection and in particular that of their communication systems. Language communication with computerised systems is one of the most widely used forms of communication for the transfer of knowledge required in carrying out and completing tasks and in the good conduct of various activities. However, and contrary to an entrenched idea that tends to associate the risk of poor communication only with oral transmission, the use of written language can also be subject to risk. Indeed, a protocol or an alert which is badly formulated can provoke serious accidents due to misunderstanding, in particular during a crisis and under stress. It is in this context that our research has been undertaken. Our thesis proposes an innovative approach in the fields of controlled language and machine translation in which, relying on a microsystemic analysis of the language and a study of the corpus in intension, precise standards are defined for writing and translating protocols and security alerts written in French automatically into Arabic. Indeed, new concepts are introduced by means of several normative methods involved not only in the controlling process but also in the machine translation process. The French to Arabic machine translation system TACCT (Traduction Automatique ContrĂŽlĂ©e Centre TesniĂšre) developed during our research is a rule-based system based on an isomorphic syntactic and semantic model stemming from intra- and interlanguage analysis between French and Arabic. It introduces new concepts including controlled mirror macrostructures, where the syntax and semantics of the source and target languages are represented at the same level.La prĂ©sente recherche propose un modĂšle de traduction automatique français-arabe contrĂŽlĂ©e appliquĂ©e aux domaines Ă  sĂ©curitĂ© critique. C’est une recherche transverse qui traite Ă  la fois des langues contrĂŽlĂ©es et de la traduction automatique français-arabe, deux concepts intimement liĂ©s. Dans une situation de crise oĂč la communication doit jouer pleinement son rĂŽle, et dans une mondialisation croissante oĂč plusieurs langues cohabitent, notre recherche montre que l’association de ces deux concepts est plus que nĂ©cessaire. Nul ne peut contester aujourd’hui la place prĂ©pondĂ©rante qu’occupe la sĂ©curitĂ© dans le quotidien des personnes et les enjeux qu’elle reprĂ©sente au sein des sociĂ©tĂ©s modernes. Ces sociĂ©tĂ©s davantage complexes et interconnectĂ©es manifestent une vulnĂ©rabilitĂ© flagrante qui les oblige Ă  repenser leurs moyens d’organisation et de protection dont les systĂšmes de communication. La communication langagiĂšre Ă  l’aide de systĂšmes informatisĂ©s est l’une des formes de communication la plus souvent utilisĂ©e pour le transfert des connaissances nĂ©cessaires Ă  l’accomplissement des tĂąches et le dĂ©roulement des diverses actions. Toutefois, et contrairement Ă  une idĂ©e bien ancrĂ©e qui tend Ă  associer les risques d’une mauvaise communication Ă  l’oral uniquement, l’usage de la langue Ă©crite peut lui aussi comporter des risques. En effet des messages mal Ă©crits peuvent conduire Ă  de rĂ©elles catastrophes et Ă  des consĂ©quences irrĂ©versibles notamment dans des domaines jugĂ©s sensibles tels que les domaines Ă  sĂ©curitĂ© critique. C’est dans ce contexte que s’inscrit notre recherche. Cette thĂšse est une approche novatrice dans les domaines des langues contrĂŽlĂ©es et de la traduction automatique. Elle dĂ©finit avec prĂ©cision, en s’appuyant sur une analyse microsystĂ©mique de la langue et un travail en intension sur le corpus, des normes pour la rĂ©daction de protocoles de sĂ©curitĂ© et d’alertes ainsi que leur traduction automatique vers l’arabe. Elle apporte en effet des notions nouvelles Ă  travers plusieurs procĂ©dĂ©s normatifs intervenant non seulement dans le processus de contrĂŽle mais Ă©galement dans le processus de traduction. Le systĂšme de traduction automatique français-arabe TACCT (Traduction Automatique ContrĂŽlĂ©e Centre TesniĂšre) mis au point dans cette thĂšse est un systĂšme Ă  base de rĂšgles linguistiques qui repose sur un modĂšle syntaxico-sĂ©mantique isomorphique issu des analyses intra- et interlangues entre le français et l’arabe. Il introduit de nouveaux concepts notamment celui des macrostructures miroir contrĂŽlĂ©es, oĂč la syntaxe et la sĂ©mantique des langues source et cible sont reprĂ©sentĂ©es au mĂȘme niveau
    • 

    corecore