10 research outputs found

    Réutilisation d'entités nommées pour la réponse au courriel

    Get PDF
    La réponse automatique aux courriels est une solution envisagée pour faciliter le travail de certains services d’entreprises, tels que les services à la clientèle ou les relations avec des investisseurs, services confrontés à un grand nombre de courriels souvent répétitifs. Nous avons décidé d’adapter une approche de raisonnement à base de cas (CBR - Case-Based Reasoning) pour confronter ce problème. Cette approche vise à réutiliser des messages antérieurs pour répondre à de nouveaux courriels, en sélectionnant une réponse adéquate parmi les messages archivés et en l’adaptant pour la rendre pertinent par rapport au contexte de la nouvelle requête. L’objectif de nos travaux est de définir une démarche pour aider l’usager d’un système de réponse au courriel à réutiliser les entités nommées de courriels antécédents. Cependant, les entités nommées nécessitent une adaptation avant d’être réutilisées. Pour ce faire, nous effectuons deux tâches qui sont d’abord l’identification des portions modifiables du message antécédent et ensuite la sélection des portions qui seront adaptées pour construire la réponse à la requête. Les deux tâches nécessitent l’utilisation de connaissances. Notre problématique consiste à déterminer si les approches adaptatives, basées sur des techniques d’apprentissage automatique permettent d’acquérir des connaissances pour réutiliser efficacement des entités nommées. La première tâche d’identification des portions modifiables s’apparente à l’extraction d’information. Toutefois nous nous intéressons uniquement aux entités nommées et à leurs spécialisations. La seconde tâche, la sélection de portions à adapter, correspond à une catégorisation de textes dans laquelle nous utilisons la requête pour attribuer une classe à la réponse que nous devons construire. La classe nous indique quelles entités doivent être adaptées. ii Nous avons étudiés et comparées différentes approches pour les deux tâches. Ainsi, nous avons testés pour l’extraction, les approches manuelle et automatiques, de haut en bas (top-down) et de bas vers le haut (bottom-up) sur un corpus de courriels. Les résultats obtenus par l’approche manuelle sont excellents. Toutefois nous observons une dégradation pour les approches automatiques. Pour la catégorisation, Nous avons évalué différentes représentations des textes et des mots, l’utilisation de poids pour ces derniers, et l’impact d’une compression obtenue par l’utilisation de règles d’association. Les résultats obtenus sont généralement satisfaisants et nous indique que notre approche, composée des deux tâches décrites précédemment, pourrait s’appliquer à notre problème de réponse automatique aux courriels.An automatic e-mail response system is a solution for improving the operations of certain business services, like customers’ services or investor relations. Those services are dealing with a large volume requests coming through e-mail messages, most of them being repetitive. We have decided to explore a CBR approach (Case-Based Reasoning) for this problem. Such an approach makes use of antecedent messages to respond to new incoming e-mails. Requests coming from customers or investors are often redundant; we could select an adequate answer among the archived messages, and then adapt it to make it coherent with the actual context of the new message request. In this project, we address the re-use problem, but more specifically the identification of named entity and their specialized roles. These entities are portions of text strongly depend on the context of the antecedent message, and hence need some adaptation to be re-used. We divide the reuse process in two tasks which are: a) the identification of modifiable portions of an antecedent message; b) the selection of portions to be adapted to build the answer of the request. For first task, we make use of information extraction techniques. But we will concentrate our efforts uniquely on the extraction of named entities and their specializations. For second task we make use of text classification techniques to decide which portions are subject to adaptation. This decision is based on the context of the request, words which compose it. We used different approaches for the two tasks. We tested manual and automatics top-down and bottom-up extraction techniques on an e-mail corpus for the identification of iv modifiable portions extraction task. Manual approach gives us excellent results. But, we notice a degradation of performance for automatic extraction techniques. For the selection of portions to be adapted, we compared made use of association rules and various word representation. Association rules use permits to compress data without degrades results a lot. Globally, results are good and indicate that our approach, desrcibes before, could be applied to our problem

    Reconocimiento de enfermedades en fichas técnicas de medicamentos y su anotación con SNOMED-CT

    Get PDF
    La interoperabilidad o habilidad para intercambiar información entre sistemas informáticos es una cuestión de gran importancia en la informática médica. La interoperabilidad influye directamente en la calidad de los sistemas médicos existentes en la práctica clínica, ya que permite que la información se trate de manera eficiente y consistente. Para la comunicación entre sistemas informáticos heterogéneos se necesitan terminologías o diccionarios que representen e identifiquen conceptos médicos de forma única, sin importar el idioma o la forma lingüística en la que aparezcan. Estas terminologías permiten a los sistemas informáticos tener la misma visión del mundo y que la información intercambiada sea entendible. Actualmente, los esfuerzos para la adopción de estas terminologías en la práctica clínica recaen en los profesionales del dominio médico. Los profesionales son los encargados de reconocer conceptos médicos manualmente en documentos del área de la medicina y anotarlos con el código del concepto asociado en la terminología. No existe ningún método automático que permita el reconocimiento de conceptos de un determinado dominio, como por ejemplo las enfermedades, y que posteriormente encuentre el concepto asociado dentro de una terminología con un grado de precisión suficientemente elevado para que pueda ser adoptado en la práctica clínica. En esta tesis de máster se propone un nuevo método para el reconocimiento de enfermedades en fichas técnicas de medicamentos y su posterior mapeo con la terminología médica SNOMED-CT en español. El método utiliza dos nuevas técnicas propuestas en la tesis para cada fase. La nueva técnica para el reconocimiento de enfermedades propuesta está basada en reglas y en diccionarios especializados en medicina. La nueva técnica de mapeo está basada en la generación de las posibles combinaciones lingüísticas en las que puede aparecer la enfermedad para realizar comparaciones exactas de palabras, utilizando las funciones sintácticas de las palabras como guía. El método propuesto se centra en la identificación de enfermedades dentro de la sección de indicaciones terapéuticas de las fichas técnicas de medicamentos

    Evaluation of CO2 storage potential in offshore strata, mid-south Atlantic: Southeast Offshore Storage Resource Assessment (SOSRA)

    Get PDF
    Subsurface geological storage of CO2 has the potential to significantly offset greenhouse gas emissions for safe, economic, and acceptable public use of fossil fuels. Due to legal advantages and vast resource capacity, offshore CO2 storage provides an attractive alternative to onshore options. Although offshore Lower Cretaceous and Upper Jurassic reservoirs have a vast expected storage capacity, quantitative assessment of the offshore storage resource in the southeastern United States is limited. This work is a part of the Southeast Offshore Storage Resource Assessment (SOSRA) project, which presents quantitative evaluation of a high-quality potential geological repository for CO2 in the Mid- and South Atlantic Planning Areas. This is the first comprehensive investigation and quantitative assessment of CO2 storage potential for the outer continental shelf within the Lower Cretaceous and Upper Jurassic rocks, including the Southeast Georgia Embayment and most of the Blake Plateau. An interpretation of 200,000 km of legacy industrial 2D seismic reflection profiles and geophysical well logs (TRANSCO 1005-1, COST GE-1, and EXXON 564-1) are utilized to create structure and thickness maps for the potential reservoirs and seals. Three target reservoirs isolated by seals based on their effective porosity values are identified and assessed. A quantitative evaluation of CO2 Storage Potential in the Offshore Atlantic Lower Cretaceous and Upper Jurassic Strata is calculated using the DOE-NETL equation for saline formations. The prospective storage resources evaluation ranges between 450 and 4700 Mt of CO2 within the Lower Cretaceous and between 500 and 5710 Mt within the Upper Jurassic sandstone rocks at P10 to P90. The efficiency factor of the dolomite ranges from 0.64 to 5.36 percent at P10 to P90 for the formation scale. Facies classification of five offshore wells in the Southeast Georgia Embayment was applied to the Machine Learning approach using Support Vector Classifier (SVC) and Random Forest Classifier (RFC). As a result, the SVC and RFC algorithms were compared to evaluate facies classification accuracy; the RFC had the most accurate and effectively used outcomes to classify lithofacies. The Machine Learning approach resulted in reliable and accurate values of predicted facies classification to improve CO2 storage estimation

    Applying Machine Learning For High Performance Named-Entity Extraction

    No full text
    This paper describes a machine learning approach to build an efficient, accurate and fast name spotting system. Finding names in free text is an important task in addressing real-world text-based applications. Most previous approaches have been based on carefully hand-crafted modules encoding linguistic knowledge specific to the language and document genre. Such approaches have two drawbacks: they require large amounts of time and linguistic expertise to develop, and they are not easily portable to new languages and genres. This paper describes an extensible system which automatically combines weak evidence for name extraction. This evidence is gathered from easily available sources: part-of-speech tagging, dictionary lookups, and textual information such as capitalization and punctuation. Individually, each piece of evidence is insufficient for robust name detection. However, the combination of evidence, through standard machine learning techniques, yields a system that achieves performance equivalent to the best existing hand-crafted approaches

    Comparaison d'une approche à base de règles avec une approche utilisant de l'apprentissage machine pour l'analyse sémantique

    Get PDF
    RÉSUMÉ L'analyse sémantique est une importante partie du traitement des langues naturelles qui repose souvent sur des modèles statistiques et des approches d’apprentissage machine supervisé. Cependant, ces approches nécessitent des ressources qui sont souvent coûteuses à acquérir. Ce mémoire décrit nos expériences afin de comparer Anasem, un analyseur sémantique en Prolog, avec le meilleur système de la tâche partagée (« Shared Task ») de la « Conference on Natural Language Learning » (CoNLL) sur l'analyse sémantique. Le meilleur système de CoNLL et Anasem sont basés sur des analyses de dépendance, mais leur différence majeure se situe au niveau des techniques d’extraction des structures sémantiques (à base de règles, par opposition à l'apprentissage machine). Nos résultats montrent qu'une approche fondée sur des règles est une solution capable de rivaliser avec les systèmes d'apprentissage machine sous certaines conditions.----------ABSTRACT Semantic analysis is a very important part of natural language processing that often relies on statistical models and supervised machine learning approaches. However, these approaches require resources that are costly to acquire. This paper describes our experiments to compare Anasem, a Prolog rule-based semantic analyzer, with the best system of the Conference on Natural Language Learning (CoNLL) shared task on semantic analysis. Both CoNLL best system and Anasem are based on a dependency representation, but the major difference is how the two systems extract their semantic structures (rules versus machine learning). Our results show that a rule-based approach might still be a promising solution able to compete with a machine learning system under certain conditions

    Reconocimiento y clasificación automatizada de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

    Get PDF
    Mención Internacional en el título de doctorLos seres humanos utilizamos el lenguaje como medio de comunicación, lo que ha favorecido el desarrollo y organización de la sociedad en las diferentes épocas de la historia. Reflejo de ello son los innumerables testimonios textuales que tuvieron su auge en la época medieval, momento de transición de una sociedad de transmisión básicamente oral a otra en la que imperaba lo escrito. El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación. El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es principalmente la identificación de nombres propios de personas, lugares y organizaciones. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos. En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y relaciones para su posterior puesta a disposición, en abierto, a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales. Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.Computer science developments are currently an integral part of Digital Humanities scholarship. In the field of medieval text analysis, Natural Language Processing research (NLP) is significantly transforming the methods of study, opening up the possibilities to ask new research questions. Natural Language Processing (NLP) techniques facilitate, among others, automatic translation, information extraction and retrieval, speech recognition, and text mining. This thesis proposes a method for applying NLP methods to a medieval document corpus using information extraction (IE) tasks, including named entity (NE) recognition, which aims to identify mainly proper names of persons, places and organizations and their classification. Named Entity Recognition and Classification methods (NERC) often use techniques based on linguistic grammars, statistic methods and gazetteers or term lists. The method proposed in this thesis facilitates the automatic identification and classification of named entities and their relationships, presenting a case study in which the application “Freeling” for standard Spanish, and the diachronic variant for Spanish language from the XII to XVI centuries have been used. The corpus consists of the documents from the “Libro Becerro de la Behetrías de Castilla”, from the XIV century. Via the analysis of the issues emerging from the automatic annotation of this corpus, this investigation proposes an adaptation for labeling the simple named entities, and presents an application developed for the identification of the nested and complex entities and their relationships. The results obtained in this work have been evaluated using a manually annotated corpus (gold standard), analyzing precision, coverage and variance (F values). The evaluated results facilitated the semi-automatic creation of gazetters for persons, places, and organizations. In addition to the method resulting from this investigation, the software and gazetters developed during this work are offered in a web service for free download and can be consulted by specialized or non-specialized researchers from different disciplines via a user-friendly interface. Together, the method, the data, and this implementation aim to open up the possibilities for further medieval documents research and experimentationPrograma Oficial de Doctorado en Documentación: Archivos y Bibliotecas en el Entorno DigitalPresidente: María Isabel C. Jular Pérez-Alfaro.- Secretario: Diego Navarro Bonilla.- Vocal: Francisco Carlos Palett
    corecore