5 research outputs found
Analysis of Temporal Expressions Annotated in Clinical Notes
Annotating the semantics of time in language is important. THYME is a recent temporal annotation standard for clinical texts. This paper examines temporal expressions in the first major corpus
released under this standard. It investigates where the standard has proven difficult to apply, and
gives a series of recommendations regarding temporal annotation in this important domain
Főnévi események automatikus detektálása függőségi elemző és WordNet alkalmazásával magyar nyelvű szövegeken
A termĂ©szetes szövegekbĹ‘l törtĂ©nĹ‘ informáciĂłkinyerĂ©s egyik fontos rĂ©szterĂĽlete a nĂ©velemek azonosĂtása mellett az esemĂ©nyek detektálása. Szövegekben lĂ©vĹ‘ esemĂ©nyek detektálása Ă©s analizálása fontos szerepet tölt be számos számĂtĂłgĂ©pes nyelvĂ©szeti alkalmazásban, mint pĂ©ldául a kivonatolás Ă©s a válaszkeresĂ©s. A szövegekben a legtöbb esemĂ©ny igĂ©khez kapcsolĂłdik, Ă©s az igĂ©k általában esemĂ©nyeket jelölnek. De az igĂ©ken kĂvĂĽl lehetnek esemĂ©nyek más szĂłfajĂş szavak is pl. fĹ‘nevek, igenevek stb. Munkánkban a szövegekben megtalálhatĂł fĹ‘nĂ©vi esemĂ©nyek detektálásával foglalkoztunk. Jelen tanulmányunkban bemutatjuk gazdag jellemzĹ‘tĂ©ren alapulĂł gĂ©pi tanulĂł megközelĂtĂ©sĂĽnket, amely automatikusan kĂ©pes magyar nyelvű szövegekben fĹ‘nĂ©vi esemĂ©nyek detektálására fĂĽggĹ‘sĂ©gi elemzĹ‘ Ă©s WordNet alkalmazásával. A jellemzĹ‘k mellĂ© kiegĂ©szĂtĹ‘ mĂłdszereket is alkalmaztunk, amelyek javĂtották az eredmĂ©nyeket Ă©s a futási idĹ‘t. Algoritmusainkat tesztadatbázisokon kiĂ©rtĂ©kelve versenykĂ©pes eredmĂ©nyeket Ă©rnek el az eddig bemutatott angol Ă©s más nyelvű eredmĂ©nyekkel összehasonlĂtva
Normalisation of imprecise temporal expressions extracted from text
Orientador : Prof. Dr. Marcos Didonet Del FabroCo-Orientador : Prof. Dr. Angus RobertsTese (doutorado) - Universidade Federal do Paraná, Setor de CiĂŞncias Exatas, Programa de PĂłs-Graduação em Informática. Defesa: Curitiba, 05/04/2016Inclui referĂŞncias : f. 95-105Resumo: TĂ©cnicas e sistemas de extração de informações sĂŁo capazes de lidar com a crescente quantidade de dados nĂŁo estruturados disponĂveis hoje em dia. A informação temporal está entre os diferentes tipos de informações que podem ser extraĂdos a partir de tais fontes de dados nĂŁo estruturados, como documentos de texto. Informações temporais descrevem as mudanças que acontecem atravĂ©s da ocorrĂŞncia de eventos, e fornecem uma maneira de gravar, ordenar e medir a duração de tais ocorrĂŞncias. A impossibilidade de identificar e extrair informação temporal a partir de documentos textuais faz com que seja difĂcil entender como os eventos sĂŁo organizados em ordem cronolĂłgica. AlĂ©m disso, em muitas situações, o significado das expressões temporais Ă© impreciso, e nĂŁo pode ser descrito com precisĂŁo, o que leva a erros de interpretação. As soluções existentes proporcionam formas alternativas de representar expressões temporais imprecisas. Elas sĂŁo, entretanto, especĂficas e difĂceis de generalizar. AlĂ©m disso, a análise de dados temporais pode ser particularmente ineficiente na presença de erros ortográficos. As abordagens existentes usam mĂ©todos de similaridade para procurar palavras válidas dentro de um texto. No entanto, elas nĂŁo sĂŁo suficientes para processos erros de ortografia de uma forma eficiente. Nesta tese Ă© apresentada uma metodologia para analisar e normalizar das expressões temporais imprecisas, em que, apĂłs a coleta e prĂ©-processamento de dados sobre a forma como as pessoas interpretam descrições vagas de tempo no texto, diferentes tĂ©cnicas sĂŁo comparadas a fim de criar e selecionar o modelo de normalização mais apropriada para diferentes tipos de expressões imprecisas. TambĂ©m sĂŁo comparados um sistema baseado em regras e uma abordagem de aprendizagem de máquina na tentativa de identificar expressões temporais em texto, e Ă© analisado o processo de produção de padrões de anotação, identificando possĂveis fontes de problemas, dando algumas recomendações para serem consideradas no futuro esforços de anotação manual. Finalmente, Ă© proposto um mapa fonĂ©tico e Ă© avaliado como a codificação de informação fonĂ©tica poderia ser usado a fim de auxiliar os mĂ©todos de busca de similaridade e melhorar a qualidade da informação extraĂda.Abstract: Information Extraction systems and techniques are able to deal with the increasing amount of unstructured data available nowadays. Time is amongst the different kinds of information that may be extracted from such unstructured data sources, including text documents. Time describes changes which happen through the occurrence of events, and provides a way to record, order, and measure the duration of such occurrences. The inability to identify and extract temporal information from text makes it difficult to understand how the events are organized in a chronological order. Moreover, in many situations, the meaning of temporal expressions is imprecise, and cannot be accurately described, leading to interpretation errors. Existing solutions provide alternative ways of representing imprecise temporal expressions, though they are specific and hard to generalise. Furthermore, the analysis of temporal data may be particularly inefficient in the presence of spelling errors. Existing approaches use string similarity methods to search for valid words within a text. However, they are not rich enough to processes misspellings in an efficient way. In this thesis, we present a methodology to analyse and normalise of imprecise temporal expressions, in which, after collecting and pre-processing data on how people interpret vague descriptions of time in text, we compare different techniques in order to create and select the most appropriate normalisation model for different kinds of imprecise expressions. We also compare how a rule-based system and a machine learning approach perform on trying to identify temporal expression from text, and we analyse the process of producing gold standards, identifying possible sources of issues, giving some recommendations to be considered in future manual annotation efforts. Finally, we propose a phonetic map and evaluate how encoding phonetic information could be used in order to assist similarity search methods and improve information extraction quality