236 research outputs found
Un método automático para la desambiguación léxica de nombres
Este artículo presenta un método completamente automático que resuelve la desambiguación léxica de nombres calculando la densidad conceptual de cada uno de los sentidos del nombre a desambiguar. La evaluación del método se ha realizado sobre el corpus SemCor con un contexto de sólo dos nombres, obteniendo una precisión de 81.5% y un recall de 60.25%.Palabras clave: desambiguación léxica de nombres, densidad conceptual
Evaluación Automática de Adimen-SUMO usando el banco de pruebas BLESS
Para comprender mejor el objetivo y el desarrollo de este proyecto es necesario conocer
el fundamento del mismo. Comprender el
significado de ontología en un ámbito
informático.
Una ontología es un sistema de representación del conocimiento que
es fruto
de
seleccionar un dominio o ámbito del conocimiento, y aplicar sobre él un método con el
fin de obtener una representación formal
de los conceptos que contiene y de las
relaciones que existen entre dichos conceptos. Las ontologías introducen un mayor nivel
de profundización semántica y proporcionan una descripción lógica y formal que puede
ser interpretada tanto por las personas, como por las máquinas.
El grupo de investigación
LoRea
de la
EHU, partiendo de los axiomas originales de la
ontología
SUMO
ha desarrollado la ontología denominada
Adimen-SUMO.
El objetivo
principal de
dicha ontología es
permitir la explotación del
conocimiento de
SUMO
usando razonadores automáticos.
Esta capacidad
tiene múltiples aplicaciones en
Sistemas Inteligentes, en Procesamiento del Lenguaje Natural, en Ingeniería del
Conocimiento y en Web Semántica, entre otros.
Continuando con el proceso de
mejora de
Adimen-SUMO, Javier Álvez (miembro del
grupo de investigación
LoRea), propuso al alumno el desarrollo de un sistema de
evaluación utilizando el banco de pruebas
Bless
Métodos semánticos automatizados de apoyo a la gestión y a la interoperabilidad de la información clínica
Uno de los retos actuales de la informática médica es lograr la interoperabilidad semántica entre los sistemas de información de distintas instituciones sanitarias. La interoperabilidad completa permitirá que los sistemas intercambien y comprendan automáticamente la información de los pacientes y facilitará el acceso completo a la información de un paciente desde cualquier sistema o institución.
Varios proyectos a nivel europeo han definido una hoja de ruta con recomendaciones y acciones encaminadas a lograr la interoperabilidad semántica de la Historia Clínica Electrónica (HCE), entre las que se incluyen: (i) el uso de modelos de datos clínicos estructurados (arquetipos) para capturar de forma ordenada y sistemática la información de pacientes en escenarios clínicos determinados y (ii) la integración de terminologías clínicas dentro de la HCE, principalmente mediante la creación de enlaces entre ítems de información clínica (presentes en los modelos de datos de la HCE) con conceptos estándar de las terminologías.
La tesis se centra en el desarrollo de métodos avanzados para enlazar de forma automática la información clínica de la HCE, especialmente de arquetipos, con la terminología SNOMED-CT. También, se han desarrollado aplicaciones que demuestran las ventajas de integrar una terminología de referencia en repositorios de datos clínicos.
La tesis demuestra que es factible automatizar el enlazado entre la información clínica de los arquetipos y SNOMED-CT, con una precisión y cobertura elevada, si se hace uso de la información contextual y estructural implícita en los arquetipos y en SNOMED-CT
Eventos y entidades que se pueden echar: Combinatoria léxica y representación del significado de un verbo polisémico
Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Filología Española. Fecha de lectura: 25-06-201
Alineamiento y validación de terminologías a gran escala en el ámbito médico
This work presents a semi-automated method to map terminologies on a large
scale, and later validation of the resulting alignments. The method combines
different techniques to increase the automation
Colaboración entre información paradigmática y sintagmática en la Desambiguación Semántica Automática
[spa] Proponemos un método alternativo para la desambiguación semántica automática, centrado en la interacción entre la información sintagmática y paradigmática. Se toma como unidad en el proceso de desambiguación una ocurrencia ambigua integrada en un patrón sintagmático. La estrategia no necesita corpus etiquetado al nivel de sentido, presupone tan sólo un análisis previo de tipo morfosintáctico y agrupación por chunks, no usa información estadística y su potencial desambiguador es amplio. Ilustramos las dos implementaciones propuestas con ejemplos concretos y estudiamos posibilidades de refinamiento del método. [eng] We propose an alternative method for Word Sense Disambiguation, based on the interaction between syntagmatic and paradigmatic information. The unit of the disambiguation process is taken to be an ambiguous occurrence integrated into a syntagmatic pattern. The strategy needs not a semantically annotated corpus, it supposes only a morphological analysis and chunking, does not make use of statistical information and has en wide disambiguating potential. We illustrate the two implementations proposed with concrete examples and study ways for refinement
Editorial
Tenemos el gusto de presentar el primer número del cuarto volumen de la Revista Colombiana de Computación. Esta vez contamos con una selección internacional que incluye artículos de países como Estados Unidos, Venezuela, España y China
Similitud entre documentos multilingües de carácter científico-técnico en un entorno Web
En este artículo se presenta un sistema para la agrupación multilingüe de documentos que tratan temas similares. Para la representación de los documentos se ha empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de las palabras clave, la fórmula tf-idf para el cálculo de sus relevancias, y RSS feedback y wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una
estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científico-técnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de carácter general. Los resultados obtenidos han sido evaluados manualmente.In this paper we present a system to identify documents of similar content. To
represent the documents we’ve used the vector space model using linguistic knowledge to
choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in
bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the
vector has been carried off by technical dictionaries combined with general dictionaries. The
obtained results have been evaluated in order to estimate the precision of the system.Este trabajo está subvencionado por el Departamento de Industria del Gobierno Vasco (proyectos Dokusare SA-2005/00272, Dokusare SA-2006/00167)
Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano
En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones.
En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice.
Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo).
El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta
Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico
International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas
- …