236 research outputs found

    Un método automático para la desambiguación léxica de nombres

    Get PDF
    Este artículo presenta un método completamente automático que resuelve la desambiguación léxica de nombres calculando la densidad conceptual de cada uno de los sentidos del nombre a desambiguar. La evaluación del método se ha realizado sobre el corpus SemCor con un contexto de sólo dos nombres, obteniendo una precisión de 81.5% y un recall de 60.25%.Palabras clave: desambiguación léxica de nombres, densidad conceptual

    Evaluación Automática de Adimen-SUMO usando el banco de pruebas BLESS

    Get PDF
    Para comprender mejor el objetivo y el desarrollo de este proyecto es necesario conocer el fundamento del mismo. Comprender el significado de ontología en un ámbito informático. Una ontología es un sistema de representación del conocimiento que es fruto de seleccionar un dominio o ámbito del conocimiento, y aplicar sobre él un método con el fin de obtener una representación formal de los conceptos que contiene y de las relaciones que existen entre dichos conceptos. Las ontologías introducen un mayor nivel de profundización semántica y proporcionan una descripción lógica y formal que puede ser interpretada tanto por las personas, como por las máquinas. El grupo de investigación LoRea de la EHU, partiendo de los axiomas originales de la ontología SUMO ha desarrollado la ontología denominada Adimen-SUMO. El objetivo principal de dicha ontología es permitir la explotación del conocimiento de SUMO usando razonadores automáticos. Esta capacidad tiene múltiples aplicaciones en Sistemas Inteligentes, en Procesamiento del Lenguaje Natural, en Ingeniería del Conocimiento y en Web Semántica, entre otros. Continuando con el proceso de mejora de Adimen-SUMO, Javier Álvez (miembro del grupo de investigación LoRea), propuso al alumno el desarrollo de un sistema de evaluación utilizando el banco de pruebas Bless

    Métodos semánticos automatizados de apoyo a la gestión y a la interoperabilidad de la información clínica

    Get PDF
    Uno de los retos actuales de la informática médica es lograr la interoperabilidad semántica entre los sistemas de información de distintas instituciones sanitarias. La interoperabilidad completa permitirá que los sistemas intercambien y comprendan automáticamente la información de los pacientes y facilitará el acceso completo a la información de un paciente desde cualquier sistema o institución. Varios proyectos a nivel europeo han definido una hoja de ruta con recomendaciones y acciones encaminadas a lograr la interoperabilidad semántica de la Historia Clínica Electrónica (HCE), entre las que se incluyen: (i) el uso de modelos de datos clínicos estructurados (arquetipos) para capturar de forma ordenada y sistemática la información de pacientes en escenarios clínicos determinados y (ii) la integración de terminologías clínicas dentro de la HCE, principalmente mediante la creación de enlaces entre ítems de información clínica (presentes en los modelos de datos de la HCE) con conceptos estándar de las terminologías. La tesis se centra en el desarrollo de métodos avanzados para enlazar de forma automática la información clínica de la HCE, especialmente de arquetipos, con la terminología SNOMED-CT. También, se han desarrollado aplicaciones que demuestran las ventajas de integrar una terminología de referencia en repositorios de datos clínicos. La tesis demuestra que es factible automatizar el enlazado entre la información clínica de los arquetipos y SNOMED-CT, con una precisión y cobertura elevada, si se hace uso de la información contextual y estructural implícita en los arquetipos y en SNOMED-CT

    Eventos y entidades que se pueden echar: Combinatoria léxica y representación del significado de un verbo polisémico

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Filología Española. Fecha de lectura: 25-06-201

    Alineamiento y validación de terminologías a gran escala en el ámbito médico

    Get PDF
    This work presents a semi-automated method to map terminologies on a large scale, and later validation of the resulting alignments. The method combines different techniques to increase the automation

    Colaboración entre información paradigmática y sintagmática en la Desambiguación Semántica Automática

    Get PDF
    [spa] Proponemos un método alternativo para la desambiguación semántica automática, centrado en la interacción entre la información sintagmática y paradigmática. Se toma como unidad en el proceso de desambiguación una ocurrencia ambigua integrada en un patrón sintagmático. La estrategia no necesita corpus etiquetado al nivel de sentido, presupone tan sólo un análisis previo de tipo morfosintáctico y agrupación por chunks, no usa información estadística y su potencial desambiguador es amplio. Ilustramos las dos implementaciones propuestas con ejemplos concretos y estudiamos posibilidades de refinamiento del método. [eng] We propose an alternative method for Word Sense Disambiguation, based on the interaction between syntagmatic and paradigmatic information. The unit of the disambiguation process is taken to be an ambiguous occurrence integrated into a syntagmatic pattern. The strategy needs not a semantically annotated corpus, it supposes only a morphological analysis and chunking, does not make use of statistical information and has en wide disambiguating potential. We illustrate the two implementations proposed with concrete examples and study ways for refinement

    Editorial

    Get PDF
    Tenemos el gusto de presentar el primer número del cuarto volumen de la Revista Colombiana de Computación. Esta vez contamos con una selección internacional que incluye artículos de países como Estados Unidos, Venezuela, España y China

    Similitud entre documentos multilingües de carácter científico-técnico en un entorno Web

    Get PDF
    En este artículo se presenta un sistema para la agrupación multilingüe de documentos que tratan temas similares. Para la representación de los documentos se ha empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de las palabras clave, la fórmula tf-idf para el cálculo de sus relevancias, y RSS feedback y wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científico-técnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de carácter general. Los resultados obtenidos han sido evaluados manualmente.In this paper we present a system to identify documents of similar content. To represent the documents we’ve used the vector space model using linguistic knowledge to choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the vector has been carried off by technical dictionaries combined with general dictionaries. The obtained results have been evaluated in order to estimate the precision of the system.Este trabajo está subvencionado por el Departamento de Industria del Gobierno Vasco (proyectos Dokusare SA-2005/00272, Dokusare SA-2006/00167)

    Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

    Full text link
    En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas
    corecore