113 research outputs found

    Estudio de métodos semisupervisados para la desambiguación de sentidos verbales del español

    Get PDF
    Esta tesis explora el uso de técnicas semisupervisadas para la desambigación de sentidos verbales del español. El objetivo es el estudio de como la información de datos no etiquetados, que son mayores en tamaño, puede ayudar a un clasificador entrenado desde un conjunto de datos etiquetados pequeño. La tesis comienza desde la tarea completamente supervisada de desambiguación de sentidos verbales y estudia las siguientes técnicas semisupervisadas comparando su impacto en la tarea original: uso de vectores de palabras (o word embeddings), autoaprendizaje, aprendizaje activo y redes neuronales en escalera

    Sistema de recuperación conceptual mediante niveles semánticos en la representación de esquemas de metadatos

    Get PDF
    Los metadatos son descripciones que facilitan la recuperación, utilización y gestión de recursos de información. Así, pueden ser utilizados para organizar recursos electrónicos heterogéneos o facilitar la interoperatividad. Normalmente, la semántica de los elementos de vocabularios se define localmente, con escasa formalización y sin contemplar definiciones consensuadas con otros vocabularios, con el consiguiente perjuicio para la interoperatividad. En esta tesis se propone generar una representación semántica de los vocabularios de metadatos, que permita eliminar la ambigüedad sintáctica y semántica, facilitando así la interoperatividad. La representación propuesta posee dos vertientes: la primera, denominada esquema cualificado, tiene como objetivo la sustitución del esquema original y proporciona una estructura homogénea para todos los esquemas, al tiempo que permite incluir la semántica de cada uno de sus elementos; la segunda, denominada ontología específica, permite establecer definiciones formales de los elementos incluidos en el esquema original, al tiempo que proporciona soporte a aspectos como la sinonimia y el plurilingüismo. La representación semántica de los esquemas se completa con el uso de un recurso semántico, contra el cual se interrelacionarán los conceptos de las ontologías específicas mediante un proceso de alineamiento, articulado a través de una ontología independiente. De este modo se facilitará la interoperatividad entre esquemas, la recuperación conceptual de documentos y esquemas, así como el uso más amigable de los vocabularios. El desarrollo de la propuesta incluye la definición del modo de generar las representaciones semánticas de los esquemas, la definición de los recursos necesarios y la metodología generada a partir de la aplicación del método sobre un conjunto de esquemas y recursos semánticos seleccionados como ejemplo. Además, se propone una metodología de documentación y cualificación de esquemas, desarrollada a partir de la experiencia con los esquemas seleccionados. La metodología incluye el procedimiento y plantillas documentales, para la creación de un documento de descripción del esquema, completado con dos vistas: una dirigida a usuarios y otra en RDF, procesable automáticamente. Seguidamente, se establecen los requisitos para la selección de la ontología de referencia y, tras un proceso de evaluación de recursos existentes, se selecciona uno a modo de ejemplo. A continuación se establece el modo de interrelacionar los conceptos de los distintos componentes, ontología específica y ontología de referencia, a partir de la evaluación de los métodos existentes. Establecido el método, y mediante un método inductivo, se genera una metodología de interrelación de conceptos, a partir del proceso de alineamiento entre el conjunto de esquemas seleccionados y la ontología de referencia. Para finalizar el planteamiento, éste será validado y verificado con el objetivo de comprobar que responde cubre los objetivos establecidos de forma correcta. La solución complementa y es compatible con propuestas anteriores de definición y gestión de metadatos como los registros de metadatos o las propuestas del DCMI. Además, contempla criterios de modularidad, extensibilidad, refinamiento y plurilingüísmo. Una vez establecida y probada la propuesta, se incluye la especificación del Proceso de Desarrollo de un sistema informático que la soporte. Con el fin de evaluar el planteamiento, se realiza una valoración y comparación del método propuesto, con otros métodos de recuperación alternativos, siguiendo la metodología DESMET. Además, se realiza un análisis y valoración de los resultados generados. Finalmente, se incluyen las conclusiones obtenidas durante la elaboración de la propuesta y las posibles líneas de investigación que quedan abiertas para futuros trabajos

    Técnicas de anotación semántica orientadas a mejorar el acceso e interpretación de la información clínica

    Get PDF
    Hoy en día, los sistemas de salud incluyen como prioridades la prevención de enfermedades, el incremento de la esperanza de vida, la mejora de la calidad de vida y la reducción de las admisiones en los servicios de emergencia. Para alcanzar estos retos, es necesario adaptar los sistemas de información actuales, dado que la fragmentación de la información del paciente en diferentes lugares y formatos dificulta enormemente su acceso y procesamiento adecuados. Por ello, los sistemas informáticos sanitarios deben ser capaces, primero, de intercambiar datos entre todas las unidades que los integran y, segundo, de tener la habilidad para interpretar la información presente en los datos que intercambian, tanto en el contexto correcto como en un tiempo razonable. Para alcanzar tal fin, en esta tesis doctoral se propone anotar semánticamente las diferentes colecciones de información clínica, usando las terminologías más apropiadas. Para demostrar nuestra hipótesis, nos centramos en dos recursos: la historia clínica electrónica del paciente (HCE), que hoy en día se considera una pieza clave para la prestación eficiente y de calidad de los servicios sanitarios y da acceso a la información del paciente, y en las guías de práctica clínica, que constituyen una fuente importante de conocimiento sobre las recomendaciones diagnósticas y terapéuticas basadas en la evidencia. La tesis demuestra que es factible el desarrollo de técnicas automatizadas para anotar semánticamente, por una parte, los modelos clínicos que formalizan las HCE y que suponen una arquitectura para la comunicación e intercambio de datos de HCE y, por otra parte, los textos que describen las guías clínicas textuales y, por lo tanto, el conocimiento que consultará el clínico con una precisión y fiabilidad elevada

    Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

    Full text link
    En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta

    Mejoras en la usabilidad de la web a través de una estructura complementaria

    Get PDF
    La Web ha motivado la generación de herramientas que permiten, con distintos grados de sofisticación y precisión, manipular sus contenidos. Para ello, tratan una serie de problemas, relacionados con la naturaleza imperfecta y cambiante de todas las actividades humanas. Ésta se refleja en fenómenos como las ambigüedades, contradicciones y errores de los textos almacenados. Esta tesis presenta una propuesta para complementar la administración de contenidos en la Web y de esta manera facilitar el proceso de recuperación de información. Se presenta un prototipo, denominado Web Intelligent Handler (WIH), que implementa una serie de algoritmos básicos para manipular algunas características morfosintácticas de textos en castellano y, en base a ellas, obtener una representación resumida y alternativa de su contenido. En este contexto, se define una nueva métrica de ponderación para reflejar parte de la esencia morfosintáctica de los sintagmas. Además se define un esquema de interacción entre los módulos para regular la explotación de los textos. También se explora la capacidad de los algoritmos propuestos en el tratamiento de los textos, considerándolos como una colección de sintagmas, sujeta a factores tales como contradicciones, ambigüedades y errores. Otro aporte de esta tesis es la posibilidad de evaluar matemáticamente y de manera automática tipos de estilos de texto y perfiles de escritura. Se proponen los estilos literario, técnico y mensajes. También se proponen los perfiles documento, foro de intercambio, índice Web y texto de sitio blog. Se evalúan los tres estilos y los cuatro perfiles mencionados, los que se comportan como distintos grados de una escala de estilos y perfiles, respectivamente, cuando se los evalúa con la métrica morfosintáctica aquí definida. Adicionalmente, utilizando la misma métrica, es posible realizar una valoración aproximada y automática de la calidad de cualquier tipo de texto. Esta calificación resulta ser invariante a la cantidad de palabras, temática y perfil, pero relacionada con el estilo del escrito en cuestión.The Web motivated a set of tools for content handling with several levels of sophistication and precision. To do so, they deal with many unsolved problems in saved texts. All of them are related to the mutable and imperfect essence of human beings such as ambiguities, contradictions and misspellings. This theses presents a proposal to complement the Web content management and therefore to provide support to the information retrieval activity. A prototype named Web Intelligent Handler (WIH) is introduced to implement a set of algorithms that manage some morpho-syntactical features in Spanish texts. These features are also used to get a brief and alternate representation of its content. Within this framework, a new weighting metric is designed to reflect part of the syntagm morpho-syntactical essence. A module interaction approach is also outlined to rule the text processing output. Besides, this thesis analyzes the algorithms ability to handle texts considering them as a collection of syntagms affected by certain factors such as contradictions, ambiguities and misspellings. Perhaps, the main contribution of this thesis is the possibility to automatically mathematical evaluation of text styles and profiles. Three initial three styles are proposed here: literary, technical and message. Furthermore, the following writer profiles are proposed also: document, foro, Web-index and blog. All the three styles and four profiles were evaluated. They behave respectively as a part of a graduated scale of styles and profiles when the morpho-syntactical metric defined here is used. It is also possible to perform a kind of automatic rough text quality valuation. This is invariant to the text word quantity, topic and profile, but it is related to its style.Facultad de Informátic

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas

    Identificación de opiniones de diferentes fuentes en textos en español

    Get PDF
    Este documento presenta un estudio de las expresiones que transmiten opiniones de diferentes fuentes en textos en español. El trabajo incluye la definición de un modelo para los predicados de opinión y sus argumentos (la fuente, el asunto y el mensaje), la creación de un léxico de predicados de opinión que tienen asociada nformación proveniente del modelo y la realización de tres sistemas informáticos. Desarrollamos un primer sistema, basado en reglas contextuales, que obtiene valores de medida F parcial (incluyendo entre los elementos correctos los elementos reconocidos en forma parcial) satisfactorios: 92 % para el predicado, 81 % para la fuente, 75 % para el asunto, 89 % para el mensaje y 85 % para la opinión completa. En particular, para el reconocimiento de la fuente se obtuvo un 79 % de medida F exacta (sin incluir elementos reconocidos en forma parcial). El segundo sistema desarrollado se basa en el modelo Conditional Random Fields (CRF) y se realizó solo para el reconocimiento de las fuentes. El sistema alcanza un valor de medida F exacta de 76 %. Un tercer sistema, que combina las dos técnicas anteriores incorporando la salida del sistema de reglas para el reconocimiento de fuentes como un nuevo atributo del sistema basado en CRF, mejora sensiblemente los resultados obtenidos por los dos sistemas anteriores: 83 % de medida F exacta. En cuanto al reconocimiento de las fuentes de las opiniones, nuestro sistema obtiene resultados muy satisfactorios (83 % de medida F exacta), si tomamos como referencia trabajos realizados para otros idiomas que pueden considerarse similares al nuestro, si bien presentan varias diferencias en su enfoque y su alcance.Estos trabajos alcanzan valores de medida F (exacta o parcial) que se sitúan entre 63 % y 89,5 %. Por otro lado, durante el desarrollo de esta tesis generamos diversos recursos de utilidad para el procesamiento automático del español: un léxico de predicados de opinión, un corpus de 13.000 palabras anotado con las opiniones y sus elementos y un corpus de 40.000 palabras anotado con los predicados de opinión y sus fuentes
    corecore