134 research outputs found

    Asignación automática de etiquetas de dominios en WordNet

    Get PDF
    En este artículo se describe un procedimiento para asignar de forma automática etiquetas de dominio a las glosas de WordNet. Una de las motivaciones principales del trabajo es enriquecer fuentes léxicas con información de WordNet. Para ello, se utilizan los WordNet DOMAINS. Finalmente, se proponen y corrigen etiquetas de dominios para la parte nominal y verbal de WordNet.This paper describes a process to automatically assign wordnet domain labels to WordNet glosses. One of the main goals of this work is to enrich lexical sources with WordNet information. WordNet domains are used as knowledge source. Finally, Domain labels for nouns and verbs are suggested and verified.Este artículo ha sido financiado parcialmente por la Comisión Europea (MEANING IST-2001-34460), Generalitat de Catalunya (2002FI 00648) y Universidad Tecnológica Metropolitana - Chile

    Sistema de generación de texto automático en dominios acotados

    Get PDF
    Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía y Física, 2015.El presente trabajo consiste en desarrollar un sistema de generación de lenguaje natural basado en templates capaz de producir avisos clasificados bien formados referidos a un producto en proceso de comercialización o de promoción. Para tal objetivo elaboramos un corpus, extrayendo de Internet avisos clasificados, el que estudiamos y analizamos utilizando diversas técnicas de procesamiento de texto. A lo largo de este trabajo describimos el desarrollo de dos algoritmos particulares implementados en Php: AdGen y su componente principal AdTagger. El primero es un sistema capaz de aprender estadísticamente representaciones de plantillas para la generación de texto, y el segundo es un etiquetador de entidades de dominio que posee una precisión del 89 % y fue elaborado en base al corpus disponible

    Una visión interdisciplinar de la anotación semántica

    Get PDF
    Hoy en día Internet es la principal fuente de información. Es inmensa la cantidad de documentos accesibles en lo que se conoce como la World Wide Web (WWW) o, simplemente, la web o la red. ..

    Sistema de recuperación conceptual mediante niveles semánticos en la representación de esquemas de metadatos

    Get PDF
    Los metadatos son descripciones que facilitan la recuperación, utilización y gestión de recursos de información. Así, pueden ser utilizados para organizar recursos electrónicos heterogéneos o facilitar la interoperatividad. Normalmente, la semántica de los elementos de vocabularios se define localmente, con escasa formalización y sin contemplar definiciones consensuadas con otros vocabularios, con el consiguiente perjuicio para la interoperatividad. En esta tesis se propone generar una representación semántica de los vocabularios de metadatos, que permita eliminar la ambigüedad sintáctica y semántica, facilitando así la interoperatividad. La representación propuesta posee dos vertientes: la primera, denominada esquema cualificado, tiene como objetivo la sustitución del esquema original y proporciona una estructura homogénea para todos los esquemas, al tiempo que permite incluir la semántica de cada uno de sus elementos; la segunda, denominada ontología específica, permite establecer definiciones formales de los elementos incluidos en el esquema original, al tiempo que proporciona soporte a aspectos como la sinonimia y el plurilingüismo. La representación semántica de los esquemas se completa con el uso de un recurso semántico, contra el cual se interrelacionarán los conceptos de las ontologías específicas mediante un proceso de alineamiento, articulado a través de una ontología independiente. De este modo se facilitará la interoperatividad entre esquemas, la recuperación conceptual de documentos y esquemas, así como el uso más amigable de los vocabularios. El desarrollo de la propuesta incluye la definición del modo de generar las representaciones semánticas de los esquemas, la definición de los recursos necesarios y la metodología generada a partir de la aplicación del método sobre un conjunto de esquemas y recursos semánticos seleccionados como ejemplo. Además, se propone una metodología de documentación y cualificación de esquemas, desarrollada a partir de la experiencia con los esquemas seleccionados. La metodología incluye el procedimiento y plantillas documentales, para la creación de un documento de descripción del esquema, completado con dos vistas: una dirigida a usuarios y otra en RDF, procesable automáticamente. Seguidamente, se establecen los requisitos para la selección de la ontología de referencia y, tras un proceso de evaluación de recursos existentes, se selecciona uno a modo de ejemplo. A continuación se establece el modo de interrelacionar los conceptos de los distintos componentes, ontología específica y ontología de referencia, a partir de la evaluación de los métodos existentes. Establecido el método, y mediante un método inductivo, se genera una metodología de interrelación de conceptos, a partir del proceso de alineamiento entre el conjunto de esquemas seleccionados y la ontología de referencia. Para finalizar el planteamiento, éste será validado y verificado con el objetivo de comprobar que responde cubre los objetivos establecidos de forma correcta. La solución complementa y es compatible con propuestas anteriores de definición y gestión de metadatos como los registros de metadatos o las propuestas del DCMI. Además, contempla criterios de modularidad, extensibilidad, refinamiento y plurilingüísmo. Una vez establecida y probada la propuesta, se incluye la especificación del Proceso de Desarrollo de un sistema informático que la soporte. Con el fin de evaluar el planteamiento, se realiza una valoración y comparación del método propuesto, con otros métodos de recuperación alternativos, siguiendo la metodología DESMET. Además, se realiza un análisis y valoración de los resultados generados. Finalmente, se incluyen las conclusiones obtenidas durante la elaboración de la propuesta y las posibles líneas de investigación que quedan abiertas para futuros trabajos

    Construcción de dos tesauros para el análisis de sentimientos en el idioma español

    Get PDF
    Las empresas con el paso del tiempo suelen basar la toma de decisiones en información relevante de su entorno. Por eso, campos como la minería de datos han logrado un nivel elevado. Esto ha llevado a muchas personas a dedicar sus esfuerzos en obtener un mejoramiento de este campo. Por eso, nuestra institución Pontificia Universidad Javeriana ha hecho una alianza con grandes empresas nacionales para crear el Centro de Excelencia y Apropiación de Big Data y Analytics, conocido como Caoba, que busca la integración de la investigación académica con el mundo empresarial. Dentro de la minería de texto se destaca el análisis de sentimientos, que sirve para analizar la percepción que se expresa en un texto sobre algún tema determinado. Una herramienta importante para el análisis de sentimientos es un diccionario o tesauro que contenga las palabras con una etiquetación que referencie su orientación respecto a la percepción que se quiere evaluar. Para su construcción se utiliza una metodología que consiste en extraer las palabras más comunes de diferentes fuentes para después aplicarles un tratamiento de limpieza, traducción y asignación de valores representativos de los sentimientos que se quieren expresar, provenientes de bases de datos producidas en inglés. Los resultados son dos tesauros, uno de uso genérico para cualquier texto y otro enfocado en el tema de alimentos. En ambos casos las etiquetas en su gran mayoría sonde naturaleza neutral. Esto puede ser consecuencia de que la fuente utilizada para la extracción tenga un sesgo hacia el sentido neutral.The companies with the pass of the time tend to base their decision on relevant information coming from their environment. Therefore, fields such as data mining have a high level of importance. This has led many people to devote their efforts to gain an improvement in this field. For this reason, our institution Pontificia Universidad Javeriana has made an alliance with big companies in order to create the Center of Excellence and Appropriation of Big Data and Analytics, also known as Caoba, which seeks the integration of academic research with the business world. Within text mining, the sentiment analysis serves to analyze the perception expressed in a specific text. An important tool tor the sentiment analysis is a dictionary or thesaurus that contains the words with a label that references its orientation referring to the perception that is wanted to express. The methodology used consists of extracting the most common words from different sources and then apply them a cleaning treatment, translation and assignment of values representative of the feelings that are expressed, from databases produced in English. The results are two thesauri, one of generic use for any text and another focused on the subject of food. In both cases the labels are mostly neutral in nature. This may be due to the fact that the source used for the extraction has a bias towai ds the neutral directionMagíster en Ingeniería IndustrialMaestrí

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas

    Desarrollo, implementación y utilización de modelos para el procesamiento automático de textos

    Get PDF
    El libro recoge ponencias y talleres seleccionados de JALIMI 2005 (Jornadas Argentinas de Lingüística Informática: Modelización e Ingeniería), y está organizado en nueve capítulos y un apéndice. Si bien hay sustantivas diferencias en los enfoques, las metodologías, las propiedades específicas estudiadas y las aplicaciones propuestas o proyectadas, todos los capítulos comunican resultados de investigaciones que pretenden contribuir a alcanzar el objetivo a largo plazo de la Lingüística Informática, a saber: emular en términos cibernéticos la extraordinaria capacidad humana de producir y comprender textos en lengua natural

    Contribución a la alineación de ontologías utilizando lógica difusa

    Get PDF
    En la actualidad, con el aumento de la cantidad de información disponible en Internet se hace cada vez más necesario crear mecanismos para facilitar la organización el intercambio de información y conocimiento entre las aplicaciones. La Web Semántica está destinada a resolver una de las carencias fundamentales de la Web actual, que es la falta de capacidad de las representaciones para expresar significados. Esta tarea se puede simplificar enormemente aądiendo información semántica y de contexto a las formas actuales de representación del conocimiento, utilizadas en la Web, de modo que los equipos puedan procesar, interpretar y conectar la información presentada en la WWW. Las ontologías se han convertido en un componente crucial dentro de la Web semántica, ya que permiten el diseǫ de exhaustivos y rigurosos esquemas conceptuales para facilitar la comunicación y el intercambio de información entre diferentes sistemas y entidades. Sin embargo, la heterogeneidad en la representación del conocimiento en las ontologías dificulta la interacción entre las aplicaciones que utilizan este conocimiento. Por ello, para compartir información, cuando se utiliza vocabularios heterogéneos se debe poder traducir los datos de un marco ontológico a otro. El proceso de encontrar correspondencias entre ontologías diferentes se conoce como alineación de ontologías. En esta tesis doctoral se propone un método de alineación de ontologías utilizando técnicas de lógica difusa para combinar diversas medidas de similitud entre entidades de ontologías diferentes. Las medidas de similitud propuestas se basan en dos elementos fundamentales de las ontologías: la terminología y la estructura. En cuanto a la terminología se propone una medida de similitud lingüística utilizando varias relaciones léxicas entre los nombres de las entidades, combinada con una medida de similitud semántica que tiene en cuenta la información del contexto de las entidades en las ontologías. En cuanto a la estructura se proponen medidas de similitud que utilizan tanto la estructura relacional como la estructura interna de los conceptos en las ontologías
    corecore