393 research outputs found

    Desambiguación de morfemas polifuncionales en la traducción automática de lenguas minoritarias: el caso del enclítico =n en el shipibo-konibo

    Get PDF
    La presente tesis ofrece una solución para las dificultades que constituyen los morfemas polisémicos en el marco de la traducción automática de lenguas minoritarias. El caso concreto en el que se enfoca este trabajo de investigación es la polisemia de una entidad lingüística bastante relevante y muy recurrente en el shipibo-konibo y en las demás lenguas que conforman la familia pano: el enclítico =n. Este morfema posee un mínimo de seis significados diferentes. Para abordar la complejidad que supone esta forma lingüística, la presente tesis se centra principalmente en la creación de un algoritmo que desambigüe los distintos valores del morfema en cuestión. Esta alternativa se consideró conveniente dado que la creación de un software de traducción automática basado en estadística requiere el uso de amplia cantidad de material lingüístico digitalizado, lo que en el caso de la mayoría de lenguas minoritarias es virtualmente inexistente. De ahí la necesidad del uso de métodos de traducción automática basados en reglas. En esta misma línea, puesto que el algoritmo toma como base reglas, nuestra propuesta prioriza, en una primera instancia, la desambiguación de las funciones más morfosintácticas por encima de las funciones más semánticas, debido a que, tal como se argumenta en este trabajo de investigación, son más fáciles de procesar por un software de este tipo. Para ello, primero, se realizó un análisis y catalogación de los rasgos de tales funciones a nivel morfosintáctico y, posteriormente, sobre la base de dicho análisis, se fijó una jerarquía de desambiguación funcional. La posterior codificación del algoritmo resultante en lenguaje de programación comprobó la efectividad de este enfoque, por lo que es sostenible postular que esta constituye una estrategia potencialmente repicable para la desambiguación de morfemas polifuncionales en el marco de proyectos de traducción automática que trabajen con otras lenguas minoritarias.Tesi

    Conocimiento de la lengua y técnicas estadísticas en el análisis lingüístico

    Get PDF
    International audienceSon comparados los resultados obtenidos sobre un mismo corpus en la tarea del POS tagging por dos sistemas orientados por enfoques diferentes en lingüística computacional, el uno orientado por el Conocimiento de la lengua (sistema CL) y el otro por Técnicas estadísticas (sistema EST). Se trata de no limitarse a consideraciones globales sobre el « costo » de obtención de los dos tipos de resultados, noción mal definida, ni a cotejar resultados globales, sino de poner en relación los resultados obtenidos con las características lingüísticas involucradas. La problemática de la comparación es clarificada, los sistemas CL y EST presentados, la metodología de la comparación definida y los resultados obtenidos presentados. En el caso comparado, el sistema CL ofrece mejores resultados, pero la conclusión más interesante es la posibilidad de establecer correlaciones entre aspectos de la estructura lingüística y resultados obtenidos por técnicas estadísticas

    Eventos y entidades que se pueden echar: Combinatoria léxica y representación del significado de un verbo polisémico

    Full text link
    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Filosofía y Letras, Departamento de Filología Española. Fecha de lectura: 25-06-201

    Desarrollo, implementación y utilización de modelos para el procesamiento automático de textos

    Get PDF
    El libro recoge ponencias y talleres seleccionados de JALIMI 2005 (Jornadas Argentinas de Lingüística Informática: Modelización e Ingeniería), y está organizado en nueve capítulos y un apéndice. Si bien hay sustantivas diferencias en los enfoques, las metodologías, las propiedades específicas estudiadas y las aplicaciones propuestas o proyectadas, todos los capítulos comunican resultados de investigaciones que pretenden contribuir a alcanzar el objetivo a largo plazo de la Lingüística Informática, a saber: emular en términos cibernéticos la extraordinaria capacidad humana de producir y comprender textos en lengua natural

    Hipervinculación de documentos con Máquinas de Soporte Vectorial

    Get PDF
    En la actualidad el acceso a la información se da por medio de hipervínculos, los cuales interconectan los textos entre si únicamente si contienen una relación. Varios investigadores han estudiado la forma en que los humanos crean los hipervínculos y han tratado de replicar el modo de trabajo específicamente de la colección de Wikipedia. El uso de hipervínculos se ha pensado como un prometedor recurso para la recuperación de información, que fue inspirado por el análisis de citas de la literatura (Merlino-Santesteban, 2003). Según Dreyfus (Dreyfus, 2003) la hipervinculación no tiene ningún criterio específico, ni tampoco jerarquías. Por ello cuando todo puede vincularse indiscriminadamente y sin obedecer un propósito o significado en particular, el tamaño de la red y la arbitrariedad entre sus hipervínculos, hacen extremadamente difícil para un usuario encontrar exactamente el tipo de información que busca. En las organizaciones, la familiaridad y la confianza durante mucho tiempo han sido identificadas como las dimensiones de credibilidad de la fuente de información en publicidad (Eric Haley, 1996). Un hipervínculo, como una forma de información, puede, por lo tanto, tener un mayor impacto cuando se presenta por un objetivo conocido (Stewart & Zhang, 2003). Mientras tanto, los hipervínculos entre los sitios web pueden generan confianza en el remitente y el receptor del enlace, por lo que estas interacciones tienen efectos positivos de reputación para el destinatario (Stewart, 2006) (Lee, Lee, & Hwang, 2014). El estudio de documentos por medio de los hipervínculos es un área importante de investigación en minería de datos, en una red social a menudo lleva una gran cantidad de información estructural formada por los hipervínculos creando nodos compartidos dentro de la comunidad. Algunas importantes aplicaciones de los métodos de minería de datos para redes sociales son la recomendación social mediante las experiencias similares de los usuarios (Alhajj & Rokne, 2014). En marketing y publicidad se aprovechan las cascadas en las redes sociales y se obtienen beneficios sobre modelos de propagación de la información (Domingos & Richardson, 2001). Las empresas de publicidad están interesados en cuantificar el valor de un solo nodo en la red, tomando en cuenta que sus acciones pueden desencadenar cascadas a sus nodos vecinos. Los resultados de (Allan, 1997) (Bellot et al., 2013) (Agosti, Crestani, & Melucci, 1997) (Blustein, Webber, & Tague-Sutcliffe, 1997) sugieren que el descubrimiento de hipervínculos automatizado no es un problema resuelto y que cualquier evaluación de los sistemas de descubrimiento de Hipervínculos de Wikipedia debe basarse en la evaluación manual, no en los hipervínculos existentes

    Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de Web Semántica: OntoTag

    Full text link
    A instancias de lo que se ha dado en llamar la Web Semántica, la Inteligencia Artificial ha investigado exhaustivamente la anotación semántica de páginas web. La anotación (semántica) de textos se desarrolló primeramente en la Lingüística de Corpus; sin embargo, la Inteligencia Artificial, al centrarse en una anotación basada en ontologías, parece haber pasado por alto sus resultados. Este artículo muestra nuestras primeras experiencias en la integración de ambos campos, según las cuales una anotación híbrida (lingüística y ontológica) no sólo sería posible, sino también de gran utilidad, para hacer más comprensibles a un ordenador los documentos de la Web Semántica. Nuestro equipo de investigación está desarrollando OntoTag, un modelo de anotación multi-nivel (en principio, también multilingüe y de propósito general) basado en los estándares EAGLES y en la Semántica Ontológica, e implementado en lenguajes de marcado de última generación (RDF(S)/XML)

    Desarrollo de una herramienta para la anotación semántica automática de documentos pdf basado en ontologías

    Get PDF
    Actualmente, Internet es una de las fuentes más accesibles y utilizadas para buscar información sobre determinado tema, a través de la cual las personas pueden conectarse a una gran colección de recursos, servicios y contenidos. En ese sentido, el uso de motores de búsqueda es indispensable para poder encontrar contenido específico y relevante para el usuario, es decir, información precisa y alineada con el tema de su interés. Sin embargo, los buscadores pueden presentar dificultades para brindar al usuario la información deseada. Estas dificultades se presentan por motivos tales como las características propias del lenguaje natural como la polisemia, sinonimia y ambigüedad; así, también, por el desconocimiento de los temas que son de interés para el usuario. Otra de las causas que dificultan la recuperación de información relevante es que la búsqueda de resultados se realiza de manera sintáctica, esto es, buscando en los documentos la coincidencia exacta de los términos ingresados en la cadena de búsqueda. Del mismo modo, otra razón importante es que los formatos e interfaces de contenido se presentan en formatos comprensibles solo por las personas y no por un computador. Ante esto, el presente proyecto propone una alternativa de solución de forma tal que los documentos contengan información adicional que describa los conceptos y entidades principales del contenido. Esta información adicional se añadirá de manera automática a los documentos mediante anotaciones semánticas en base a un dominio de conocimiento que sea de interés para el usuario. De esta manera, se pretende apoyar el concepto de Web semántica cuya propuesta es clasificar, estructurar y anotar los recursos con semántica explícita para que puedan ser procesados por sistemas inteligentes.Tesi

    Un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.

    Get PDF
    Resumen: El problema de ambigüedad de los sentidos de las palabras (polisémica) es un problema que es transversal a diversas áreas del conocimiento entre ellas a la ingeniería de software y sus sub-ramas como la educción de requisitos. En la fase de educción de requisitos se presentan problemas en la comunicación entre el analista y el interesado debido a factores como poca claridad del interesado, interpretación subjetiva del analista, dominios del discurso diferentes y ambigüedad semántica (polisémica, léxica y lingüística, etc.), estos factores dificultan la comprensión correcta y no ambigua de los requisitos. Las arquitecturas de educción de requisitos de software son el lugar donde se plasman los requisitos obtenidos desde el discurso y eso donde finalmente se evidencian los problemas de ambigüedad de esta fase (inconsistencia, duplicidad y no unificidad). En este trabajo se busca enfrentar la ambigüedad del sentido de las palabras presente en las arquitecturas de educción de requisitos de software y los errores asociados que genera la ambigüedad polisémica en requisitos de software. Para ello se propone un modelo de resolución de ambigüedad de sentidos de palabras para mejorar la calidad de resultados en una arquitectura de educción de requisitos de software.Abstract: The problem of ambiguity of word meanings (polysemy) is a problem that cuts across different knowledge areas including software engineering and its sub-branches such as requirements elicitation. In the phase of requirements elicitation problems arise in communication between the analyst and the person due to factors such as lack of clarity interested, subjective interpretation of the analyst different domains of discourse and semantic ambiguity (polysemy, lexical and linguistic, etc.) these factors make the correct and unambiguous understanding of the requirements. The architectures of software requirements elicitation are where the requirements obtained from the speech are reflected and that where finally the problems of ambiguity of this phase (inconsistency, duplicity and no unificidad) are evident. This paper seeks to address the ambiguity of the meaning of words present in the architectures of software requirements elicitation and associated errors generated by the polysemous ambiguity in software requirements. For these model ambiguity resolution senses of words is proposed to improve the quality of results architecture software requirements elicitation.Maestrí

    Control de vocabulario: orígenes, evolución y proyección

    Get PDF
    Las cuestiones relacionadas con el control de vocabulario están fuertemente asentadas en la literatura de la Organización del Conocimiento desde los orígenes mismos de este campo temático. El control de vocabulario puede ser visto como un conjunto de técnicas y procedimientos que se aplican sobre el lenguaje para resolver problemas de comprensión, ambigüedad, alcance y relación entre términos que expresan conceptos, y/o entre denominaciones que expresan nombres de personas, lugares, productos o instituciones. Pretende superar las dificultades de interpretación y comunicación propias de la utilización del lenguaje natural, las que son vistas como desviaciones del discurso metódico y preciso que requieren las ciencias y las disciplinas. En este trabajo se recoge la historia del término ‘control de vocabulario’, desde su origen en el ámbito de la enseñanza del inglés como una segunda lengua, a comienzos de la década de 1930, y su pasaje al vocabulario de la Bibliotecología y Ciencia de la Información hacia 1950. Se presentan en forma sistematizada cinco funciones del control de vocabulario: restricción, desambiguación, normalización, jerarquización y relación. A continuación se identifican y explican los nueve procedimientos de control de vocabulario más utilizados. Se analizan elementos del debate histórico entre quienes defienden la utilización de vocabularios controlados y quienes proponen el lenguaje natural como mejores herramientas para la representación temática del contenido de documentos y recursos de información, y se propugna la superación de ese debate en virtud de las características actuales del entorno digital en que se desenvuelve buena parte de los problemas de almacenamiento, organización y recuperación de documentos y datos. Se considera la idea de que la interoperabilidad puede ser vista también como una modalidad particular de control de vocabulario. Se establecen conclusiones respecto a la vigencia y proyección del control de vocabulario

    Estructura informativa y reformulación: los recapitulativos kurz gesagt y mit einem Wort

    Get PDF
    Este artículo analiza el papel discursivo de los marcadores de reformulación recapitulativos a partir de una definición del texto como un proceso dinámico de construcción orientado a la satisfacción de un propósito comunicativo concreto. La consideración de las dinámicas que rigen los procesos de producción textual nos permitirán analizar estos marcadores no como meros nexos textuales paratácticos, sino como los mecanismos mediante los que el emisor distribuye y presenta las distintas unidades comunicativas con las que compone su discurso. Mostraremos que kurz gesagt y mit einem Wort cumplen una doble función textual, organizativa y cognitiva, y contribuyen al intento de todo emisor de aproximar sus producciones a las expectativas del receptor a fin de facilitar la consecución de la meta de su actuación lingüística. This paper analyses the discourse status of recapitulative reformulation markers from the definition of text as a dynamic construction process which is aimed at the fulfilment of a specific communicative purpose. The consideration of the dynamics governing the processes of text production will allow us to analyse these markers not just as mere paratactic text connectors, but as the mechanisms through which speakers distribute and present the communicative units which make up his discourse. We will show that kurz gesagt and mit einem Wort have a double, both organizing and cognitive, function in text and contribute to the way speakers attempt to adapt their linguistic productions to the receiver¿s expectations in order to favour the achievement of the end of their linguistic performance
    corecore