42 research outputs found

    Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de Web Semántica: OntoTag

    Full text link
    A instancias de lo que se ha dado en llamar la Web Semántica, la Inteligencia Artificial ha investigado exhaustivamente la anotación semántica de páginas web. La anotación (semántica) de textos se desarrolló primeramente en la Lingüística de Corpus; sin embargo, la Inteligencia Artificial, al centrarse en una anotación basada en ontologías, parece haber pasado por alto sus resultados. Este artículo muestra nuestras primeras experiencias en la integración de ambos campos, según las cuales una anotación híbrida (lingüística y ontológica) no sólo sería posible, sino también de gran utilidad, para hacer más comprensibles a un ordenador los documentos de la Web Semántica. Nuestro equipo de investigación está desarrollando OntoTag, un modelo de anotación multi-nivel (en principio, también multilingüe y de propósito general) basado en los estándares EAGLES y en la Semántica Ontológica, e implementado en lenguajes de marcado de última generación (RDF(S)/XML)

    Corpus Básico del Español de Chile ©: metodología de procesamiento y análisis

    Get PDF
    This article reviews the methodology to process and analyze the Basic Corpus of Chilean Spanish © (in Spanish Corpus Básico del Español de Chile ©). It focuses on the criteria for ordering linguistic materials, segmentation and lemmatization, using a computer program developed ad hoc for this research and specially prepared to process and analyze Chilean Spanish.Este artículo revisa la metodología empleada para procesar y analizar el Corpus Básico del Español de Chile ©. Se centra en los criterios para ordenar los materiales, segmentar y lematizar, mediante un programa computacional elaborado ad hoc para esta investigación y especialmente preparado para procesar y analizar corpus de español de Chile

    Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA

    Get PDF
    A construción de recursos lingüísticos, entre os que se encontran os corpus ou bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural. Nos últimos anos, ademais, as novas tecnoloxías xorden como un parámetro máis de clasificación das linguas en función da súa presenza ou ausencia nelas. Neste marco sitúase o presente traballo, onde se recollen e describen polo miúdo os diferentes recursos lingüísticos elaborados –etiquetario, lexicón e corpus de adestramento, basicamente– para que poida executarse con garantías dunha alta taxa de acerto un etiquetador de tipo estatístico-probabilístico como é o Etiquetador/Lematizador do galego actual (XIADA), aplicado aos documentos que conforman o Corpus de Referencia do Galego Actual (CORGA) –corpus considerado representativo da lingua galega actual, cuxas características lingüísticas constatan as dificultades de traballar con lingua real–. Coa etiquetaxe permítese dar un salto cualitativo no sistema de consultas, de xeito que se facilita a recuperación de información a través dunha aplicación web mediante a consulta por forma, lema, etiqueta morfosintáctica ou calquera combinación destas; co engadido, naturalmente, das prestacións do CORGA. O resultado palpable da aplicación do sistema XIADA á análise de corpus en galego pode consultarse en liña accedendo ao Corpus de Referencia do Galego Actual etiquetado (CORGAetq)

    Diseño de una herramienta para la anotación semántica automática de documentos basados en ontologías en el dominio de la Ingeniería Informática

    Get PDF
    Analizando la situación de la Web en la actualidad en cuanto a la gestión y búsqueda de la información que hay en ella, el siguiente documento propone una herramienta de anotación semántica automatizada como alternativa de solución al trato de la información que se genera en línea. Básicamente, una herramienta de anotación semántica puede contribuir con muchas otras aplicaciones como herramientas de búsqueda, de organización, repositorios, etc.; y al apoyarse en una ontología de un campo determinado, el desarrollo de la herramienta puede extenderse a otros campos específicos mientras se cuente con la información y los expertos respectivos en el modelado del conocimiento. El siguiente proyecto en específico será beneficioso para la búsqueda y organización de diferentes documentos del campo de las ciencias de la computación desarrollados tanto en la universidad como fuera. Esto supondría que todos los miembros de la comunidad universitaria pudieran tener acceso a todos los contenidos del campo sin tener que gastar muchos recursos como tiempo y dinero. Entre los principales beneficios está la reducción de tiempo en búsqueda de materiales de información del campo, así como evitar volver a generar conocimiento que ya se encuentra en la Web o ya ha sido investigado en la universidad. Por último, además de la información recopilada en la investigación de una herramienta de esta naturaleza, se propone un diseño y un conjunto de recursos para desarrollarla, los cuales fueron probados en un conjunto de documentos pertenecientes al campo de la ingeniería informática en la universidad.Tesi

    Corpus and constructions:Hispanic perspectives

    Get PDF

    Construcción de dos tesauros para el análisis de sentimientos en el idioma español

    Get PDF
    Las empresas con el paso del tiempo suelen basar la toma de decisiones en información relevante de su entorno. Por eso, campos como la minería de datos han logrado un nivel elevado. Esto ha llevado a muchas personas a dedicar sus esfuerzos en obtener un mejoramiento de este campo. Por eso, nuestra institución Pontificia Universidad Javeriana ha hecho una alianza con grandes empresas nacionales para crear el Centro de Excelencia y Apropiación de Big Data y Analytics, conocido como Caoba, que busca la integración de la investigación académica con el mundo empresarial. Dentro de la minería de texto se destaca el análisis de sentimientos, que sirve para analizar la percepción que se expresa en un texto sobre algún tema determinado. Una herramienta importante para el análisis de sentimientos es un diccionario o tesauro que contenga las palabras con una etiquetación que referencie su orientación respecto a la percepción que se quiere evaluar. Para su construcción se utiliza una metodología que consiste en extraer las palabras más comunes de diferentes fuentes para después aplicarles un tratamiento de limpieza, traducción y asignación de valores representativos de los sentimientos que se quieren expresar, provenientes de bases de datos producidas en inglés. Los resultados son dos tesauros, uno de uso genérico para cualquier texto y otro enfocado en el tema de alimentos. En ambos casos las etiquetas en su gran mayoría sonde naturaleza neutral. Esto puede ser consecuencia de que la fuente utilizada para la extracción tenga un sesgo hacia el sentido neutral.The companies with the pass of the time tend to base their decision on relevant information coming from their environment. Therefore, fields such as data mining have a high level of importance. This has led many people to devote their efforts to gain an improvement in this field. For this reason, our institution Pontificia Universidad Javeriana has made an alliance with big companies in order to create the Center of Excellence and Appropriation of Big Data and Analytics, also known as Caoba, which seeks the integration of academic research with the business world. Within text mining, the sentiment analysis serves to analyze the perception expressed in a specific text. An important tool tor the sentiment analysis is a dictionary or thesaurus that contains the words with a label that references its orientation referring to the perception that is wanted to express. The methodology used consists of extracting the most common words from different sources and then apply them a cleaning treatment, translation and assignment of values representative of the feelings that are expressed, from databases produced in English. The results are two thesauri, one of generic use for any text and another focused on the subject of food. In both cases the labels are mostly neutral in nature. This may be due to the fact that the source used for the extraction has a bias towai ds the neutral directionMagíster en Ingeniería IndustrialMaestrí

    Avaliación dun etiquetador automático estatístico para o galego actual: Xiada

    Get PDF
    We evaluate, from a linguistic point of view, a statistical automatic labelling machine, which is explained together by the Center Ramón Piñeiro on Humanities Research and the COLE Group of Vigo and La Coruña Universities, and which also set aside for labelling the papers of Present Galician Reference Corpus so as to provide tools and resources for the computational linguistic analysis of Present Galician.Neste traballo avaliamos, dende o punto de vista lingüístico, un etiquetador automático estatístico, desenvolto conxuntamente polo Centro Ramón Piñeiro para a Investigación en Humanidades e o Grupo COLE das Universidades de Vigo e A Coruña, destinado a etiquetar os documentos do Corpus de Referencia do Galego Actual co obxecto de proporcionar recursos e ferramentas para a análise lingüística computacional do galego actual

    Traducción automática, corpus lingüísticos y desambiguación automática de los significados de las palabras

    Get PDF
    P. 555-587En la década de los 50 del siglo xx, surge la idea de estudiar los mecanismos posibles para llegar a la traducción automática, como herramienta importante dado el aumento de las transacciones comerciales entre países. La importancia del contexto a la hora de buscar el significado de una palabra, llevó a abandonar la idea del estudio de la traducción automática por parecer poco factible. Por suerte, países como Canadá o Rusia siguieron con la investigación , llegando a resultados satisfactorios basando la traducción automática en Reglas y no sólo en el lexicón bilingüe

    Estudio práctico como un ejemplo de la investigación del habla

    Get PDF
    Investigar el habla no es fácil. Toma mucho tiempo, experiencia, conocimiento y buena cooperación para hacer las investigaciones. Las dificultades principales al investigar el habla son que es importante tener suficientes muestras del habla para sacar conclusiones más generales, hay maneras diferentes de investigar varios aspectos del habla y hay que restringir la investigación. Además, las investigaciones toman mucho tiempo y recursos. Otra complicación es que hay ciertos aspectos del habla que aún no tienen concordancia de los investigadores: hay unos expertos que dicen que cierta información es necesaria para investigar ciertos aspectos, y hay otros que dicen que no lo es. También temas como la sintaxis, la lexicología y otros aspectos de las investigaciones lingüísticas no tienen límites claros y la manera de cómo investigarlos y qué aspectos hay que tomar en cuenta tampoco son claros. Además, para la investigación es necesario grabar el habla, pero eso no sirve para los estudios sobre el habla espontánea porque el equipo (cámara, micrófono etc.) ya cambia la espontaneidad de la situación.http://www.ester.ee/record=b5145722*es

    Apps and content translation using an integrated and automatic sistem to postediting and productivity improvement

    Get PDF
    AutomaticTrans (AT) es una empresa que desde 1994 se dedica a desarrollar y comercializar tecnología para facilitar los procesos multilingües de grandes organizaciones. Las empresas que utilizan la tecnología de AT se benefician de la organización de los procesos, los controles de calidad sistemáticos y la eficacia en las tareas de traducción y localización. Los desarrollos de AT están orientados en tres áreas: lingüística, gestión e integración. Lingüística para facilitar con traducción automática y memorias de traducción las tareas de los traductores; gestión para organizar todo el ciclo de procesos desde el pedido hasta la publicación; integración para facilitar la puesta en marcha en organizaciones complejas de todos los procesos alineados con la tecnología ya existente.Since 1994, AutomaticTrans (AT) is a technical and commercial company focused on solutions for multilingual customers making easier this complex process for big organizations. The companies working with AT solutions improves their workflow organization, adds a systematic quality control and benefits of an efficient translation and localization task model. AT products cover 3 main areas: linguistic, management and integration. Linguistic by providing machine translation and translation memories tools to translators and reviewers; management for the complete life cycle, end-to-end (invoicing to publishing) tasks; integration to make easy the immediate installation and deployment in complex companies by aligning the multilingual processes with the legacy technology of each company
    corecore