74 research outputs found

    A proposal for a shallow ontologization of WordNet

    Get PDF
    En este artículo se presenta el trabajo que se está realizando para la llamada ontologización superficial de WordNet, una estructura orientada a superar muchos de los problemas estructurales de la popular base de conocimiento léxico. El resultado esperado es un recurso multilingüe más apropiado que los ahora existentes para el procesamiento semántico a gran escala.This paper presents the work carried out towards the so-called shallow ontologization of WordNet, which is argued to be a way to overcome most of the many structural problems of the widely used lexical knowledge base. The result shall be a multilingual resource more suitable for large-scale semantic processing

    La noción de tradautomaticidad en la traducción automática

    Get PDF
    En este artículo presentamos la noción de tradautomaticidad y explicamos su relevancia en la traducción automática. La tradautomaticidad es el 'aroma de la traducción automática; esto es, los fenómenos lingüísticos que provocan que un texto parezca haber sido traducido por una máquina y no por un ser humano. Esta noción es relevante en la evaluación de sistemas de traducción automática pero lo es también en la corrección de traducciones, en la confirmación de usos fraudulentos, la detección de spam, o la búsqueda de información. El artículo explica el trabajo experimental que realizamos para elaborar una tipología de tradautomaticidad. Analizamos también la apreciación de estos fenómenos por parte de un extenso grupo de informantes, con diferentes niveles de estudios, edades, etc. El experimento nos ha dado datos sobre la influencia de los pares de lenguas y el método del sistema en la generación de ejemplos de tradautomaticidad. Finalmente, hemos hecho unas recomendaciones metodológicas para detectar ejemplos de tradautomaticidad de la forma más objetiva posible.In this article we explain the notion of machine translationness and its relevance in machine translation. Machine translationness refers to the linguistic phenomena that reveals a text to be translated by a machine. This notion is relevant for machine translation evaluation, post-editing, confirmation of dishonest use of machine translation engines, spam detection and information search. The article explains the empirical study we performed in order to elaborate a machine translationness typology. We also analyse the perception of machine translationness types by a large group of informants with varied learning levels, ages, etc. The experiment provided us with data about the influence of language-pairs and the methodology of the translation engine in machine-translationness generation. Finally, we suggest a few methodological hints about how machine translationnes can be detected automatically and objectively

    AVI.cat: a virtual assistant for the improvement of writing skills in Catalan

    Get PDF
    En esta demostración presentamos un primer prototipo de asistente para la mejora de la redacción en catalán. El sistema va más allá de un simple corrector gramatical, ya que propone enlaces a gramáticas y ejercicios que permiten al usuario practicar los aspectos donde presenta más carencias. El sistema funciona también como evaluador de nivel y permite realizar un seguimiento de las mejoras del usuario.In this demo we present a first prototype of an assistant for the improvement of writing skills in Catalan. The system is more than a grammatical checker as it proposes links to grammatical explanations and exercises, allowing the user to practice specific aspects. The program also works as a level evaluator and allows to track the user’s improvements

    CARPANTA eats words you don't need from e-mail

    Get PDF
    [spa] Presentamos CARPANTA, un sistema de resumen automático de correo electrónico que aplica técnicas de conocimiento intensivo para obtener resúmenes coherentes. El uso de herramientas de PLN de amplia cobertura garantiza la robusteza y portabilidad del sistema, pero también se explota conocimiento dependiente de lengua y dominio. CARPANTA ha sido evaluado por comparación con un corpus de resúmenes confeccionados por jueces humanos, con resultados satisfactorios. [eng] We present CARPANTA, an e-mail summarization system that applies a knowledge intensive approach to obtain highly coherent summaries. Robustness and portability are guaranteed by the use of general-purpose NLP, but it also exploits language- and domain-dependent knowledge. The system is evaluated against a corpus of human-judged summaries, reaching, satisfactory levels of performance

    KNOW2: Language understanding technologies for multilingual domain- oriented information acces

    Get PDF
    The goal of the project is to explore integrated environments allowing the cost-effective deployment of vertical information access portals for specific domains. The project started in January 2010, and will last three years

    Análisis de los fenómenos lingüísticos de los mensajes de correo electrónico en catalán desde la prespectiva de la traducción automática

    Get PDF
    [spa] Los sistemas de traducción automática están preparados para traducir textos que son normativamente correctos. Sin embargo, en la traducción automática de mensajes de correo electrónico hay elementos ajenos a la norma que provocan errores de traducción y es necesario conocerlos si se quiere optimizar un entorno de traducción automática de mensajes de correo electrónico, como el que se diseñó para el proyecto Interlingua desarrollado por la UOC. Una tarea importante de dicho proyecto fue el análisis de los fenómenos lingüísticos no normativos de un corpus de mensajes electrónicos escritos en catalán y su impacto en la calidad de traducción al español. En este artículo presentamos este análisis. Curiosamente los errores de competencia de los emisores causan más errores de traducción que los fenómenos característicos de la comunicación por correo electrónico, como los errores de teclado, vocabulario sms, emoticonos, etc. [eng] Emails contain linguistic phenomena that deviate from standard language norms and may cause machine translation errors. In order to design an email translation environment for the Interlingua project developed at UOC, we classified deviations from the standard in a corpus of emails in Catalan and analysed their impact on the machine translation quality in Spanish. Here we present this analysis. Curiously, most translation errors are caused by the lack of linguistic competence of the sender. The impact of characteristic email phenomena (smileys, performance errors, sms vocabulary, etc.) is not so strong

    Bilingual newsgroups in Catalonia: a challenge for machine translation

    Get PDF
    This paper presents a linguistic analysis of a corpus of messages written in Catalan and Spanish, which come from several informal newsgroups on the Universitat Oberta de Catalunya (Open University of Catalonia; henceforth, UOC) Virtual Campus. The surrounding environment is one of extensive bilingualism and contact between Spanish and Catalan. The study was carried out as part of the INTERLINGUA project conducted by the UOC's Internet Interdisciplinary Institute (IN3). Its main goal is to ascertain the linguistic characteristics of the e-mail register in the newsgroups in order to assess their implications for the creation of an online machine translation environment. The results shed empirical light on the relevance of characteristics of the e-mail register, the impact of language contact and interference, and their implications for the use of machine translation for CMC data in order to facilitate cross-linguistic communication on the Internet

    KNOW: Developing Large-scale multilingual technologies for language understanding

    Get PDF
    The KNOW project aims to add meaning, knowledge and reasoning to current Natural Language Processing technologies

    CARPANTA eats words you don't need from e-mail

    Get PDF
    Presentamos CARPANTA, un sistema de resumen automático de correo electrónico que aplica técnicas de conocimiento intensivo para obtener resúmenes coherentes. El uso de herramientas de PLN de amplia cobertura garantiza la robusteza y portabilidad del sistema, pero también se explota conocimiento dependiente de lengua y dominio. CARPANTA ha sido evaluado por comparación con un corpus de resúmenes confeccionados por jueces humanos, con resultados satisfactorios.We present CARPANTA, an e-mail summarization system that applies a knowledge intensive approach to obtain highly coherent summaries. Robustness and portability are guaranteed by the use of general-purpose NLP, but it also exploits language- and domain-dependent knowledge. The system is evaluated against a corpus of human-judged summaries, reaching, satisfactory levels of performance.This research has been conducted thanks to a grant associated to the X-TRACT project, PB98-1226 of the Spanish Research Department. It has also been partially funded by projects HERMES (TIC2000-0335-C03-02), PETRA (TIC2000-1735-C02-02) and by CLiC (Centre de Llenguatge i Computació)

    Tecnologies de la traducció per a la gestió de la doble oferta docent en català i castellà a la UOC

    Get PDF
    La Universitat Oberta de Catalunya (UOC) és una universitat plenament virtual que actualment, deu anys després de ser fundada, l'any 1994, ofereix un total de 17 titulacions homologades en català. L'any 2000 la UOC va començar a fer docència universitària també en castellà, amb la inauguració del campus iberoamericà, el qual aplega actualment uns cinc mil estudiants distribuïts en 14 titulacions i unes 400 aules i assignatures
    corecore