149 research outputs found

    Las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 a 2022, el corpus ParlaMintCAT

    Get PDF
    Parliamentary speeches are considered to be of interest for different research areas because they are publicly available transcriptions, produced under controlled and regulated procedures that add totally reliable sociodemographic data like gender, age, and other details of the speakers. Moreover, speeches are rich in topics and domains, and they are actually public domain data, not subject to copyright restrictions. The ParlaMint project: Towards Comparable Parliamentary Corpora is developing a comparable and uniformly annotated multilingual corpus with the data from 33 different parliaments in Europe. This paper describes the details of building the ParlaMintCAT corpus, for which the transcriptions of the Catalan Parliament General Assembly sessions from 2015 to 2022 have been compiled, processed and annotated.Los discursos parlamentarios pueden resultar de interés para distintos ámbitos de investigación ya que son textos públicos, elaborados con arreglo a procedimientos regulados, a los que se han añadido datos sociodemográficos totalmente fiables como el género, la edad y otros detalles de los oradores. Además, los discursos son ricos en temas y dominios y son realmente datos de dominio público, es decir, que no están sujetos a restricciones de copyright. El proyecto ParlaMint: Towards Comparable Parliamentary Corpora está desarrollando un corpus multilingüe comparable y uniformemente anotado con datos de 33 parlamentos diferentes de Europa. Este artículo describe los detalles de la construcción del corpus ParlaMintCAT, para el que se han recopilado, procesado y anotado las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 hasta 2022.This work was supported with CLARIN.eu and Project PID2019-104512GB-I00, Ministerio de Ciencia, Innovación y Universidades and Agencia Estatal de Investigación (Spain) funding. Rodolfo Zevallos was supported with a FI grant of the Departament de Recerca i Universitats, Generalitat de Catalunya

    The Harvesting Day: an initiative to enhance the visibility of language resources

    Get PDF
    The Harvesting Day es una iniciativa para garantizar la visibilidad, localización y descripción de los recursos lingüísticos mediante un conjunto básico de metadatos. Esta iniciativa aboga por un cambio de estrategia en el que los proveedores de recursos y tecnologías lingüísticos se convierten en responsables de la visibilidad de sus propios recursos así como de su documentación. Una vez creadas y almacenadas debidamente las descripciones de los diferentes recursos, los metadatos son recopilados de manera automática y periódica y se envían a los principales repositorios y catálogos virtuales garantizando así la visibilidad de los recursos así como la veracidad de sus datos, que de este modo se mantendrán actualizados.The Harvesting Day is an initiative to ensure the visibility, accessibility and description of language resources by means of a basic and metadata schema. This initiative believes in a change of strategy: resource and technology providers must be aware of the importance of ensuring the visibility of their resources, as well as the documentation thereof. Once language resources descriptions are appropriately created and saved, the corresponding metadata are automatically and periodically harvested and sent to the main virtual repositories and catalogues. This guarantees not only the visibility of language resources and technologies, but also the trustability of their data, which in turn is continuously updated.Ministerio de Ciencia e Innovación; Departament d’Innovació, Universitats i Empresa de la Generalitat de Catalunya

    TRADE (MLAP93/003)

    Get PDF
    La Traducción Automática se considera una de las aplicaciones más importantes de la Ingeniería Lingüística, desde el punto de vista comercial. A pesar de que el problema de la TA está lejos de haber sido resuelto, se pone de manifiesto la necesidad de disponer de productos operativos que cubran, al menos parcialmente, la demanda del mercado en este sentido, proporcionando ayudas y herramientas para la traducción..

    Spanish CLARIN K-Centre

    Get PDF
    Presentamos CLARIN Centro-K-español que forma parte de la infraestructura europea CLARIN, Common Language Resources and Technology Infrastructure, y cuyo objetivo es ofrecer los conocimientos y experiencia de los tres grupos que inicialmente lo componen en la utilización de tecnología para la investigación en humanidades y ciencias sociales.We introduce Spanish CLARIN Centre-K, a node of the European infrastructure CLARIN, Common Language Resources and Technology, whose objective is to share knowledge and experience of the three funding constituent groups for research in humanities and social sciences

    Clasificación de textos cortos para un sistema monitor de los Social Media

    Get PDF
    We present the system for the classification of sentences and short texts into Marketing Mix classes developed within the LPS-BIGGER project. The system classifies short texts from Social Media into categories that are considered business indicators to monitor consumer's opinion.Presentamos el sistema de clasificación de oraciones y textos cortos en categorías del Marketing Mix desarrollado en el marco del proyecto LPS-BIGGER. El sistema clasifica textos cortos de los Social Media en categorías consideradas como indicadores de negocio para poder monitorizar la opinión de los consumidores.This work was supported by the Spanish CIEN project LPS-BIGGER cofunded by the MINECO and CDTI (IDI-20141260) and TUNER project TIN2015-65308-C5-5-R (MINECO/FEDER, UE)

    Plataforma para la adquisición automática y la anotación normalizada eficiente de recursos lingüísticos para las tecnologías del lenguaje humano: PANACEA

    Get PDF
    El objetivo de panacea es engranar diferentes herramientas avanzadas para construir una fábrica de Recursos Lingüísticos (RL), una línea de producción que automatice los pasos implicados en la adquisición, producción, actualización y mantenimiento de los RL que la Traducción Automática, y otras tecnologías lingüísticas, necesitan.PANACEA's objective is to join a number of advanced interoperable tools to build a factory of Language Resources (LR). A production line that automates the stages involved in the acquisition, production, updating and maintenance of the LR required by Machine Translation and other Language Technologies.The PANACEA project is funded by the DG INFSO of the European Commission through the Seventh Framework Programme, Grant agreement no.: 7FP-ITC-248064

    PANACEA: Language Resource Factory. Data Available for free!

    No full text
    This flyer is part of dissemination material generated in the PANACEA Project

    PANACEA, Platform for Automatic, Normalized Annotation and Cost-Effective Acquisition of Language Resources for Human Language Technologies

    No full text
    This brochure is part of dissemination material generated in the PANACEA Project

    Desambigüación monolingüe y traducción automática

    No full text

    [PANACEA] Project final report

    No full text
    This report describes the results of PANACEA project. PANACEA project has focused on the development of a factory of LRs that automates the stages involved in/nthe acquisition, production, updating and maintenance of LRs required by MT systems, and by other based on Language Technologies (LT) applications. This automation is meant to cut down costs significantly, in terms of time and human effort. Such reductions are the only way to guarantee a continuous supply of LRs that MT/nand other Language Technologies may demand in a multilingual Europe. In order to address this objective, PANACEA has worked in (i) the development of a platform, designed as a dedicated factory for the composition of a number of LRs production lines based on combinations of different web services and (ii) the integration of advanced components for the acquisition and normalization of corpora, monolingual and parallel corpora, their alignment; the derivation of bilingual dictionaries out of aligned corpora; and the production of monolingual rich information lexica using corpus based automatic methods
    • …
    corecore