15 research outputs found

    "DBME_3”: data acquisition, composition and Nebrija-Valdés database

    Get PDF
    En este artículo se presentan la metodología y las herramientas empleadas para la adquisición de datos bibliográficos, la composición digital del Diccionario bibliográfico de metalexicografía del español (DBME_3) y la creación del catálogo bibliográfico de metalexicografía del español o base de datos Nebrija-Valdés.This article describes the methodology and tools employed in the acquisition of bibliographic data, the digital composition of the Diccionario bibliográfico de metalexicografía del español (DBME_3), and the creation of the Spanish metalexicographic catalogue or Nebrija-Valdés bibliographic database.peerReviewe

    Etiquetador automático de Marcadores Discursivos mediante Transformers

    Get PDF
    We present an automatic discourse particle (DM) tagger developed using manual annotation and machine learning. The tagger has been developed on a dataset of financial letters, where human annotators have reached an 0.897 agreement rate (IAA) on the indications of a specific annotation guide. With the annotated dataset, a prototype has been developed using the pre-trained Transformers, adapting it to the task (fine-tunning), reaching an F1-score of 0.933. An evaluation of the results obtained by the tagger is included.Presentamos un etiquetador automático de partículas discursivas (DM) desarrollado mediante etiquetado manual y aprendizaje automático. El etiquetador se ha desarrollado en un dataset de cartas financieras. Las anotadoras humanas han alcanzado un 0,897 de tasa de acuerdo (IAA) sobre las indicaciones de una guía de anotación específica. Con el dataset anotado se ha desarrollado un prototipo usando modelos de Transformers pre-entrenados adaptándolos a la tarea (fine-tuning) con un F1 de 0,933. Al final se da una evaluación de los resultados obtenidos por el tagger.The research has been carried out within the CLARA-FINT project (PID2020-116001RB-C31), funded by the Spanish Ministry of Science and Innovation

    Procesamiento de lenguaje natural aplicado a datos masivos generados en medios sociales

    Full text link
    La aparición y auge de la comunicación canalizada digitalmente, especialmente de las llamadas redes sociales, reclama capacidades analíticas automatizadas para extraer información y patrones a partir de datos masivos baja o pobremente estructurados con el objetivo de predecir tendencias, acciones y eventos futuros. Este ámbito concita el interés de investigadores y empresas, con implicaciones para la lingüística, la informática, la psicología, las ciencias sociales o la estadística, entre otras área

    DBME_3:Adquisición de datos, composición y base de datos Nebrija-Valdés

    No full text
    This article describes the methodology and tools employed in the acquisition of bibliographic data, the digital composition of the Diccionario bibliográfico de metalexicografía del español (dbme _3), and the creation of the Spanish metalexicographic catalogue or Nebrija-Valdés bibliographic database.En este artículo se presentan la metodología y las herramientas empleadas para la adquisición de datos bibliográficos, la composición digital del Diccionario bibliográfico de metalexicografía del español (dbme _3) y la creación del catálogo bibliográfico de metalexicografía del español o base de datos Nebrija-Valdé

    Design and development of Iberia: a corpus of scientific Spanish

    No full text
    Iberia is a synchronic corpus of scientific Spanish designed mainly for terminological studies. In this paper, we describe its design and the infrastructure for its acquisition, processing and exploitation, including mark-up, linguistic annotation, indexing and the user interface. Two pre-processing tasks affecting a large number of words are described in detail: de-hyphenation and identification of text fragments in other languages. We also show how some of the reported statistics, namely, dispersion and association, are used for research on lexis.Peer reviewe

    Linguistic principles applied to Spanish Sign Language automatic synthesis

    No full text
    Este trabajo presenta la base lingüística utilizada en un sintetizador de lengua de signos española (LSE). Los aspectos fundamentales tratados son la fonología de la LSE y una aproximación para describir mensajes signados. En relación a la fonología se describen los parámetros fonológicos utilizados, el modelo fonológico en el que se basa este trabajo y la aproximación para almacenar esta información. Por último se presentan los resultados obtenidos en pruebas de evaluación con nativos de LSE.This work presents the linguistic basis of a Spanish Sign Language (LSE) synthesizer. This paper focuses on the phonologic foundations of LSE and an approach to describe signed messages. Related to phonology, we will discuss the phonologic parameters used during the synthesis, the phonologic model which has been used in this work and the proposed approach to store all this information. Finally, we present the results of the synthesizer’s evaluations conducted by LSE natives

    Resumen de ADoBo 2021: detección automática de préstamos léxicos no asimilados en la prensa española

    Get PDF
    This paper summarizes the main findings of the ADoBo 2021 shared task, proposed in the context of IberLef 2021. In this task, we invited participants to detect lexical borrowings (coming mostly from English) in Spanish newswire texts. This task was framed as a sequence classification problem using BIO encoding. We provided participants with an annotated corpus of lexical borrowings which we split into training, development and test splits. We received submissions from 4 teams with 9 different system runs overall. The results, which range from F1 scores of 37 to 85, suggest that this is a challenging task, especially when out-of-domain or OOV words are considered, and that traditional methods informed with lexicographic information would benefit from taking advantage of current NLP trends.En este artículo presentamos los resultados de ADoBo 2021, la tarea compartida de IberLEF 2021 sobre detección de préstamos léxicos en la prensa española. En esta tarea abordamos la detección de préstamos como un problema de etiquetado de secuencias. A los participantes de la tarea se les proporcionó un corpus de prensa española anotado con préstamos léxicos no asimilados (mayoritariamente anglicismos) siguiendo el esquema BIO. Recibimos nueve sistemas distintos provenientes de cuatro equipos diferentes. Los resultados obtenidos oscilan entre los 37 y los 85 puntos de valor F1, lo que indica que la detección de préstamos léxicos es un problema no resuelto (sobre todo cuando se abordan préstamos no vistos anteriormente) y que el trabajo lexicográfico tradicional podría beneficiarse de incorporar las técnicas actuales del PLN
    corecore