10 research outputs found

    Un detector de la unidad central para textos en castellano

    Get PDF
    En este artículo presentamos el primer detector de la Unidad Central (CU) de resúmenes científicos en castellano basado en técnicas de aprendizaje automático. Para ello, nos hemos basado en la anotación del Spanish RST Treebank anotado bajo la Teoría de la Estructura Retórica o Rhetorical Structure Theory (RST). El método empleado para detectar la unidad central es el modelo de bolsa de palabras utilizando clasificadores como Naive Bayes y SVM. Finalmente, evaluamos el rendimiento de los clasificadores y hemos creado el detector de CUs usando el mejor clasificador.In this paper we present the first automatic detector of the Central Unit (CU) for Spanish scientific abstracts based on machine learning techniques. To do so, learning and evaluation data was extracted from the RST Spanish Treebank annotated under the Rhetorical Structure Theory (RST). We use a bag-of-words model based on Naive Bayes and SVM classifiers to detect the central units of a text. Finally, we evaluate the performance of the classifiers and choose the best to create an automatic CU detector

    A Machine Learning based Central Unit Detector for Basque Scientific Texts

    Get PDF
    En este artículo presentamos el primer detector de la Unidad Central (UC) de resúmenes científicos en euskera basado en técnicas de aprendizaje automático. Después de segmentar el texto en unidades de discurso elementales, la detección de la unidad central es crucial para anotar de forma más fiable la estructura relacional de textos bajo la Teoría de la Estructura Retórica o Rhetorical Structure Theory (RST). Además, la unidad central puede ser explotada en diversas tareas como resumen automático, tareas de pregunta y respuesta o análisis del sentimiento. Los resultados obtenidos demuestran que las técnicas de aprendizaje automático superan a las técnicas basadas en reglas a pesar del pequeño tamaño del corpus y de la heterogeneidad de los dominios que éste muestra, dejando todavía lugar para mejoras y desarrollo.This paper presents an automatic detector of the discourse central unit (CU) in scientific abstracts based on machine learning techniques. After segmenting a text in its elementary discourse units, the detection of the central unit is a crucial step on the way to robustly build discourse trees under the Rhetorical Structure Theory (RST). Besides, CU detection may also be useful in automatic summarization, question answering and sentiment analysis tasks. Results show that the CU detection using machine learning techniques for Basque scientific abstracts outperform rule based techniques, even on a small size corpus on different domains. This leads us to think that there is still room for improvement.Este trabajo ha sido financiado en parte por el siguiente proyecto: TIN2015-65308-C5-1-R (MINECO/FEDER)

    Desarrollo de un analizador sintáctico estadístico basado en dependencias para el euskera

    Get PDF
    Este artículo presenta los primeros pasos dados para la obtención de un analizador sintáctico estadístico para el euskera. El sistema se basa en un treebank anotado sintácticamente mediante dependencias y la adaptación del analizador sintáctico determinista de Nivre et al. (2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en aprendizaje automático para determinar cuál de 4 opciones debe realizar, obtiene un único análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de los obtenidos por sistemas similares.This paper presents the first steps towards a statistical syntactic analyzer for Basque. The system is based on a syntactically dependency annotated treebank and an adaptation of the deterministic syntactic analyzer of Nivre et al. (2007), which relies on a shift/reduce deterministic analyzer together with a machine learning module that determines which one of 4 analysis options to take, giving a unique syntactic dependency analysis of an input sentence. The results are near to those obtained by similar systems.Este trabajo está subvencionado por el Departamento de Industria y Cultura del Gobierno Vasco (proyecto AnHITZ 2006, IE06-185)

    Euskararako analizatzaile sintaktiko estatistikoa hobetzeko teknikak

    Get PDF
    This paper presents a set of experiments to improve the results of the statistical syntactic analyzers for Basque. The present work has examined different techniques: i) tree transformations, ii) stacking, and iii) combinations of the output of several parsers. All the results have been obtained using gold morphosyntactic tags coming directly from the treebank and using automatic mophosyntactic tags coming from morphological analysis and disambiguation module.; Artikulu honetan euskararako analizatzaile sintaktiko-estatistikoen emaitzak hobetzeko helburuarekin egindako esperimentu-multzoa aurkezten da. Lan honetan teknika ez-berdinak aztertzen dira: i) zuhaitz-transformazioak, ii) analizatzaileen pilaketa, eta iii) analizatzaile-modelo desberdinen irteeren konbinazioa. Emaitza guztiak zuhaitz-bankutik zuzenean hartutako urre-patroiko ezaugarri morfosintaktikoak erabiliz eta analisi morfologiko eta desanbiguatze-moduluetatik hartutako ezaugarri morfosintaktiko automatikoak erabiliz egin dira

    AzterTest: Herramienta de Análisis Lingüístico y Estilístico de Código Abierto

    No full text
    Text Analysis is a useful process to assist teachers in the selection of the most suitable texts for their students. This task demands the analysis of several text features, which is done mostly manually (e.g. syntactic complexity, words variety, etc.). In this paper, we present an open source tool useful for linguistic and stylistic analysis, called AzterTest. AzterTest calculates 153 features and obtains 90.09 % in accuracy when classifying into three reading levels (elementary, intermediate, and advanced). AzterTest is available also as web tool.El análisis de texto es un procedimiento útil para ayudar a los profesionales de la educación en la selección de los textos más adecuados para sus alumnos. Esta tarea exige el análisis de varias características de texto (por ejemplo, complejidad sintáctica, variedad de palabras, etc.), que se realiza principalmente de forma manual. En este artículo, presentamos AzterTest, una herramienta de código abierto para el análisis lingüístico y estilístico. AzterTest calcula 153 características y obtiene una exactitud de 90.09 % al distinguir tres niveles de lectura (elemental, intermedio y avanzado). AzterTest también se encuentra disponible como herramienta web.We acknowledge following projects: DL4NLP (KK-2019/00045), DeepReading RTI2018-096846-B-C21 (MCIU/AEI/FEDER, UE) and BigKnowledge for Text Mining, BBVA

    Migración de una gramática sintáctica parcial entre dos formalismos de unificación

    Get PDF
    Este trabajo presenta el proceso de migración de una gramática sintáctica del euskera de un formalismo a otro. Debido a diferencias en los formalismos y también en el tipo de gramáticas, la transición directa de una gramática a otra no es posible. Esto lleva a que la construcción de la nueva gramática por parte de un lingüista parta prácticamente de cero. Por ello se ha planteado, de manera paralela a la construcción manual de la gramática, un experimento consistente en derivar una gramática de manera semiautomática generando reglas partiendo de la gramática antigua y un corpus analizado con ésta. Este experimento ha servido por un lado para comprobar la viabilidad de obtener una nueva gramática de manera prácticamente automática, y a la vez ha valido para ayudar en el proceso de construcción manual de la gramática, sirviendo de punto de comparación y para detección de errores u omisiones.This work presents the migration process of a syntactic grammar of Basque from one formalism to another. Due to differences in the formalisms and the kind of grammars, it is not possible to make a direct translation. As a consequence, the construction of a new grammar by a linguist must start almost from scratch. For this reason we devised an experiment in parallel with the manual construction of the grammar, consisting in deriving several grammars semi automatically using the old grammar and a corpus analyzed with it. This experiment was useful to test the viability of obtaining a grammar automatically and at the same time also helped in the process of the manual construction of the new grammar, as the automatically obtained grammars could be compared with the manual one, and could also help to detect errors or omissions

    Detección de las unidades centrales para textos de respuesta argumentativa en Portugués-Brasileño

    No full text
    Understanding or writing properly the main idea or the Central Unit (CU) of a text is a very important task in exams. So, detecting automatically the CU may be of interest in language evaluation tasks. This paper presents a CU detector based on machine learning techniques for argumentative answer texts in Brazilian Portuguese. Results show that the detection of CUs following machine learning techniques in argumentative answer texts is better that those using rules.Comprender o escribir correctamente la idea principal o Unidad Central (UC) de un texto es una tarea muy importante en los exámenes. Así, la detección automática de la UC puede ser de interés en las tareas de evaluación del lenguaje. Este artículo presenta un detector de UCs basado en aprendizaje automático para textos de respuesta argumentativa en Brasileño. Los resultados muestran que la detección de las UCs utilizando aprendizaje automático en brasileño y textos de respuesta argumentativa obtienen mejores resultados que los basados en reglas.This study was carried out within the framework of the following projects: IXA Group: natural language processing (GIU16/16) [UPV/EHU], QUALES KK-2017/00094 (Gobierno Vasco) and TUNER TIN2015-65308-C5-1-R (MINECO/FEDER, UE)

    Towards a top-down approach for an automatic discourse analysis for Basque: Segmentation and Central Unit detection tool

    Get PDF
    Lately, discourse structure has received considerable attention due to the benefits its application offers in several NLP tasks such as opinion mining, summarization, question answering, text simplification, among others. When automatically analyzing texts, discourse parsers typically perform two different tasks: i) identification of basic discourse units (text segmentation) ii) linking discourse units by means of discourse relations, building structures such as trees or graphs. The resulting discourse structures are, in general terms, accurate at intra-sentence discourse-level relations, however they fail to capture the correct inter-sentence relations. Detecting the main discourse unit (the Central Unit) is helpful for discourse analyzers (and also for manual annotation) in improving their results in rhetorical labeling. Bearing this in mind, we set out to build the first two steps of a discourse parser following a top-down strategy: i) to find discourse units, ii) to detect the Central Unit. The final step, i.e. assigning rhetorical relations, remains to be worked on in the immediate future. In accordance with this strategy, our paper presents a tool consisting of a discourse segmenter and an automatic Central Unit detector.This study was carried out within the framework of the following projects: IXA Group: natural language processing IT1343-19 (Basque Government), DL4NLP KK-2019/00045 (Basque Government), PROSA-MED TIN2016-77820-C3-1-R (MINECO) and DeepReading: RTI2018-096846-B-C21 (MCIU/AEI/FEDER, UE)

    Dependentzia Unibertsalen eredura egokitutako euskarazko zuhaitz-bankua

    Get PDF
    Hizkuntzaren Prozesamenduan kokatzen den Dependentzia Uniber-tsalen proiektuaren helburua da hainbat hizkuntzatan sortu diren dependentzia-ereduan oinarritutako zuhaitz-bankuak etiketatze-eskema estandar berera egokitzea. Artikulu honetan, eredu horretara automatikoki egokitu den euskarazko zuhaitz-bankua aurkez-ten da; halaber, egokitzapen-lan hori nola gauzatu den deskribatzen da eta, azkenik, ho-rretan oinarrituta, azaltzen da zer antzekotasun eta zer desberdintasun diren jatorrizko zuhaitza-bankuaren eta Dependentzia Unibertsalen eredura egokitutako zuhaitz-ban-kuaren artean.; In the Natural Language Processing research area, the aim of the Uni-versal Dependencies project is to convert dependency based treebanks developed in different languages into the same standard tagging scheme. This article presents the automatic conversion of the previously existing Basque treebank into this universal tagging scheme. This work describes how the conversion process has been carried out and highlights the similarities and differences between the original Basque treebank and the Universal Dependency based version of it

    Exaeskalarako sare-interkonexioen diseinurako helburu-aniztasuneko optimizazioa

    Get PDF
    Exascale performance will be delivered by systems composed of millions of inter-connected computing cores. The way these computing elements are connected with each other (network topology) has a strong impact on many performance characteristics. In this work we propose a multi-objective optimization- based framework to explore possible network topologies to be implemented in the EU-funded ExaNeSt project. The modular design of this system’s inter-connect provides great flexibility to design topologies optimized for specific performance targets such as communications locality, fault tolerance or energy-consumption. The generation proce-dure of the topologies is formulated as a three-objective optimization problem (minimizing some topological characteristics) where solutions are searched using evolutionary techniques. The analysis of the results, carried out using simulation, shows that the topologies meet the required performance objectives. In addition, a comparison with a well-known topology reveals that the generated solutions can provide better topological characteristics and also higher throughput in almost all evaluated scenarios.; Exaeskala errendimendua milioika kalkulu-nukleoz osaturiko sistemak erabi-liz lortuko da. Elementu horiek konektatzeko moduak (sare-topologia) izugarrizko eragina du hainbat errendimendu ezaugarritan. Lan honetan, sare-topologiak diseinatzeko helburu-anizta-suneko optimizazioan oinarritutako ingurune bat proposatzen dugu, EBk finantzatuta ExaNeSt proiektuan garatzen ari garena. ExaNeSt sistemaren sarearen modulartasunari esker sare-topolo-gia ezberdinak diseinatu ditzakegu hainbat errendimendu-helburu optimizatzeko; esaterako, in-guruko komunikazioak, hutsegite-tolerantzia eta energia-kontsumoa. Topologiak sortzeko pro-zesua optimizazio bidez gauzatzen da (sare-topologiaren hainbat ezaugarri minimizatuz) teknika ebolutiboak erabilita. Simulazio bidezko emaitzen analisiak sortutako topologiek errendimen-du-helburuak betetzen dituztela erakusten du. Gainera, sare-topologia ezagun batekin egindako konparazioan ikus daiteke gure proposamenak sortzen dituen sareek propietate topologiko ho-beak dauzkatela eta, aldi berean, errendimendu handiagoa lortzen dutela
    corecore