14 research outputs found

    Funtzio sintaktikoen gold estandarra eskuz etiketatzeko gidalerroak

    Get PDF
    [EN]In this report we present the tags we use when annotating the gold standard of syntactic functions and the decisions taken during its annotation. The gold standard is a necessary resource to evaluate the rulebased surface syntactic parser (the one based on the Constraint Grammar formalism), and, moreover, it can be useful to develop and evaluate statistical parsers. The tags we are presenting here follow the Constraint Grammar (CG) formalism (Karlsson et al., 1995). In fact, last experiments show that good results have been obtained when parsing with CG (Karlsson et al., 1995; Samuelsson and Voutilainen,1997; Tapanainen and Järvinen, 1997; Bick, 2000).[EU]Txosten honetan funtzio sintaktikoen gold estandarra etiketatzean erabiltzen diren funtzio-etiketak eta horiek aplikatzeko hartutako erabakiak azalduko ditugu. Gold estandarra funtsezkoa dugu erregeletan oinarritutako azaleko analizatzaile sintaktikoa ebaluatzeko eta, halaber, baliagarri izan daiteke analizatzaile estatistikoak garatzeko eta ebaluatzeko ere. Funtzio-etiketa horiek Constraint Grammar(CG) eredua jarraitzen dute (Karlsson et al., 1995). Izan ere, azken urteetan analisi sintaktiko automatikoan emaitza onak lortu dira CG ereduaren aplikazioaren bidez (Karlsson et al., 1995; Samuelsson and Voutilainen, 1997; Tapanainen and Järvinen, 1997; Bick, 2000). Halaber, testuak anotatzeko lana oso handia dela kontuan izanik, Voutilainen-ek (2012) anotaziorako metodologia erdiautomatikoak proposatzen ditu. Ildo horretatik, etiketatze-lan hori arintze aldera,baliabide erdiautomatikoak ere jorratu ditugu (Arriola et al., 2013), baina geratzen den anbiguotasuna ebazteko (% 25) eskuzko etiketatzea egingo da. Hain zuzen ere, txosten honetan eskuzko lan hori aurrera eramateko gidalerroak definitu ditugu. Gidalerroetan analisietan erabiltzen diren laburtzapenak jasotzeaz gain, funtzio-etiketa horiek esleitzeko gidalerroak zehaztuko ditugu

    Construcción de un Gold Standard para la Sintaxis Superficial del Euskera

    Get PDF
    En este artículo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.PROSA-MED: Procesamiento semántico textual avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes Médicos (TIN2016-77820-C3-1-R)

    Construcción de un corpus etiquetado sintácticamente para el euskera

    Get PDF
    El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

    Euskal Hiztegia-ren azterketa eta egituratzea ezagutza lexikalaren eskuratze automatikoari begira: aditz-adibideen analisia murriztapen-gramatika baliatuz, azpikategorizazioaren bidean

    No full text
    Tesi-proiektu honek bi motibazio nagusi izan ditu: (1) Euskal Hiztegia (EH) berrerabiltzea, Euskararen Datu-Base Lexikalaren (EDBL) aberasketarako eta (2) aditzen argumentu-egitura lantzen laguntzeko bideak eskaintzea.Lehendabizi, EHren egitura definitzen duen gramatika zehaztu dugu eta hiztegia bera analizatu. Lan horiek gauzatzean lexikografoak hiztegia egiterakoan buruan duen gramatika azaleratu dugu. Eta, gainera, hiztegiko artikuluak eta artikulu bakoitzaren atalak egituratzeko testu-prozesadore batez baliatzeak dakartzan gabeziak eta akatsak nabarmendu ditugu. Horrek guztiak erakusten du formalizazio zorrotzago baten premia nabaria dela. @@ Horrez gain, hiztegia TEIko (Text Encoding Initiative) gidalerroen arabera kodetu dugu. Hau da, formatu estandar batez baliatu gara hiztegia errepresentatzeko. Eta, hiztegigintzari begira, aurkeztu dugun TEI ekimeneko gidalerroez baliatzea izan daiteke hiztegien kontsistentzia ziurtatzeko jarrai daitekeen bideetariko bat. Adibidez, TEIko gidalerroak, egokiak dira oso artikuluak idazten diharduen lexikografoarentzat, datuen zuzentasuna, osotasuna eta abar egiaztatzearen aldetik. @@ Bestalde, TEIra egokitze horrek hiztegiaren berrerabilgarritasunari irekitzen dizkio ateak. Hau da, batetik EDBLren aberasketarako informazioa jartzen du eskuragarri, eta, bestetik, EH aztergai edo lantresna duen edonorentzat baliagarri izango da. Aipatu gabe hiztegiaren etorkizuneko eguneratzeetarako eskaintzen dituen abantailak. @@ Hasieran aipatu dugun analisi horri esker, interesgarri deritzogun informazio-eremuak aztertu ahal izango ditugu ordenagailu bidez, gure kasuan aditzen adibideak izan ditugu aztergai. Azterketa horren helburu nagusia adibide horietan aditz bakoitzaren inguruan azaltzen diren sintagmak eta aditz-kateak jasotzea izan da. Eta helburu horrek eraman gaitu adibideen azaleko analisi sintaktikoa egitera. @@ EHko aditzen adibideak analizatu ditugu euskararako landu dugun Murriztapengramatika baliatuz. Adibideok analizatzeko euskararen sintaxiaren parte bat konputazionalki deskribatu eta erabili dugu. Eta ondorioz, sailkapen bat (etorkizuneko azterketa sakonagoen euskarri nahi litzatekeena) erdietsi dugu, aditzen argumentuegiturari erreparatuz. @@ Landu dugun sintaxiaren partea azaleko sintaxiaren arloan kokatzen da. Azaleko sintaxiak berebiziko garrantzia du adibideetatik jaso den informazioaren zuzentasunerako. Izan ere, aditz bakoitzaren argumentu posible gisa jasotzen direnak, azaleko sintaxiaren bidez ezagutzen diren sintagmak eta aditz-kateak baititugu. @@ Ez dugu zalantzarik esateko aditzei buruzko azpikategorizazioa zehazteak sintagma edota aditz-kateen analisitik esaldi konplexuagoen analisira jauzia egiteko aukera emango duela. @@ Uste dugu eginiko azaleko analisia baliagarria dela azpikategorizazioaren alorra lantzen laguntzeko, hain zuzen ere, proiektu honen bigarren motibazio nagusia izan denari erantzunez. Analisiaren emaitza errepresentatzeko SGML (Standard Generalized Markup Language) baliatu dugu analisi sintaktikoa errepresentatzeko dokumentu-mota definizioa (DTD, Document Type Definition) zehaztuz. Errepresentaziomodu horrek analisia testu huts izatetik errepresentazio aberatsago batera moldatzean, ustiapena errazteko bideak irekitzen ditu. Ustiapen hori burutzeko moduetariko bat, diseinatu eta inplementatu dugun galdeketa-sistema dugu. Galdeketa-sistemaren bidez, analisietatik eskuratu nahi dugun informazioa jasotzeko eta ikerketa errazteko bidea landu dugu. Horren bidez defini daitezkeen galderek analisiaren emaitzak aztertzen lagundu digute, lorturiko emaitzak modu desberdinetara antola daitezkeela. @@ Azkenik, egindako lanen ondorioz hiru ekarpen nagusi egin ditugula azpimarratu nahi genuke: @@ 1. Hiztegiaren kodeketarako formatu estandar batez baliatuz, EH TEIko gidalerroen arabera kodetzea. @@ 2. Azaleko sintaxiaren alorra urratzea: murriztapen-gramatika landu eta EHko adibideen gainean aplikatu dugu. @@ 3. Aditzen argumentu-egitura lantzen laguntzeko metodologia jorratzea, emaitza gisa hiztegiko aditzen azaleko patroiak erdietsi

    Reusability of the Basque Dependency Treebank for building the Gold Standard of Constraint Grammar Surface Syntax

    Get PDF
    El objetivo del trabajo consiste en reutilizar el Treebank de dependencias EPECDEP (BDT) para construir el gold standard de la sintaxis superficial del euskera. El paso básico consiste en el estudio comparativo de los dos formalismos aplicados sobre el mismo corpus: el formalismo de la Gramática de Restricciones (Constraint Grammar, CG) y la Gramática de Dependencias (Dependency Grammar, DP). Como resultado de dicho estudio hemos establecido los criterios lingüísticos necesarios para derivar la funciones sintácticas en estilo CG. Dichos criterios han sido implementados y evaluados, así en el 75% de los casos se derivan automáticamente las funciones sintácticas para construir el gold standard.The aim of the work is to profit the existing dependency Treebank EPEC-DEP (BDT) in order to build the gold standard for the surface syntax of Basque. As basic step, we make a comparative study of both formalisms, the Constraint Grammar formalism (CG) and the Dependency Grammar (DP) that have been applied on the corpus. As a result, we establish some criteria that will serve us to derive automatically the CG style syntactic function tags. Those criteria were implemented and evaluated; as a result, in the 75 % of the cases we are able to derive the CG style syntactic function tags for building the gold standard.Este trabajo ha sido financiado por el Gobierno Vasco (IT344-10)

    Análisis de secuencias N-N: un enfoque con gramáticas basadas en reglas

    Get PDF
    El artículo presenta el trabajo para mejorar el parser superficial del euskara. El objetivo práctico del mismo, consiste en enriquecer dicho parser con la información lingüística pertinente para analizar secuencias que contienen un elemento nominal que instancia por medio de diversas estructuras sintácticas algún tipo de cuantificación de un segundo N.This paper reports on work in progress to improve shallow parsing for Basque. The practical goal of our work is to enrich the information of the shallow parser with linguistic information for analyzing sequences containing an N that instantiates a kind of quantification of the other nominal constituent, by means of some different syntactical structures.This research is supported by grants no. HUM2004-05658-C02-01, UPV 1/UPV 00113.310-H-15921/2004 and EHU06/16, HUM2004-05658-C02-01 and EHU06/16. Besides, acknowledgments to the support of the Government of the Basque Country to IXA group

    Birformulatzaile laburbiltzaileen balio diskurtsiboen azterketa corpusean oinarrituta

    No full text

    Análisis automático del diccionario Hauta-Lanerako Euskal Hiztegia

    No full text
    El propósito de la siguiente comunicación es el de dar a conocer la labor desarrollada en el proceso de análisis del Hauta-Lanerako Euskal Hiztegia (HLEH) [Sarasola 84/95]. Para ello se describirán las características más importantes del mismo, para pasar a continuación a detallar las fases concernientes a la preparación del diccionario fuente en MRD y la confección de la gramática que refleje la estructura del mismo

    Semiautomatic Study of Handwriting Development in Basque Children at Primary School

    No full text
    The aim of this case study is to understand the connections between process factors of writing, such as bursts and fluency/speed, and product factors related to linguistic complexity and the quality of the final text. With this purpose, we conducted a (pilot) study with 13 developing writers in Basque from the second year of Primary School in two scholar periods to compare their progress in writing. The analysis of the process factors was based on bursts’ measures and pauses duration described using HandSpy, a tool that allows one to describe and observe the process of handwriting in a digital platform. Thus, the HandSpy tool automatically analyzed the bursts and pauses, but the linguistic analysis of the texts produced were manually coded by aggregating a linguistic classification at both sentence- and wordlevels while taking into account all the letter revisions that the child attempted. A cursory analysis of our data points to a link between the length of the bursts and the child's fluency, on the one hand, and the complexity /quality of the text produced, on the other. The overall study is a valuable contribution for education practitioners to encourage them to consider not only the handwriting product, the final text, but also the entire process of writing to address the needs of a wide diversity of learners and design new forms of feedback when teaching writing.The Provincial Council of Gipuzkoa, Etorkizuna Eraikiz Initiative. The Basque Government (IXA excellence research group IT1343-19). COST Action CA19102 project ‘Language in the Human-Machine Era' (LITHME

    Una revisión sistemática del impacto cognitivo de las modalidades de medios digitales en la comprensión lectora en L2

    No full text
    Esta revisión ha contado con el apoyo del proyecto COST Action CA19102 “El lenguaje en la era hombre-máquina” [Language in the Human-Machine Era] (LITHME), así como del proyecto Excellence 2022, dirigido por la Universidad de Hradec Kralove (República Checa).The current affordances of ICT have – in the past decade – dramatically increased the exposure of students to the number of various digital texts they use or are exposed to when acquiring an additional language. The print media has been supplemented or even sometimes substituted by the digital media at all levels of education, including higher education and university curricula. Various research has recently been conducted into the role of digital media in L2 acquisition and this paper attempts to systematically summarize the results of this research, with a specific focus on reading comprehension. This systematic review follows the PRISMA guidelines (Page et al., 2021). The 2010-2021 studies from Scopus and the Web of Science dealing with the topic have been collected and analyzed. Only experimental studies in peer-reviewed research journal papers have been included in the search. By applying this protocol review, 15 papers were selected for a synthesis. The results were classified as: (a) effect of media on reading comprehension, (b) pedagogical implications, (c) future research directions. The study concludes with some discussion and implications for researchers and practitioners from two perspectives: basic or fundamental Second Language Acquisition (FSLA) and instructed Second Language acquisition (ISLA).En la última década, las posibilidades que ofrecen hoy las TIC han aumentado drásticamente la exposición de los estudiantes a diversos textos digitales que utilizan o a los que están expuestos cuando adquieren una lengua extranjera. Los medios impresos se han visto complementados o incluso a veces sustituidos por los medios digitales en todos los niveles de la enseñanza, incluidos los planes de estudio de la enseñanza superior y universitaria. En los últimos tiempos se han llevado a cabo diversas investigaciones sobre el papel de los medios digitales en la adquisición de L2 y este artículo pretende resumir sistemáticamente los resultados de dichas investigaciones, centrándose específicamente en la comprensión lectora. Esta revisión sistemática sigue las directrices PRISMA (Page et al., 2021). Se han recopilado y analizado los estudios de 2010-2021 de Scopus y de Web of Science que tratan el tema. Sólo se han incluido en la búsqueda estudios experimentales en artículos de revistas de investigación revisados por pares. Aplicando este protocolo de revisión, se seleccionaron 15 trabajos para realizar una síntesis. Los resultados se clasificaron en: (a) efecto de los medios en la comprensión lectora, (b) implicaciones pedagógicas, (c) futuras direcciones de investigación. El estudio concluye con algunas discusiones e implicaciones para investigadores y profesionales desde dos perspectivas: la adquisición básica o fundamental de segundas lenguas (FSLA, en sus siglas en inglés) y la adquisición instruida de segundas lenguas (ISLA, en sus siglas inglés).COST Action CA19102Universidad de Hradec Kralove (República Checa
    corecore