14 research outputs found
Funtzio sintaktikoen gold estandarra eskuz etiketatzeko gidalerroak
[EN]In this report we present the tags we use when annotating the gold standard of syntactic functions and the decisions taken during its annotation. The gold standard is a necessary resource to evaluate the rulebased surface syntactic parser (the one based on the Constraint Grammar formalism), and, moreover, it can be useful to develop and evaluate statistical parsers. The tags we are presenting here follow the Constraint Grammar (CG) formalism (Karlsson et al., 1995). In fact, last experiments show that good results have been obtained when parsing with CG (Karlsson et al., 1995; Samuelsson and Voutilainen,1997; Tapanainen and Järvinen, 1997; Bick, 2000).[EU]Txosten honetan funtzio sintaktikoen gold estandarra etiketatzean erabiltzen diren funtzio-etiketak eta horiek aplikatzeko hartutako erabakiak azalduko ditugu. Gold estandarra funtsezkoa dugu erregeletan oinarritutako azaleko analizatzaile sintaktikoa ebaluatzeko eta, halaber, baliagarri izan daiteke analizatzaile estatistikoak garatzeko eta ebaluatzeko ere. Funtzio-etiketa horiek Constraint Grammar(CG) eredua jarraitzen dute (Karlsson et al., 1995). Izan ere, azken urteetan analisi sintaktiko automatikoan emaitza onak lortu dira CG ereduaren aplikazioaren bidez (Karlsson et al., 1995; Samuelsson and Voutilainen, 1997; Tapanainen and Järvinen, 1997; Bick, 2000).
Halaber, testuak anotatzeko lana oso handia dela kontuan izanik, Voutilainen-ek (2012) anotaziorako metodologia erdiautomatikoak proposatzen ditu. Ildo horretatik, etiketatze-lan hori arintze aldera,baliabide erdiautomatikoak ere jorratu ditugu (Arriola et al., 2013), baina geratzen den anbiguotasuna ebazteko (% 25) eskuzko etiketatzea egingo da. Hain zuzen ere, txosten honetan eskuzko lan hori aurrera eramateko gidalerroak definitu ditugu. Gidalerroetan analisietan erabiltzen diren laburtzapenak jasotzeaz gain, funtzio-etiketa horiek esleitzeko gidalerroak zehaztuko ditugu
Construcción de un Gold Standard para la Sintaxis Superficial del Euskera
En este artículo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.PROSA-MED: Procesamiento semántico textual avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes Médicos (TIN2016-77820-C3-1-R)
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
Euskal Hiztegia-ren azterketa eta egituratzea ezagutza lexikalaren eskuratze automatikoari begira: aditz-adibideen analisia murriztapen-gramatika baliatuz, azpikategorizazioaren bidean
Tesi-proiektu honek bi motibazio nagusi izan ditu: (1) Euskal Hiztegia (EH) berrerabiltzea, Euskararen Datu-Base Lexikalaren (EDBL) aberasketarako eta (2) aditzen argumentu-egitura lantzen laguntzeko bideak eskaintzea.Lehendabizi, EHren egitura definitzen duen gramatika zehaztu dugu eta hiztegia bera analizatu. Lan horiek gauzatzean lexikografoak hiztegia egiterakoan buruan duen gramatika azaleratu dugu. Eta, gainera, hiztegiko artikuluak eta artikulu bakoitzaren atalak egituratzeko testu-prozesadore batez baliatzeak dakartzan gabeziak eta akatsak nabarmendu ditugu. Horrek guztiak erakusten du formalizazio zorrotzago baten premia nabaria dela. @@ Horrez gain, hiztegia TEIko (Text Encoding Initiative) gidalerroen arabera kodetu dugu. Hau da, formatu estandar batez baliatu gara hiztegia errepresentatzeko. Eta, hiztegigintzari begira, aurkeztu dugun TEI ekimeneko gidalerroez baliatzea izan daiteke hiztegien kontsistentzia ziurtatzeko jarrai daitekeen bideetariko bat. Adibidez, TEIko gidalerroak, egokiak dira oso artikuluak idazten diharduen lexikografoarentzat, datuen zuzentasuna, osotasuna eta abar egiaztatzearen aldetik. @@ Bestalde, TEIra egokitze horrek hiztegiaren berrerabilgarritasunari irekitzen dizkio ateak. Hau da, batetik EDBLren aberasketarako informazioa jartzen du eskuragarri, eta, bestetik, EH aztergai edo lantresna duen edonorentzat baliagarri izango da. Aipatu gabe hiztegiaren etorkizuneko eguneratzeetarako eskaintzen dituen abantailak. @@ Hasieran aipatu dugun analisi horri esker, interesgarri deritzogun informazio-eremuak aztertu ahal izango ditugu ordenagailu bidez, gure kasuan aditzen adibideak izan ditugu aztergai. Azterketa horren helburu nagusia adibide horietan aditz bakoitzaren inguruan azaltzen diren sintagmak eta aditz-kateak jasotzea izan da. Eta helburu horrek eraman gaitu adibideen azaleko analisi sintaktikoa egitera. @@ EHko aditzen adibideak analizatu ditugu euskararako landu dugun Murriztapengramatika baliatuz. Adibideok analizatzeko euskararen sintaxiaren parte bat konputazionalki deskribatu eta erabili dugu. Eta ondorioz, sailkapen bat (etorkizuneko azterketa sakonagoen euskarri nahi litzatekeena) erdietsi dugu, aditzen argumentuegiturari erreparatuz. @@ Landu dugun sintaxiaren partea azaleko sintaxiaren arloan kokatzen da. Azaleko sintaxiak berebiziko garrantzia du adibideetatik jaso den informazioaren zuzentasunerako. Izan ere, aditz bakoitzaren argumentu posible gisa jasotzen direnak, azaleko sintaxiaren bidez ezagutzen diren sintagmak eta aditz-kateak baititugu. @@ Ez dugu zalantzarik esateko aditzei buruzko azpikategorizazioa zehazteak sintagma edota aditz-kateen analisitik esaldi konplexuagoen analisira jauzia egiteko aukera emango duela. @@ Uste dugu eginiko azaleko analisia baliagarria dela azpikategorizazioaren alorra lantzen laguntzeko, hain zuzen ere, proiektu honen bigarren motibazio nagusia izan denari erantzunez. Analisiaren emaitza errepresentatzeko SGML (Standard Generalized Markup Language) baliatu dugu analisi sintaktikoa errepresentatzeko dokumentu-mota definizioa (DTD, Document Type Definition) zehaztuz. Errepresentaziomodu horrek analisia testu huts izatetik errepresentazio aberatsago batera moldatzean, ustiapena errazteko bideak irekitzen ditu. Ustiapen hori burutzeko moduetariko bat, diseinatu eta inplementatu dugun galdeketa-sistema dugu. Galdeketa-sistemaren bidez, analisietatik eskuratu nahi dugun informazioa jasotzeko eta ikerketa errazteko bidea landu dugu. Horren bidez defini daitezkeen galderek analisiaren emaitzak aztertzen lagundu digute, lorturiko emaitzak modu desberdinetara antola daitezkeela. @@ Azkenik, egindako lanen ondorioz hiru ekarpen nagusi egin ditugula azpimarratu nahi genuke: @@ 1. Hiztegiaren kodeketarako formatu estandar batez baliatuz, EH TEIko gidalerroen arabera kodetzea. @@ 2. Azaleko sintaxiaren alorra urratzea: murriztapen-gramatika landu eta EHko adibideen gainean aplikatu dugu. @@ 3. Aditzen argumentu-egitura lantzen laguntzeko metodologia jorratzea, emaitza gisa hiztegiko aditzen azaleko patroiak erdietsi
Reusability of the Basque Dependency Treebank for building the Gold Standard of Constraint Grammar Surface Syntax
El objetivo del trabajo consiste en reutilizar el Treebank de dependencias EPECDEP (BDT) para construir el gold standard de la sintaxis superficial del euskera. El paso básico consiste en el estudio comparativo de los dos formalismos aplicados sobre el mismo corpus: el formalismo de la Gramática de Restricciones (Constraint Grammar, CG) y la Gramática de Dependencias (Dependency Grammar, DP). Como resultado de dicho estudio hemos establecido los criterios lingüísticos necesarios para derivar la funciones sintácticas en estilo CG. Dichos criterios han sido implementados y evaluados, así en el 75% de los casos se derivan automáticamente las funciones sintácticas para construir el gold standard.The aim of the work is to profit the existing dependency Treebank EPEC-DEP (BDT) in order to build the gold standard for the surface syntax of Basque. As basic step, we make a comparative study of both formalisms, the Constraint Grammar formalism (CG) and the Dependency Grammar (DP) that have been applied on the corpus. As a result, we establish some criteria that will serve us to derive automatically the CG style syntactic function tags. Those criteria were implemented and evaluated; as a result, in the 75 % of the cases we are able to derive the CG style syntactic function tags for building the gold standard.Este trabajo ha sido financiado por el Gobierno Vasco (IT344-10)
Análisis de secuencias N-N: un enfoque con gramáticas basadas en reglas
El artículo presenta el trabajo para mejorar el parser superficial del euskara. El
objetivo práctico del mismo, consiste en enriquecer dicho parser con la información lingüística
pertinente para analizar secuencias que contienen un elemento nominal que instancia por medio
de diversas estructuras sintácticas algún tipo de cuantificación de un segundo N.This paper reports on work in progress to improve shallow parsing for Basque. The
practical goal of our work is to enrich the information of the shallow parser with linguistic
information for analyzing sequences containing an N that instantiates a kind of quantification of
the other nominal constituent, by means of some different syntactical structures.This research is supported by grants no. HUM2004-05658-C02-01, UPV 1/UPV 00113.310-H-15921/2004
and EHU06/16, HUM2004-05658-C02-01 and EHU06/16. Besides, acknowledgments to the support of the
Government of the Basque Country to IXA group
Análisis automático del diccionario Hauta-Lanerako Euskal Hiztegia
El propósito de la siguiente comunicación es el de dar a conocer la labor desarrollada en el proceso de análisis del Hauta-Lanerako Euskal Hiztegia (HLEH) [Sarasola 84/95]. Para ello se describirán las características más importantes del mismo, para pasar a continuación a detallar las fases concernientes a la preparación del diccionario fuente en MRD y la confección de la gramática que refleje la estructura del mismo
Semiautomatic Study of Handwriting Development in Basque Children at Primary School
The aim of this case study is to understand the connections between process factors of
writing, such as bursts and fluency/speed, and product factors related to linguistic complexity
and the quality of the final text. With this purpose, we conducted a (pilot) study with 13
developing writers in Basque from the second year of Primary School in two scholar periods
to compare their progress in writing. The analysis of the process factors was based on bursts’
measures and pauses duration described using HandSpy, a tool that allows one to describe
and observe the process of handwriting in a digital platform. Thus, the HandSpy tool
automatically analyzed the bursts and pauses, but the linguistic analysis of the texts produced
were manually coded by aggregating a linguistic classification at both sentence- and wordlevels while taking into account all the letter revisions that the child attempted. A cursory
analysis of our data points to a link between the length of the bursts and the child's fluency,
on the one hand, and the complexity /quality of the text produced, on the other. The overall
study is a valuable contribution for education practitioners to encourage them to consider not
only the handwriting product, the final text, but also the entire process of writing to address
the needs of a wide diversity of learners and design new forms of feedback when teaching
writing.The Provincial Council of Gipuzkoa, Etorkizuna Eraikiz Initiative.
The Basque Government (IXA excellence research group IT1343-19).
COST Action CA19102 project ‘Language in the Human-Machine Era' (LITHME
Una revisión sistemática del impacto cognitivo de las modalidades de medios digitales en la comprensión lectora en L2
Esta revisión ha contado con el apoyo
del proyecto COST Action CA19102 “El
lenguaje en la era hombre-máquina” [Language
in the Human-Machine Era] (LITHME), así
como del proyecto Excellence 2022, dirigido por
la Universidad de Hradec Kralove (República
Checa).The current affordances of ICT have – in the past decade – dramatically increased the exposure of students to the number
of various digital texts they use or are exposed to when acquiring an additional language. The print media has been
supplemented or even sometimes substituted by the digital media at all levels of education, including higher education
and university curricula. Various research has recently been conducted into the role of digital media in L2 acquisition and
this paper attempts to systematically summarize the results of this research, with a specific focus on reading
comprehension. This systematic review follows the PRISMA guidelines (Page et al., 2021). The 2010-2021 studies from
Scopus and the Web of Science dealing with the topic have been collected and analyzed. Only experimental studies in
peer-reviewed research journal papers have been included in the search. By applying this protocol review, 15 papers were
selected for a synthesis. The results were classified as: (a) effect of media on reading comprehension, (b) pedagogical
implications, (c) future research directions. The study concludes with some discussion and implications for researchers
and practitioners from two perspectives: basic or fundamental Second Language Acquisition (FSLA) and instructed
Second Language acquisition (ISLA).En la última década, las posibilidades que ofrecen hoy las TIC han aumentado drásticamente la exposición de los
estudiantes a diversos textos digitales que utilizan o a los que están expuestos cuando adquieren una lengua extranjera.
Los medios impresos se han visto complementados o incluso a veces sustituidos por los medios digitales en todos los
niveles de la enseñanza, incluidos los planes de estudio de la enseñanza superior y universitaria. En los últimos tiempos
se han llevado a cabo diversas investigaciones sobre el papel de los medios digitales en la adquisición de L2 y este artículo
pretende resumir sistemáticamente los resultados de dichas investigaciones, centrándose específicamente en la
comprensión lectora. Esta revisión sistemática sigue las directrices PRISMA (Page et al., 2021). Se han recopilado y
analizado los estudios de 2010-2021 de Scopus y de Web of Science que tratan el tema. Sólo se han incluido en la
búsqueda estudios experimentales en artículos de revistas de investigación revisados por pares. Aplicando este protocolo
de revisión, se seleccionaron 15 trabajos para realizar una síntesis. Los resultados se clasificaron en: (a) efecto de los
medios en la comprensión lectora, (b) implicaciones pedagógicas, (c) futuras direcciones de investigación. El estudio
concluye con algunas discusiones e implicaciones para investigadores y profesionales desde dos perspectivas: la
adquisición básica o fundamental de segundas lenguas (FSLA, en sus siglas en inglés) y la adquisición instruida de
segundas lenguas (ISLA, en sus siglas inglés).COST Action CA19102Universidad de Hradec Kralove (República
Checa