15 research outputs found

    Irish treebanking and parsing: a preliminary evaluation

    Get PDF
    Language resources are essential for linguistic research and the development of NLP applications. Low- density languages, such as Irish, therefore lack significant research in this area. This paper describes the early stages in the development of new language resources for Irish – namely the first Irish dependency treebank and the first Irish statistical dependency parser. We present the methodology behind building our new treebank and the steps we take to leverage upon the few existing resources. We discuss language specific choices made when defining our dependency labelling scheme, and describe interesting Irish language characteristics such as prepositional attachment, copula and clefting. We manually develop a small treebank of 300 sentences based on an existing POS-tagged corpus and report an inter-annotator agreement of 0.7902. We train MaltParser to achieve preliminary parsing results for Irish and describe a bootstrapping approach for further stages of development

    Readability assessment and automatic text simplification, the analysis of basque complex structures

    Get PDF
    301 p.(eus); 217 (eng)Tesi-lan honetan, euskarazko testuen konplexutasuna eta sinplifikazioa automatikoki aztertzeko lehen urratsak egin ditugu. Testuen konplexutasuna aztertzeko, testuen sinplifikazio automatikoa helburu duten beste hizkuntzetako lanetan eta euskarazko corpusetan egindako azterketa linguistikoan oinarritu gara. Azterketa horietatik testuak automatikoki sinplifikatzeko oinarri linguistikoak ezarri ditugu. Konplexutasuna automatikoki analizatzeko, ezaugarri linguistikoetan eta ikasketa automatikoko tekniketan oinarrituta ErreXail sistema sortu eta inplementatu dugu.Horretaz gain, testuak automatikoki sinplifikatuko dituen Euskarazko Testuen Sinplifikatzailea (EuTS) sistemaren arkitektura diseinatu dugu, sistemaren modulu bakoitzean egingo diren eragiketak definituz eta, kasu-azterketa bezala,informazio biografikoa duten egitura parentetikoak sinplifikatuko dituen Biografix tresna eleaniztuna inplementatuz.Amaitzeko, Euskarazko Testu Sinplifikatuen Corpusa (ETSC) corpusa osatu dugu. Corpus hau baliatu dugu gure sinplifikaziorako azterketetatik ateratako hurbilpena beste batzuekin erkatzeko. Konparazio horiek egiteko, etiketatze-eskema bat ere definitu dugu

    Korreferentzia-ebazpena euskarazko testuetan.

    Get PDF
    203 p.Gaur egun, korreferentzia-ebazpen automatikoa gakotzat har dezakegu testuak ulertuahal izateko; ondorioz, behar-beharrezkoa da diskurtsoaren ulerkuntza sakona eskatzenduten Lengoaia Naturalaren Prozesamenduko (NLP) hainbat atazatan.Testu bateko bi espresio testualek objektu berbera adierazi edo erreferentziatzendutenean, bi espresio horien artean korreferentzia-erlazio bat dagoela esan ohi da. Testubatean ager daitezkeen espresio testual horien arteko korreferentzia-erlazioak ebazteahelburu duen atazari korreferentzia-ebazpena deritzo.Tesi-lan hau, hizkuntzalaritza konputazionalaren arloan kokatzen da eta euskarazidatzitako testuen korreferentzia-ebazpen automatikoa du helburu, zehazkiago esanda,euskarazko korreferentzia-ebazpen automatikoa gauzatzeko dagoen baliabide eta tresnenhutsunea betetzea du helburu.Tesi-lan honetan, lehenik euskarazko testuetan ager daitezkeen espresio testualakautomatikoki identifikatzeko garatu dugun erregelatan oinarritutako tresna azaltzen da.Ondoren, Stanfordeko unibertsitatean ingeleserako diseinatu den erregelatanoinarritutako korreferentzia-ebazpenerako sistema euskararen ezaugarrietara nolaegokitu den eta ezagutza-base semantikoak erabiliz nola hobetu dugun aurkezten da.Bukatzeko, ikasketa automatikoan oinarritzen den BART korreferentzia-ebazpenerakosistema euskarara egokitzeko eta hobetzeko egindako lana azaltzen da

    Estrategias facilitadoras del procesamiento en lenguas OV-VO. Estudio comparativo de corpus.

    Get PDF
    151 p.El objetivo de esta tesis doctoral es proporcionar evidencia de que existe una relación entre la frecuencia de uso de determinadas estructuras gramaticales y el procesamiento del lenguaje. En especial, considerar la hipótesis de que la facilitación del lenguaje condiciona las preferencias con las que lenguas VO-OV recurren con mayor frecuencia a determinados fenómenos gramaticales. Para tal fin, he llevado a cabo varios estudios de corpus como metodología de investigación. Encuentro que el orden básico de palabras de la oración se correlaciona con la frecuencia de uso de ciertas características gramaticales de las lenguas: en la frecuencia de uso de nombres y verbos, el uso de argumentos omitidos y argumentos postverbales y el uso de argumentos omitidos para reducir interferencias de animacidad. En concreto proporciono evidencia en favor de que las lenguas OV tienden a reducir el nújero de argumentos expresados en comparación a las lenguas VO. Esto constituye una fuerte evidencia de que las lenguas tienden a minimizar el coste de procesamiento, recurriendo al uso de ciertas estructuras gramaticales

    Irish dependency treebanking and parsing

    Get PDF
    Despite enjoying the status of an official EU language, Irish is considered a minority language. As with most minority languages, it is a `low-density' language, which means it lacks important linguistic and Natural Language Processing (NLP) resources. Relative to better-resourced languages such as English or French, for example, little research has been carried out on computational analysis or processing of Irish. Parsing is the method of analysing the linguistic structure of text, and it is an invaluable processing step that is required for many different types of language technology applications. As a verb-initial language, Irish has several features that are uncharacteristic of many languages previously studied in parsing research. Our work broadens the application of NLP methods to less studied language structures and provides a basis on which future work in Irish NLP is possible. We report on the development of a dependency treebank that serves as training data for the first full Irish dependency parser. We discuss the linguistic structures of Irish, and the motivation behind the design of our annotation scheme. Our work also examines various methods of employing semi-automated approaches to treebank development. We overcome the relatively small pool of linguistic and technological resources available for the Irish language with these approaches, and show that even in early stages of development, parsing results for Irish are promising. What counts as a sufficient number of trees for training a parser varies according to languages. Through empirical methods, we explore the impact our treebank's size and content has on parsing accuracy for Irish. We also discuss our work in crosslingual studies through converting our treebank to a universal annotation scheme. Finally we extend our Irish NLP work to the unstructured user-generated text of Irish tweets. We report on the creation of a POS-tagged corpus of Irish tweets and the training of statistical POS-tagging models. We show how existing resources can be leveraged for this domain-adapted resource development

    Tune your brown clustering, please

    Get PDF
    Brown clustering, an unsupervised hierarchical clustering technique based on ngram mutual information, has proven useful in many NLP applications. However, most uses of Brown clustering employ the same default configuration; the appropriateness of this configuration has gone predominantly unexplored. Accordingly, we present information for practitioners on the behaviour of Brown clustering in order to assist hyper-parametre tuning, in the form of a theoretical model of Brown clustering utility. This model is then evaluated empirically in two sequence labelling tasks over two text types. We explore the dynamic between the input corpus size, chosen number of classes, and quality of the resulting clusters, which has an impact for any approach using Brown clustering. In every scenario that we examine, our results reveal that the values most commonly used for the clustering are sub-optimal

    Gramatika jaietan Patxi Goenagaren omenez

    Get PDF
    Aurkibidea / Índice / Index:- Hitzaurrea.- Curriculum vitae Patxi Goenaga Mendizabal.- Axun Aierbe Mendizabal: Euskal estilo-liburuetako gramatika-arloko itzulpengomendioez.- Gontzal Aldai: Patxi Goenagari 30 mila esker.- Izaskun Aldezabal Roteta: Aditz-azpikategorizazioa.- Iñaki Amundarain: Behar izan + partizipioa: geroaldiko balioaz.- M. J. Aranzabe, J. M. Arriola and Arantza Diaz de Ilarraza: Theoretical and.- methodological issues of tagging noun phrases structures following dependency grammar formalism.- Xabier Artiagoitia: Some arguments for complement-head order in Basque DPs.- Miren Azkarate Villar: Gertaera- eta emaitza-izenak.- Andoni Barreña, Marijose Ezeizabarrena eta Iñaki García: Entzundako hizkuntzaren eragina haur euskaldun txikien gramatika-garapenean.- Gidor Bilbao: Claude Maugerren eskuliburua Urteren eredu.- Klara Ceberio, Itziar Aduriz, Arantza Diaz de Ilarraza eta Inés M. Garcia Azkoaga: Erreferentziakidetasunaren azterketa eta anotazioa euskarazko corpus batean.- Karlos Cid Abasolo: Gramatika Atxagaren literatur bideetan (I).- Maia Duguine eta Aritz Irurtzun: Ohar batzuk nafar-lapurterazko galdera eta galdegai indartuez.- Luis Eguren: Clíticos léxicos y elipsis nominal.- José Luis Erdozia: Burundako hizkera, Arabako ekialdekoaren hondar euskalkia.- Maitena Etxebarria Arostegui: Análisis y evaluación de la vitalidad sociolingüística del euskera en la C.A.V.- Urtzi Etxeberria eta Ricardo Etxepare: Izen eta gertakarien gaineko kuantifikazioa.- Ricardo Etxepare and Myriam Uribe-Etxebarria: On negation and focus in Spanish and Basque.- Juan Garzia: Bada arazorik etik arazoak daude raino: existentzia-predikazioa eta inespezifikotasuna.- Ricardo Gómez: Euskal gramatikagintza zaharraren historia laburra: xvii-xviii.- mendeak.- Lluïsa Gràcia y Berta Crous: Sobre algunos predicados con fer y tenir en catalán: fer un infart vs. tenir un infart.- Bill Haddican and Paul Foulkes: Mid Vowel Raising and Second Vowel Deletion in Oiartzun Basque.- José Ignacio Hualde eta Oihana Lujanbio: Goizuetako azentuera.- Orreaga Ibarra Murillo: Sobre estrategias discursivas del lenguaje de los jóvenes vascoparlantes: aspectos pragmáticos y discursivos (conectores, marcadores).- Itziar Idiazabal: Gramatika eta hiz kun tzaren didaktika.- Itziar Laka: Senezkotasuna hizkuntzan: Gramatika Unibertsalaren inguruko hausnarketa.- Joseba A. Lakarra: Aitzineuskararen gramatikarantz (malkar eta osinetan zehar).- Mikel Lersundi, Igone Zabala eta Agurtzane Elordui: Aditzetiko izenen emankortasunaren azterketa morfopragmatikoa euskarazko corpus orokor eta berezituetan.- Ángel López García: Sobre una propiedad superestructural de la lengua vasca.- Juan Karlos López-Mugartza Iriarte: Erronkaribarko oikonimia, mitoak eta elezaharra.- Jesus Mari Makazaga Eizagirre: Ahozko jarduna komunikazioaren lagungarri: ekarpen bat ahozkoaren estrategia komunikatiboez.- Roger Martin and Juan Uriagereka: Competence for preferences.- Juan Carlos Moreno Cabrera: Alokutibotasunari buruzko zenbait hausnarketa hizkuntzalaritza orokorraren ikuspegitik.- Céline Mounole: Sintaxi diakronikoa eta aditz multzoaren garapena: Inperfektibozko perifrasiaren sorreraz.- José Antonio Mujika: Adlatiboaren berbalizazioaz.- Juan Carlos Odriozola Pereira: Quantifying compounds.- Miren Lourdes Oñederra: Izan edo ez izan: Fonologiak fonetikari ordaintzen diona afrikatuekin.- Javier Ormazabal: Kausatibo aldizkatzeak euskaraz eta inguruko hizkuntzetan.- B. Oyharçabal: Naturalist conceptions about agglutinative languages: Vinson’s ideas about Basque and linguistic Darwinism.- Georges Rebuschi: On older Northern Basque exclamatives in ala.- Milan Rezac: The forms of dative displacement: From Basauri to Itelmen.- Patxi Salaberri: Satznamen direlakoen inguruan. Erlatibozko perpausetan jatorri duten toponimoak aztergai.- Pello Salaburu: Hiztegi kontuak Baztan aldean.- Itziar San Martín: Defective domains in Basque nominalized dependants.- Ibon Sarasola: Iparraldeko hiztegigintza Larramendiren paradigmaren garaian.- Esther Torrego: Revisiting Romance SE.- Itziar Túrrez: Ideas acerca de la lengua de Tomás Tamayo de Vargas: una lectura de sus Anotaciones a Garcilaso.- Blanca Urgell: Berriemaileen gaitasuna eta eredu lexikografikoaren eragina Landucciren hiztegian.- Vidal Valmala: Topic, focus and quantifier float.- Koldo Zuazo: Euskara (batu)aren historiarako.- Juan Joxe Zubiri eta Patxi Salaberri: Zenbait irain-hitzen erabilera. Deklinabide-kasu hautsiak

    From dependencies to constituents in the reference corpus for the processing of Basque (EPEC)

    Get PDF
    En este artículo se expone el proceso adoptado para la transformación de un treebank anotado con dependencias a un treebank anotado con constituyentes. En este trabajo se toma en cuenta primeramente las características de ambos formalismos, para luego proponer las correspondientes equivalencias lingüísticas. Al final se explica brevemente el desarrollo, mediante refinamientos de las equivalencias lingüísticas, llevado a cabo. La evaluación del trabajo realizado es satisfactoria ya que el resultado es que en este momento es posible explotar y trabajar con corpus anotados en los dos formalismos normalmente usados en la tarea de etiquetado sintáctico. Si las equivalencias lingüísticas son iguales, la conversión es expansible a otros corpus; de lo contrario, habría que volver a definir nuevas equivalencias.In this paper the process for turning a dependency-based corpus to a constituent- based one is explained. For this purpose, first both the Dependency and the Constituent formalism are analized and then the corresponding equivalences of linguistic phenomena are treated. This process has had different phases in which the linguistic equivalences have been improved. Finally, the evaluation process is briefly explained and, as a result, we get corpora annotated in the two different formalisms usually proposed for syntactic tagging. If the linguistic equivalences are the same, the conversion process could be expanded to other corpus; otherwise, new equivalences should be defined
    corecore