85 research outputs found
Understanding the structure and meaning of Finnish texts: From corpus creation to deep language modelling
Natural Language Processing (NLP) is a cross-disciplinary field combining elements of computer science, artificial intelligence, and linguistics, with the objective of developing means for computational analysis, understanding or generation of human language. The primary aim of this thesis is to advance natural language processing in Finnish by providing more resources and investigating the most effective machine learning based practices for their use. The thesis focuses on NLP topics related to understanding the structure and meaning of written language, mainly concentrating on structural analysis (syntactic parsing) as well as exploring the semantic equivalence of statements that vary in their surface realization (paraphrase modelling). While the new resources presented in the thesis are developed for Finnish, most of the methodological contributions are language-agnostic, and the accompanying papers demonstrate the application and evaluation of these methods across multiple languages.
The first set of contributions of this thesis revolve around the development of a state-of-the-art Finnish dependency parsing pipeline. Firstly, the necessary Finnish training data was converted to the Universal Dependencies scheme, integrating Finnish into this important treebank collection and establishing the foundations for Finnish UD parsing. Secondly, a novel word lemmatization method based on deep neural networks is introduced and assessed across a diverse set of over 50 languages. And finally, the overall dependency parsing pipeline is evaluated on a large number of languages, securing top ranks in two competitive shared tasks focused on multilingual dependency parsing. The overall outcome of this line of research is a parsing pipeline reaching state-of-the-art accuracy in Finnish dependency parsing, the parsing numbers obtained with the latest pre-trained language models approaching (at least near) human-level performance.
The achievement of large language models in the area of dependency parsing— as well as in many other structured prediction tasks— brings up the hope of the large pre-trained language models genuinely comprehending language, rather than merely relying on simple surface cues. However, datasets designed to measure semantic comprehension in Finnish have been non-existent, or very scarce at the best. To address this limitation, and to reflect the general change of emphasis in the field towards task more semantic in nature, the second part of the thesis shifts its focus to language understanding through an exploration of paraphrase modelling. The second contribution of the thesis is the creation of a novel, large-scale, manually annotated corpus of Finnish paraphrases. A unique aspect of this corpus is that its examples have been manually extracted from two related text documents, with the objective of obtaining non-trivial paraphrase pairs valuable for training and evaluating various language understanding models on paraphrasing. We show that manual paraphrase extraction can yield a corpus featuring pairs that are both notably longer and less lexically overlapping than those produced through automated candidate selection, the current prevailing practice in paraphrase corpus construction. Another distinctive feature in the corpus is that the paraphrases are identified and distributed within their document context, allowing for richer modelling and novel tasks to be defined
Salaiset pakkokeinot ja ylimääräisen tiedon hyödynnettävyys näyttönä rikosasiassa
Tutkielma käsittelee tiettyjen salaisten pakkokeinojen (telekuuntelu, televalvonta, tukiasematietojen hankkiminen ja tekninen tarkkailu) käytön yhteydessä syntynyttä ylimääräistä tietoa ja sen hyödynnettävyyttä näyttönä esitutkinnan ja syyteharkinnan jälkeisessä oikeudenkäynnissä. Uudet esitutkintaa sääntelevät lait tulivat voimaan vuonna 2014, jolloin pakkokeinolakiin lisättiin ylimääräisen tiedon määritelmää sekä sen käyttöä koskevat säännökset.
Aiemmin ylimääräinen tieto oli vapaasti hyödynnettävissä vapaan todistusteorian pohjalta, samalla tapaa kuin mikä tahansa muu poliisin tietoon tullut tieto. Käyttöä rajoitti vain laissa säädetty säännös ylimääräisen tiedon hävittämisestä. Vapaaseen todisteluun perustuvasta vapaasta hyödynnettävyydestä on sittemmin siirrytty tilanteeseen, jossa ylimääräisen tiedon käyttäminen on lain perusteella sallittua vain, jos salaista pakkokeinoa olisi saatu käyttää sen pakkokeinon yhteydessä, millä tieto saatiin taikka kyse on säännöksessä mainitusta riittävän vakavasta rikoksesta.
Oikeudenkäymiskaaren 17 luvun todistelua koskeva uudistus tuli voimaan vuonna 2016, jolloin lakiin lisättiin uusi säännös todistelussa sovellettavasta hyödyntämiskiellosta. Sen kolmas momentti sisältää uudenlaisen yleissäännöksen todisteiden hyödyntämiskiellosta, joka on mahdollistanut myös lainvastaisesti hankitun todisteen hyödyntämisen, mikäli vain varmistetaan, ettei hyödyntäminen vaaranna oikeudenmukaista oikeudenkäyntiä.
Tämän tutkielman tarkoituksena on avata ylimääräisen tiedon hyödyntämisen rajanvetoa sekä selvittää laajensiko oikeudenkäymiskaaren uudistus jo ennestään tulkinnanvaraista ylimääräisen tiedon hyödyntämistä. Tutkimuksen lähteinä on käytetty ensisijaisesti voimassa olevaa lainsäädäntöä lainvalmisteluasiakirjoineen ja sen tutkimusmetodina lähtökohtaisesti on lainopillinen tutkimus. Aihe huomioon ottaen tutkielman tärkeimpiä lähteitä ovat olleet teokset: Pölönen – Tapanila: ”Todistelu oikeudenkäynnissä” (2015) ja Helminen ym.: ”Esitutkinta ja pakkokeinot” (2014).
Oikeuskirjallisuuden ja -käytännön valossa näyttää siltä, että pakkokeinolain säännös on tarkoitettu rajaaman ylimääräisen tiedon hyödyntämisen sallittavuutta, vaikka tulkinnanvaraa soveltamisalasta löytyy. Tutkielmassa annetaan perusteita säätää laissa nykyistä kattavammin ylimääräisen tiedon hyödyntämisestä ja sitä kautta selkiyttää säännöksien soveltamisalaa
Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022)
The prevailing practice in the academia is to evaluate the model performance on in-domain evaluation data typically set aside from the training corpus. However, in many real world applications the data on which the model is applied may very substantially differ from the characteristics of the training data. In this paper, we focus on Finnish out-of-domain parsing by introducing a novel UD Finnish-OOD out-of-domain treebank including five very distinct data sources (web documents, clinical, online discussions, tweets, and poetry), and a total of 19,382 syntactic words in 2,122 sentences released under the Universal Dependencies framework. Together with the new treebank, we present extensive out-of-domain parsing evaluation utilizing the available section-level information from three different Finnish UD treebanks (TDT, PUD, OOD). Compared to the previously existing treebanks, the new Finnish-OOD is shown include sections more challenging for the general parser, creating an interesting evaluation setting and yielding valuable information for those applying the parser outside of its training domain.</p
Dependency profiles as a tool for big data analysis of linguistic constructions: a case study of emoticons
This study presents a methodological toolbox for big data analysis of linguistic constructions by introducing dependency profiles, i.e., co-occurrences of linguistic elements with syntax information. These were operationalized by reconstructing sentences as delexicalized syntactic biarcs, subtrees of dependency analyses. As a case study, we utilize these dependency profiles to explore usage patterns associated with emoticons, the graphic representations of facial expressions. These are said to be characteristic of Computer-Mediated Communication, but typically studied only in restricted corpora. To analyze the 3.7-billion token Finnish Internet Parsebank we use as data, we apply clustering and support vector machines. The results show that emoticons are associated with three typical usage patterns: stream of the writer’s consciousness, narrative constructions and elements guiding the interaction and expressing the writer’s reactions by means of interjections and discourse particles. Additionally, the more frequent emoticons, such as :), are used differently than the less frequent ones, such as ^_^.Kokkuvõte. Veronika Laippala, Aki-Juhani Kyröläinen, Jenna Kanerva, Juhani Luotolahti ja Filip Ginter: Sõltuvusprofiilid kui vahend suurandmete keeleliste konstruktsioonide analüüsimiseks: uurimus emotikonidest. Uurimuses esitame metodoloogilise “tööriistakomplekti” keelekonstruktsioonide analüüsimiseks suurandmete põhjal, rakendades sõltuvusprofiile. Sõltuvusprofiil on lingvistiliste elementide koosesinemise esitusviis, kuhu on kaasatud süntaktiline informatsioon. Selleks on laused konstrueeritud sõltuvusanalüüsi alampuudena, kus süntaktiline info on esitatud sõnadevaheliste (kaksik-)kaarte abil. Artiklis rakendame sõltuvusprofiile selleks, et selgitada välja emotikonide kasutusmustrid. Näomiimika graafilised esitused on iseloomulikud arvuti suhtlusele, mida tavaliselt uuritakse piiratud korpuse põhjal, kuid meie kasutame klasterdamist ja tugivektor-masinaid 3,7 miljardi sõna suuruse Soome Interneti Puudepangal. Selgub, et emotikonide kasutus seostub kolme peamise kasutusmustriga: kirjutaja teadvuse vooluga, narratiivsete konstruktsioonidega ning hüüdsõnade ja diskursusepartiklitega, mis juhivad suhtlust ja väljendavad kirjutaja reaktsioone. Lisaks selgub, et sagedastel emotikonidel nagu :), on rohkem erinevaid kasutusi kui harvadel emotikonidel nagu ^_^.Võtmesõnad: sõltuvusprofiilid; kasutuspõhine süntaks; arvutisuhtlus; emotikonid; veebikorpus; soome kee
Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks
In this paper, we present a novel lemmatization method based on a sequence-to-sequence neural network architecture and morphosyntactic context representation. In the proposed method, our context-sensitive lemmatizer generates the lemma one character at a time based on the surface form characters and its morphosyntactic features obtained from a morphological tagger. We argue that a sliding window context representation suffers from sparseness, while in majority of cases the morphosyntactic features of a word bring enough information to resolve lemma ambiguities while keeping the context representation dense and more practical for machine learning systems. Additionally, we study two different data augmentation methods utilizing autoencoder training and morphological transducers especially beneficial for low-resource languages. We evaluate our lemmatizer on 52 different languages and 76 different treebanks, showing that our system outperforms all latest baseline systems. Compared to the best overall baseline, UDPipe Future, our system outperforms it on 62 out of 76 treebanks reducing errors on average by 19% relative. The lemmatizer together with all trained models is made available as a part of the Turku-neural-parsing-pipeline under the Apache 2.0 license.</p
Dependency parsing of biomedical text with BERT
Abstract
Background:Â : Syntactic analysis, or parsing, is a key task in natural language processing and a required component for many text mining approaches. In recent years,
Universal Dependencies (UD) has emerged as the leading formalism for dependency
parsing. While a number of recent tasks centering on UD have substantially advanced
the state of the art in multilingual parsing, there has been only little study of parsing
texts from specialized domains such as biomedicine.
Methods:Â : We explore the application of state-of-the-art neural dependency parsing methods to biomedical text using the recently introduced CRAFT-SA shared task
dataset. The CRAFT-SA task broadly follows the UD representation and recent UD task
conventions, allowing us to fne-tune the UD-compatible Turku Neural Parser and
UDify neural parsers to the task. We further evaluate the efect of transfer learning using
a broad selection of BERT models, including several models pre-trained specifcally for
biomedical text processing.
Results:Â : We fnd that recently introduced neural parsing technology is capable of
generating highly accurate analyses of biomedical text, substantially improving on
the best performance reported in the original CRAFT-SA shared task. We also fnd that
initialization using a deep transfer learning model pre-trained on in-domain texts is key
to maximizing the performance of the parsing methods.
Keywords: Parsing, Deep learning, CRAFT</p
- …