10 research outputs found

    Nimientiteettien tunnistusmallin kehitystyö

    Get PDF
    Esitys Tekoälykahvit kulttuuriperintöammattilaisille -webinaarissa 30.8.2023

    Suomenmaasta Ameriikkaan : Suomenkielisen kaunokirjallisuuden paikannimimaisema vuosina 1870–1940

    Get PDF
    Kandidaatintutkielmassani tarkastelen suomenkielisen kaunokirjallisuuden autenttista paikannimistöä ja sen muodostamaa nimimaisemaa. Tutkimusaineistona käytän Suomalaisen kirjallisuuden atlas 1870–1940 -tietokantaa, joka sisältää tutkielmaa tehdessäni 846 kaunokirjallista teosta. Hyödynnän tutkimuksessani nimistöntutkimuksen ja erityisesti paikannimistöntutkimuksen teoriaa ja menetelmiä. Sovellan lisäksi nimimaiseman käsitettä kaunokirjallisuuden kontekstissa. Kotimaisen kaunokirjallisuuden nimimaiseman kuvaamisen lisäksi tutkimukseni tavoitteena on kirjallisen kartografian, avoimen datan prosessoinnin, nimentunnistuksen ja paikkatietojärjestelmien hyödyntämiseen perustuvan verkkosovelluksen nimistöntutkimukselle tarjoamien mahdollisuuksien esittely. Kotimaisen kaunokirjallisuuden paikannimimaisema vuosien 1870 ja 1940 välillä näyttäytyy suomalaisena ja suomenkielisenä mutta kaukomaillekin kurottavana heijastumana aikansa historiallisesta, poliittisesta ja kulttuurisesta tilanteesta. Kun kansallisvaltiota muodostetaan, on kuvaavaa, että kaunokirjallisissa teksteissä yleisimmin esiintyy paikannimi Suomi useine rinnakkaismuotoineen. Kirjallisuudessa asutaan Suomenmaassa, matkaillaan Suomineidon käsivarressa ja kuollaan Suomenimaan puolesta. Kirjallisuus omalta osaltaan rakentaa, puolustaa tai uudelleen määrittelee Suomen valtakuntaa tai Suomen tasavaltaa. Joskus Suomi taipuu myös kansainväliseen muotoonsa Finland. Maantieteellisesti Suomeen tai sen lähialueille, kuten Helsinkiin, Turkuun, Viipuriin tai Karjalaan sijoittuvien autenttisten paikkojen lisäksi kaunokirjalliset tapahtumat paikantuvat usein myös Amerikkaan (tai Ameriikkaan), kun 1800- ja 1900-lukujen taitteen Suomesta Pohjois-Amerikkaan suuntautuva siirtolaisuus tuo oman lisänsä suomenkielisen kirjallisuuden kartastoon. Kaunokirjallisuuden paikannimistöä ei voikaan tarkastella historiallisesta kontekstistaan irrallaan, ja historialliset tosiasiat ovat vahvasti läsnä suomenkielisen kaunokirjallisuuden tapahtumapaikoilla, kirjailijoiden kuvittelemissa kylissä ja kaupungeissa, merten ja järvien rannoilla ja Lapin erämaan suojissa

    Distinguishing Noise and Main Text Content from Web-Sourced Plain Text Documents Using Sequential Neural Networks

    Get PDF
    Boilerplate removal and the identification of the actual textual content is a crucial step in web corpus creation. However, existing methods don’t always filter out the noise perfectly and are often not applicable for plain text corpora. In this thesis, I will develop machine learning methods to identify the main textual content in plain text documents. I will utilize transfer learning and pretrained language models as a base for training monolingual models with French and Swedish data as well as a multilingual model with French, Swedish, English, Finnish, German and Spanish data. I will compare two machine learning architectures based on the XLM-RoBERTa language model: first a classification model built on top of the pretrained XLM-RoBERTa model and a second model using an additional Long Short-Term Memory (LSTM) network layer. I will show that the LSTM layer improves the classification of the XLM-RoBERTa model and the built multilingual model performs well even with data in unseen languages. I will perform a further analysis on the results and show that the results of the boilerplate detection with the trained models differ with text varieties. Certain types of text documents, such as lyrical texts or discussion forum texts pose challenges in boilerplate detection, and it would be beneficial for future research to focus on gathering data that has been difficult to clean

    Cross-sentence contexts in Named Entity Recognition with BERT

    Get PDF
    Named entity recognition (NER) is a task under the broader scope of Natural Language Processing (NLP). The computational task of NER is often cast as a sequence classification task where the goal is to label each word (or token) in the input sequence with a class from a predefined set of classes. The development of deep transfer learning methodologies in recent years has greatly influenced both NLP and NER. There have been improvements in the performance of NER models but at the same time the use of cross-sentence context, the sentences around the sentence of interest, has diminished in NER methods. Many of the current methods use inputs that consist of only one sentence of text at a time. It is nevertheless clear that useful information for NER is often found also elsewhere in text. Recent self-attention models like BERT can both capture long-distance relationships in input and represent inputs consisting of several sentences. This creates opportunities for making use of cross-sentence information in NLP tasks. This thesis presents a systematic study exploring the use of cross-sentence information for NER using BERT models in five languages. The study shows that adding context as additional sentences to BERT input systematically increases NER performance. Adding multiple sentences in input samples also allows the study of predictions for the sentences in different contexts. A straightforward method of Contextual Majority Voting (CMV) is proposed to combine these different predictions. The study demonstrates that using CMV increases NER performance even further. Evaluation of the proposed methods on established datasets, including the Conference on Computational Natural Language Learning CoNLL'02 and CoNLL'03 NER benchmarks, demonstrates that the proposed approach can improve on the state-of-the-art NER results for English, Dutch, and Finnish, achieves the best reported BERT-based results for German, and is on par with other BERT-based approaches for Spanish. The methods implemented for this work are published under open licenses

    Suomenkielisen geojäsentimen kehittäminen: kuinka hankkia sijaintitietoa jäsentelemättömistä tekstiaineistoista

    Get PDF
    Alati enemmän aineistoa tuotetaan ja jaetaan internetin kautta. Aineistot ovat vaihtelevia muodoiltaan, kuten verkkoartikkelien ja sosiaalisen media julkaisujen kaltaiset digitaaliset tekstit, ja niillä on usein spatiaalinen ulottuvuus. Teksteissä geospatiaalisuutta ilmaistaan paikannimien kautta, mutta tavanomaisilla paikkatietomenetelmillä ei kyetä käsittelemään tietoa epätäsmällisessä kielellisessä asussaan. Tämä on luonut tarpeen muuntaa tekstimuotoisen sijaintitiedon näkyvään muotoon, koordinaateiksi. Ongelmaa ratkaisemaan on kehitetty geojäsentimiä, jotka tunnistavat ja paikantavat paikannimet vapaista teksteistä, ja jotka oikein toimiessaan voisivat toimia paikkatiedon lähteenä maantieteellisessä tutkimuksessa. Geojäsentämistä onkin sovellettu katastrofihallinnasta kirjallisuudentutkimukseen. Merkittävässä osassa geojäsentämisen tutkimusta tutkimusaineiston kielenä on ollut englanti ja geojäsentimetkin ovat kielikohtaisia – tämä jättää pimentoon paitsi geojäsentimien kehitykseen vaikuttavat havainnot pienemmistä kielistä myös kyseisten kielten puhujien näkemykset. Maisterintutkielmassani pyrin vastaamaan kolmeen tutkimuskysymykseen: Mitkä ovat edistyneimmät geojäsentämismenetelmät? Mitkä kielelliset ja maantieteelliset monitulkintaisuudet vaikeuttavat tämän monitahoisen ongelman ratkaisua? Ja miten arvioida geojäsentimien luotettavuutta ja käytettävyyttä? Tutkielman soveltavassa osuudessa esittelen Fingerin, geojäsentimen suomen kielelle, ja kuvaan sen kehitystä sekä suorituskyvyn arviointia. Arviointia varten loin kaksi testiaineistoa, joista toinen koostuu Twitter-julkaisuista ja toinen uutisartikkeleista. Finger-geojäsennin, testiaineistot ja relevantit ohjelmakoodit jaetaan avoimesti. Geojäsentäminen voidaan jakaa kahteen alitehtävään: paikannimien tunnistamiseen tekstivirrasta ja paikannimien ratkaisemiseen oikeaan koordinaattipisteeseen mahdollisesti useasta kandidaatista. Molemmissa vaiheissa uusimmat metodit nojaavat syväoppimismalleihin ja -menetelmiin, joiden syötteinä ovat sanaupotusten kaltaiset vektorit. Geojäsentimien suoriutumista testataan aineistoilla, joissa paikannimet ja niiden koordinaatit tiedetään. Mittatikkuna tunnistamisessa on vastaavuus ja ratkaisemisessa etäisyys oikeasta sijainnista. Finger käyttää paikannimitunnistinta, joka hyödyntää suomenkielistä BERT-kielimallia, ja suoraviivaista tietokantahakua paikannimien ratkaisemiseen. Ohjelmisto tuottaa taulukkomuotoiseksi jäsenneltyä paikkatietoa, joka sisältää syötetekstit ja niistä mahdollisesti tunnistetut paikannimet koordinaattisijainteineen. Testiaineistot eroavat aihepiireiltään, mutta Finger suoriutuu niillä likipitäen samoin, ja suoriutuu englanninkielisillä aineistoilla tehtyihin arviointeihin suhteutettuna kelvollisesti. Virheanalyysi paljastaa useita virhelähteitä, jotka johtuvat kielten tai maantieteellisen todellisuuden luontaisesta epäselvyydestä tai ovat prosessoinnin aiheuttamia, kuten perusmuotoistamisvirheet. Kaikkia osia Fingerissä voidaan parantaa, muun muassa kehittämällä kielellistä käsittelyä pidemmälle ja luomalla kattavampia testiaineistoja. Samoin tulevaisuuden geojäsentimien tulee kyetä käsittelemään monimutkaisempia kielellisiä ja maantieteellisiä kuvaustapoja kuin pelkät paikannimet ja koordinaattipisteet. Finger ei nykymuodossaan tuota valmista paikkatietoa, jota kannattaisi kritiikittä käyttää. Se on kuitenkin lupaava ensiaskel suomen kielen geojäsentimille ja astinlauta vastaisuuden soveltavalle tutkimukselle.Ever more data is available and shared through the internet. The big data masses often have a spatial dimension and can take many forms, one of which are digital texts, such as articles or social media posts. The geospatial links in these texts are made through place names, also called toponyms, but traditional GIS methods are unable to deal with the fuzzy linguistic information. This creates the need to transform the linguistic location information to an explicit coordinate form. Several geoparsers have been developed to recognize and locate toponyms in free-form texts: the task of these systems is to be a reliable source of location information. Geoparsers have been applied to topics ranging from disaster management to literary studies. Major language of study in geoparser research has been English and geoparsers tend to be language-specific, which threatens to leave the experiences provided by studying and expressed in smaller languages unexplored. This thesis seeks to answer three research questions related to geoparsing: What are the most advanced geoparsing methods? What linguistic and geographical features complicate this multi-faceted problem? And how to evaluate the reliability and usability of geoparsers? The major contributions of this work are an open-source geoparser for Finnish texts, Finger, and two test datasets, or corpora, for testing Finnish geoparsers. One of the datasets consists of tweets and the other of news articles. All of these resources, including the relevant code for acquiring the test data and evaluating the geoparser, are shared openly. Geoparsing can be divided into two sub-tasks: recognizing toponyms amid text flows and resolving them to the correct coordinate location. Both tasks have seen a recent turn to deep learning methods and models, where the input texts are encoded as, for example, word embeddings. Geoparsers are evaluated against gold standard datasets where toponyms and their coordinates are marked. Performance is measured on equivalence and distance-based metrics for toponym recognition and resolution respectively. Finger uses a toponym recognition classifier built on a Finnish BERT model and a simple gazetteer query to resolve the toponyms to coordinate points. The program outputs structured geodata, with input texts and the recognized toponyms and coordinate locations. While the datasets represent different text types in terms of formality and topics, there is little difference in performance when evaluating Finger against them. The overall performance is comparable to the performance of geoparsers of English texts. Error analysis reveals multiple error sources, caused either by the inherent ambiguousness of the studied language and the geographical world or are caused by the processing itself, for example by the lemmatizer. Finger can be improved in multiple ways, such as refining how it analyzes texts and creating more comprehensive evaluation datasets. Similarly, the geoparsing task should move towards more complex linguistic and geographical descriptions than just toponyms and coordinate points. Finger is not, in its current state, a ready source of geodata. However, the system has potential to be the first step for geoparsers for Finnish and it can be a steppingstone for future applied research

    Erot sukupuolten välillä politiikan uutisoinnissa : koneoppimista hyödyntävä analyysi

    Get PDF
    Tämä tutkimus selvittää, onko sukupuolten välisiä eroja politiikan uutisoinnissa ja jos on, millaisia erot ovat. Aineistona on Yle Uutisten ja Helsingin Sanomien internet-sivuilla 31.12.2019–31.12.2021 julkaistuja uutisia. Aineistoa on tutkittu koneoppimismenetelmin korpusavusteisen diskurssianalyysin keinoja käyttäen. 53 167 Yle Uutisten ja 96 513 Helsingin Sanomien uutista käsiteltiin niin, että lopulliseen aineistoon saatiin Yle Uutisten osalta 16 659 ja Helsingin Sanomien osalta 17 023 virkettä, joissa mainitaan kansanedustaja joko koko nimeltä tai sukunimeltä. Näistä virkkeistä luotiin korpus, jonka avulla tehtiin laadullista analyysiä. Tutkimusta vartein on ohjelmoitu tukivektorikoneluokittelija, joka pyrkii ennustamaan, käsitteleekö virke nais- vai mieskansanedustajaa. Sekä Yle Uutisten että Helsingin Sanomien aineiston osalta luokittelija kykeni perustasoa parempaan täsmällisyyteen; Yle Uutisten osalta perustaso oli 0.58 ja mallin täsmällisyys 0.67, Helsingin Sanomien perustaso oli 0.56 ja mallin täsmällisyys myös 0.67. Analysoimalla luokittelijan luokittelussa käyttämiä piirteitä eli sanoja tutkimuksessa saatiin selville, millaisia eroavaisuuksia nais- ja mieskansanedustajia käsittelevissä uutisissa oli. Analyysiä tehtiin jakamalla sanoja eri ryhmiin sekä tekemällä virkkeistä luodun korpuksen avulla konkordanssitarkastelua siitä, millaisissa yhteyksissä kyseiset sanat esiintyivät alkuperäisissä virkkeissä. Osa eroista on selitettävissä nais- ja mieskansanedustajien erilaisilla tehtävillä ja nimikkeillä, mutta muitakin eroja löytyi. Tutkimustulokset antava siis viitteitä siitä, että nais- ja mieskansanedustajien kohtelu mediassa on erilaista: esimerkiksi sanat sukupuoli, nainen ja äiti osoittautuivat erotteleviksi piirteiksi naisia käsittelevissä virkkeissä. Laajempi aineisto, erilaiset painotukset sekä pyrkimykset selvittää mahdollisten erojen syitä olisivat tärkeitä jatkotutkimuksen aiheita

    End-to-end named entity recognition for spoken Finnish

    Get PDF
    Named entity recognition is a natural language processing task in which the system tries to find named entities and classify them in predefined categories. The categories can vary, depending on the domain in which they are going to be used but some of the most common include: person, location, organization, date and product. Named entity recognition is an integral part of other large natural language processing tasks, such as information retrieval, text summarization, machine translation, and question answering. Doing named entity recognition is a difficult task due to the lack of annotated data for certain languages or domains. Named entity ambiguity is another challenging aspect that arises when doing named entity recognition. Often times, a word can represent a person, organization, product, or any other category, depending on the context it appears in. Spoken data, which can be the output of a speech recognition system, imposes additional challenges to the named entity recognition system. Named entities are often capitalized and the system learns to rely on capitalization in order to detect the entities, which is neglected in the speech recognition output. The standard way of doing named entity recognition from speech involves a pipeline approach of two systems. First, a speech recognition system transcribes the speech and generates the transcripts, after which a named entity recognition system annotates the transcripts with the named entities. Since the speech recognition system is not perfect and makes errors, those errors are propagated to the named entity recognition system, which is hard to recover from. In this thesis, we present two approaches of doing named entity recognition from Finnish speech in an end-to-and manner, where one system generates the transcripts and the annotations. We will explore the strengths and weaknesses of both approaches and see how they compare to the standard pipeline approach

    Johdatus älykkään data-analyysin prosessimalliin, luonnollisen kielen käsittelyyn, koneoppimiseen sekä niihin perustuvien käyttötapausten kehittämiseen Valtorin hallinnoiman tekoälyalustan päälle

    Get PDF
    Valtion tieto- ja viestintätekniikkakeskus Valtorin ja Valtion talous- ja henkilöstöhallinnon palvelukeskus Palkeiden meneillään olevassa yhteishankkeessa on tavoitteena parantaa asiakaspalvelua tekoälyn avulla. Molempien organisaatioiden palveluprosesseista on tunnistettu käyttötapauksia, joita olisi mahdollista automatisoida ja tehostaa tekoälyä hyödyntäen. Käyttötapausten toteuttamiseksi on hankittu Valtorin hallinnoima tekoälyalusta, jota on tulevaisuudessa tarkoitus hyödyntää myös Valtorin asiakkaiden tekoälyyn pohjautuvien käyttötapausten alustana. Tekoälyalusta koostuu IT-infrastruktuurista ja sen päällä ajettavasta tekoälyratkaisusta. Tavoitteena on, että tulevien uusien käyttötapausten kehittäminen tekoälyalustan päälle olisi mahdollisimman yksinkertaista, nopeaa ja kustannustehokasta. Tämän opinnäytetyön tavoitteena on toimia julkisena perehdytysmateriaalina uusien koneoppimiseen perustuvien käyttötapausten rakentamiseksi Valtorin hallinnoiman tekoälyalustan päälle. Keskityn kuvaamaan niitä koneoppimiseen liittyviä teorioita ja käytäntöjä, joiden katson olevan oleellisia menestyksellisten koneoppimista hyödyntävien IT-projektien läpiviennissä valtionhallinnossa Valtorin tekoälyalustaa hyödyntäen. Opinnäytetyö sisältää johdatuksen älykkään data-analyysiin prosessimalliin, luonnollisen kielen käsittelyyn, koneoppimiseen ja neuroverkkoihin. Näiden teoriapainotteisten lukujen jälkeen esittelen konkreettisen esimerkin avulla tekstidokumenttien luokitteluun käytettävien ennustemallien kehittämistä tutkivana prosessina. Valtorin tekoälyalustasta kerron sillä tarkkuudella, mikä on julkisessa dokumentissa mahdollista. Esimerkkinä käyttötapauksen rakentamisesta tekoälyalustan päälle käytän Valtorin omaa ’Tikettien luokittelu ja ohjaaminen oikeaan työjonoon’ -käyttötapausta. Lopuksi pohdin tulevaisuuden kehittämistarpeita ja teen myös ehdotuksen Valtiovarainministeriön tekoälyä hyödyntäviä hankkeita koskevien erityisrahoitushakujen kehittämiseksi

    Kalle Päätalo tutkijoiden silmin

    Get PDF
    The Finnish novelist Kaarlo (Kalle) Alvar Päätalo’s (1919–2000) main work, the Iijoki series, consists of 26 novels (comprising ca. 17 000 pages) and was written in 1971–1998. In this book the text corpus in Kielipankki concerning Päätalo’s works is introduced to the readers, as well as the possibilities of digital text mining. This book includes scientific articles concerning the works of Kalle Päätalo. It also gives ideas for the research that can be carried out in the future. The authors of this book are researchers in the fields of history, linguistics and literature, respectively. The research results presented in this book speak for the fact that the Iijoki series is a significant source material for future research, for example from the point of view of oral history, language variation, metalanguage, swearing and the reader’s reception. The possibilities for future research seem to be quite plentiful
    corecore