17 research outputs found

    Cross-sentence contexts in Named Entity Recognition with BERT

    Get PDF
    Named entity recognition (NER) is a task under the broader scope of Natural Language Processing (NLP). The computational task of NER is often cast as a sequence classification task where the goal is to label each word (or token) in the input sequence with a class from a predefined set of classes. The development of deep transfer learning methodologies in recent years has greatly influenced both NLP and NER. There have been improvements in the performance of NER models but at the same time the use of cross-sentence context, the sentences around the sentence of interest, has diminished in NER methods. Many of the current methods use inputs that consist of only one sentence of text at a time. It is nevertheless clear that useful information for NER is often found also elsewhere in text. Recent self-attention models like BERT can both capture long-distance relationships in input and represent inputs consisting of several sentences. This creates opportunities for making use of cross-sentence information in NLP tasks. This thesis presents a systematic study exploring the use of cross-sentence information for NER using BERT models in five languages. The study shows that adding context as additional sentences to BERT input systematically increases NER performance. Adding multiple sentences in input samples also allows the study of predictions for the sentences in different contexts. A straightforward method of Contextual Majority Voting (CMV) is proposed to combine these different predictions. The study demonstrates that using CMV increases NER performance even further. Evaluation of the proposed methods on established datasets, including the Conference on Computational Natural Language Learning CoNLL'02 and CoNLL'03 NER benchmarks, demonstrates that the proposed approach can improve on the state-of-the-art NER results for English, Dutch, and Finnish, achieves the best reported BERT-based results for German, and is on par with other BERT-based approaches for Spanish. The methods implemented for this work are published under open licenses

    Proceedings of the 28th International Conference on Computational Linguistics

    Get PDF
    Named entity recognition (NER) is frequently addressed as a sequence classification task with each input consisting of one sentence of text. It is nevertheless clear that useful information for NER is often found also elsewhere in text. Recent self-attention models like BERT can both capture long-distance relationships in input and represent inputs consisting of several sentences. This creates opportunities for adding cross-sentence information in natural language processing tasks. This paper presents a systematic study exploring the use of cross-sentence information for NER using BERT models in five languages. We find that adding context as additional sentences to BERT input systematically increases NER performance. Multiple sentences in input samples allows us to study the predictions of the sentences in different contexts. We propose a straightforward method, Contextual Majority Voting (CMV), to combine these different predictions and demonstrate this to further increase NER performance. Evaluation on established datasets, including the CoNLL’02 and CoNLL’03 NER benchmarks, demonstrates that our proposed approach can improve on the state-of-the-art NER results on English, Dutch, and Finnish, achieves the best reported BERT-based results on German, and is on par with other BERT-based approaches in Spanish. We release all methods implemented in this work under open licenses.</p

    FinGPT: Large Generative Models for a Small Language

    Full text link
    Large language models (LLMs) excel in many tasks in NLP and beyond, but most open models have very limited coverage of smaller languages and LLM work tends to focus on languages where nearly unlimited data is available for pretraining. In this work, we study the challenges of creating LLMs for Finnish, a language spoken by less than 0.1% of the world population. We compile an extensive dataset of Finnish combining web crawls, news, social media and eBooks. We pursue two approaches to pretrain models: 1) we train seven monolingual models from scratch (186M to 13B parameters) dubbed FinGPT, 2) we continue the pretraining of the multilingual BLOOM model on a mix of its original training data and Finnish, resulting in a 176 billion parameter model we call BLUUMI. For model evaluation, we introduce FIN-bench, a version of BIG-bench with Finnish tasks. We also assess other model qualities such as toxicity and bias. Our models and tools are openly available at https://turkunlp.org/gpt3-finnish.Comment: 17 pages (10 main), 7 figures, 5 table

    RVD induction and autologous stem cell transplantation followed by lenalidomide maintenance in newly diagnosed multiple myeloma: a phase 2 study of the Finnish Myeloma Group

    Get PDF
    Autologous stem cell transplantation (ASCT) combined with novel agents is the standard treatment for transplant-eligible, newly diagnosed myeloma (NDMM) patients. Lenalidomide is approved for maintenance after ASCT until progression, although the optimal duration of maintenance is unknown. In this trial, 80 patients with NDMM received three cycles of lenalidomide, bortezomib, and dexamethasone followed by ASCT and lenalidomide maintenance until progression or toxicity. The primary endpoint was the proportion of flow-negative patients. Molecular response was assessed if patients were flow-negative or in stringent complete response (sCR). By intention to treat, the overall response rate was 89%. Neither median progression-free survival nor overall survival (OS) has been reached. The OS at 3 years was 83%. Flow-negativity was reached in 53% and PCR-negativity in 28% of the patients. With a median follow-up of 27 months, 29 (36%) patients are still on lenalidomide and 66% of them have sustained flow-negativity. Lenalidomide maintenance phase was reached in 8/16 high-risk patients but seven of them have progressed after a median of only 6 months. In low- or standard-risk patients, the outcome was promising, but high-risk patients need more effective treatment approach. Flow-negativity with the conventional flow was an independent predictor for longer PFS

    Henkilöstöjohtaminen paikallisosuuspankin johtamisjärjestelmässä case Lappajärven Osuuspankki

    No full text
    Henkilöstöjohtamisen merkitys korostuu työvoimavaltaisella palvelualalla. Kyseessä on pankki, jossa on asiantuntijoita monelta eri rahoitusalan osa-alueelta. Oman haasteensa työlle ja henkilöstöjohtamiselle aiheuttaa jatkuva sääntelyn ja määräysten muuttuminen. Johtamisjärjestelmä on osuuskunnassa monitasoinen. Tutkimuksen teoreettisessa viitekehyksessä käsitellään henkilöstöjohtamisen tärkeimmät osa-alueet, jotka liittyvät kohdeorganisaatioon. Aineistona on käytetty alaan liittyviä tutkimuksia ja kirjallisuutta. Tutkimuksen metodologisena lähtökohtana käytetään kvalitatiivista tutkimusmenetelmää ja aineistonkeruumenetelmänä teemahaastattelua. Tutkimuksessa tuli esille johtamisjärjestelmän kaikkien osien käsitys, että henkilöstöjohtamisen merkitys tulee kasvamaan. Suurin peruste on työntekijöiden sukupolvenvaihdos. Organisaation pieni koko asettaa haasteensa henkilöstöjohtamisen osuuden kasvattamiseen johtamisjärjestelmässä. Henkilöstöjohtamiselle halutaan asettaa tavoitteet ja sen laatua halutaan seurata.fi=Opinnäytetyö kokotekstinä PDF-muodossa.|en=Thesis fulltext in PDF format.|sv=Lärdomsprov tillgängligt som fulltext i PDF-format

    Puurakentamisen ja puutuotealan markkinat - Nykytila ja tulevaisuuden näkymät

    No full text
    Tämä raportti esittelee puutuotealan ja puurakentamisen markkinoita, nykytilaa ja tulevaisuutta. Yrityshaastattelujen ja lähteiden (mm. toimialaraportit) avulla on selvitetty alan nykytilaa ja tulevaisuuden kehittämiskohteita. Raportin on koonnut Karelia-ammattikorkeakoulu yhteistyössä Lieksan Kehitys Oy:n kanssa Tuotantopohjaisesta osaamisperustaiseen puurakentamisen ekosysteemiin -hankkeessa. Raportin sisältämät puutuotealan ja puurakentamisen markkinanäkymät ja ajantasainen tieto yritysten nykytilasta ja kehittämisajatuksista tuovat alan toimijoille tärkeää tietoa erilaisten toimenpiteiden vaikutuksista ja niiden kohdentamisesta

    Siltanosturin pääkannattimen kitkaliitoksen mitoitus

    No full text
    The purpose of this thesis was to examine the internal loading mechanisms, and dimensioning parameters affecting on them, in fiction grip bolted joints, often used as splice joints in electrical overhead crane girders. General instructions for dimensioning are drawn up, to facilitate the design work and to exploit the good mechanical properties of the joint type in question, based on the principle of balanced joint stress design. Electrical overhead crane is one of the most common type of crane existing. Therefore, the resources tied for designing may have a great influence on total cost. Bolted joint, for one, is one of the most common fastening methods in steel structures and the most common removable joint in mechanical engineering. Friction grip bolted joints, especially, have been observed to have some properties beneficial to load bearing capacity, durability and strength. Those properties are not accurately, or at all, presented in current bolted joint design standards. The loading mechanisms of fiction grip bolted joints are being studied analytically by means of literature and previous studies, and baselines for standards are established. A Finite Element Model is instantiated and analyzed, and the results are being compared with corresponding analytical and experimental studies, and are utilized when drawing instructions for dimensioning up. The results obtained from the finite element model are in good agreement with previous analytical and experimental studies. By these observations, it can be claimed that for fiction grip bolted joints, it is possible to equal static strength and even better fatigue strength than for a plain specimen with a drilled hole. The dimensioning table, composed by the dimensioning instructions, can be applied to other steel structures with similar loading cases as such.Diplomityön tarkoituksena on tutkia siltanosturin pääkannatinpalkinjatkoliitoksena käytettävän kitkaliitoksen sisäisiä kuormitusmekanismeja ja niihin vaikuttavia mitoitusparametreja. Lujuustarkastelun avulla laaditaan kitkaliitoksille yleiset mitoitussäännöt suunnittelutyön helpottamiseksi ja liitostyypin hyvien mekaanisten ominaisuuksien hyödyntämiseksi perustuen tasalujan mitoituksen periaatteeseen. Siltanosturit ovat yleisimpiä nosturityyppejä, joten niiden teräsrakennesuunnitteluun sidottujen resurssien merkitys korostuu kokonaiskustannuksissa. Ruuviliitokset puolestaan ovat yleisimpiä kiinnitysmenetelmiä erilaisissa teräsrakenteissa ja koneenrakennuksen yleisin irrotettava liitos. Ruuviliitostyypeistä etenkin kitkaliitoksella on havaittu olevan monia kuormankantokyvyn ja kestävyyden kannalta edullisia ominaisuuksia, joita nykyiset teräsrakenteiden suunnittelustandardit eivät kuvaa tarkasti tai ollenkaan. Kitkaliitoksen kuormitusmekaniikkaa on tutkittu sekä kirjallisuuden että aikaisempien tutkimusten avulla, ja muodostettu vertailukohtia myös teräsrakennestandardien mitoitusohjeille. Kitkaliitoksesta luotiin myös FE-malli, jonka analyysista saatavia tuloksia voitaisiin vertailla aikaisempiin tutkimustuloksiin ja hyödyntää mitoitussääntöjen laatimisessa. FE-analyysilla saadut tulokset olivat melko yhtäpitäviä aikaisempien laskennallisten ja kokeellisten tutkimusten kanssa. Näiden havaintojen nojalla voidaan mm. väittää, että kitkaliitokselle on mahdollista saavuttaa vastaava staattinen lujuus, ja jopa parempi väsymiskestävyys kuin reiälliselle vetokuormitetulle koesauvalle. Mitoitussääntöjen perusteella koostettu, kitkaliitosten taulukkomuotoinen mitoitusohje on sovellettavissa sellaisenaan myös muiden teräsrakenteiden vastaaviin kuormitustapauksiin
    corecore