26 research outputs found

    The FISKMĂ– Project : Resources and Tools for Finnish-Swedish Machine Translation and Cross-Linguistic Research

    Get PDF
    This paper presents FISKMĂ–, a project that focuses on the development of resources and tools for cross-linguistic research and machine translation between Finnish and Swedish. The goal of the project is the compilation of a massive parallel corpus out of translated material collected from web sources, public and private organisations and language service providers in Finland with its two official languages. The project also aims at the development of open and freely accessible translation services for those two languages for the general purpose and for domain-specific use. We have released new data sets with over 3 million translation units, a benchmark test set for MT development, pre-trained neural MT models with high coverage and competitive performance and a self-contained MT plugin for a popular CAT tool. The latter enables offline translation without dependencies on external services making it possible to work with highly sensitive data without compromising security concerns.Peer reviewe

    Dependency profiles as a tool for big data analysis of linguistic constructions: a case study of emoticons

    Get PDF
    This study presents a methodological toolbox for big data analysis of linguistic constructions by introducing dependency profiles, i.e., co-occurrences of linguistic elements with syntax information. These were operationalized by reconstructing sentences as delexicalized syntactic biarcs, subtrees of dependency analyses. As a case study, we utilize these dependency profiles to explore usage patterns associated with emoticons, the graphic representations of facial expressions. These are said to be characteristic of Computer-Mediated Communication, but typically studied only in restricted corpora. To analyze the 3.7-billion token Finnish Internet Parsebank we use as data, we apply clustering and support vector machines. The results show that emoticons are associated with three typical usage patterns: stream of the writer’s consciousness, narrative constructions and elements guiding the interaction and expressing the writer’s reactions by means of interjections and discourse particles. Additionally, the more frequent emoticons, such as :), are used differently than the less frequent ones, such as ^_^.Kokkuvõte. Veronika Laippala, Aki-Juhani Kyröläinen, Jenna Kanerva, Juhani Luotolahti ja Filip Ginter: Sõltuvusprofiilid kui vahend suurandmete keeleliste konstruktsioonide analüüsimiseks: uurimus emotikonidest. Uurimuses esitame metodoloogilise “tööriistakomplekti” keelekonstruktsioonide analüüsimiseks suurandmete põhjal, rakendades sõltuvusprofiile. Sõltuvusprofiil on lingvistiliste elementide koosesinemise esitusviis, kuhu on kaasatud süntaktiline informatsioon. Selleks on laused konstrueeritud sõltuvusanalüüsi alampuudena, kus süntaktiline info on esitatud sõnadevaheliste (kaksik-)kaarte abil. Artiklis rakendame sõltuvusprofiile selleks, et selgitada välja emotikonide kasutusmustrid. Näomiimika graafilised esitused on iseloomulikud arvuti suhtlusele, mida tavaliselt uuritakse piiratud korpuse põhjal, kuid meie kasutame klasterdamist ja tugivektor-masinaid 3,7 miljardi sõna suuruse Soome Interneti Puudepangal. Selgub, et emotikonide kasutus seostub kolme peamise kasutusmustriga: kirjutaja teadvuse vooluga, narratiivsete konstruktsioonidega ning hüüdsõnade ja diskursusepartiklitega, mis juhivad suhtlust ja väljendavad kirjutaja reaktsioone. Lisaks selgub, et sagedastel emotikonidel nagu :), on rohkem erinevaid kasutusi kui harvadel emotikonidel nagu ^_^.Võtmesõnad: sõltuvusprofiilid; kasutuspõhine süntaks; arvutisuhtlus; emotikonid; veebikorpus; soome kee

    When Collaborative Treebank Curation Meets Graph Grammars: Arborator With a Grew Back-End

    Get PDF
    International audienceIn this paper we present Arborator-Grew, a collaborative annotation tool for treebank development. Arborator-Grew combines the features of two preexisting tools: Arborator and Grew. Arborator is a widely used collaborative graphical online dependency treebank annotation tool. Grew is a tool for graph querying and rewriting specialized in structures needed in NLP, i.e. syntactic and semantic dependency trees and graphs. Grew also has an online version, Grew-match, where all Universal Dependencies treebanks in their classical, deep and surface-syntactic flavors can be queried. Arborator-Grew is a complete redevelopment and modernization of Arborator, replacing its own internal database storage by a new Grew API, which adds a powerful query tool to Arborator's existing treebank creation and correction features. This includes complex access control for parallel expert and crowd-sourced annotation, tree comparison visualization, and various exercise modes for teaching and training of annotators. Arborator-Grew opens up new paths of collectively creating, updating, maintaining, and curating syntactic treebanks and semantic graph banks

    Proceedings of the Research Data And Humanities (RDHUM) 2019 Conference: Data, Methods And Tools

    Get PDF
    Analytical bibliography aims to understand the production of books. Systematic methods can be used to determine an overall view of the publication history. In this paper, we present the state of the art analytical approach towards the determination of editions using the ESTC meta data. The preliminary results illustrate that metadata cleanup and analysis can provide opportunities for edition determination. This would significantly help projects aiming to do large scale text mining.</p

    Pitkin hampain — vertailussa suomen ja ranskan hammas-idiomit

    Get PDF
    Tämän pro gradu -tutkielman aiheena ovat suomen- ja ranskankieliset idiomit, joihin sisältyy sana hammas tai sen ranskankielinen vastine dent. Tutkimuksessa selvitetään, minkälaisia kyseisen sanan sisältäviä idiomeja suomessa ja ranskassa esiintyy sekä onko hammas-idiomeissa tai niiden esiintymismäärissä havaittavissa kieltenvälisiä eroja. Aineisto on muodostettu poimimalla internet-teksteistä koostuvasta käyttöliittymästä lähes 200 suomen- ja yhtä monta ranskankielistä virkettä, joissa esiintyy sana hammas tai dent. Aineiston idiomit on jaoteltu verbi- ja substantiivi-idiomeihin. Kategorisoinnissa on sovellettu Korhosen (2018) luokittelua. Sekä suomessa että ranskassa noin viidesosassa aineiston virkkeistä on hammas/dent-sanan sisältävä idiomi. Tutkimushypoteesi on, että verbi- ja substantiivi-idiomeja on suomessa ja ranskassa suunnilleen saman verran ja että kielten välillä ei ole selvää eroa idiomien määrässä tai esiintyvyydessä. Tutkimuksen suomenkielisessä aineistossa erilaisia verbi- ja substantiivi-idiomeja onkin suunnilleen saman verran, kun taas ranskassa ensin mainittuja on lähes nelinkertainen määrä jälkimmäisiin verrattuna. Tilanne on molemmissa kielissä sama myös silloin, kun huomioidaan erilaisten idiomien sijaan kaikki aineiston idiomit yhteenlaskettuina eli myös useaan kertaan esiintyvät idiomit. Suppeahkon yksittäistutkimuksen perusteella, jossa aineistoon valikoidut idiomit ovat aiheensa puolesta tarkkaan rajattuja, ei voida tehdä yleistyksiä. Tutkimustulosten perusteella näyttää kuitenkin siltä, että ranskassa käytetään enemmän verbillisiä kuin verbittömiä hammas-idiomeja
    corecore