    Mapping Between Old and New Estonian Orthography Using Finite State Transducers

    Kaasajal on aktuaalne kõiksugu kirjalike allikate automatiseeritud analüüs. Analüüsiks kasutatavad infotehnoloogilised vahendid on aga edukalt rakendatavad üksnes sõnadele, mis on morfoloogilisel tasemel vastavuses tänapäevaste õigekirja normidega. Seega tuleb ajaloolisi tekste esmalt normaliseerida. Probleemile võib läheneda kahest suunast. Ühest küljest võib vanas kirjaviisis tekstid täielikult kaasaega tuua, asendades kõik vanapärased sõnavormid nende kaasaegsete vastetega. Nii on tekstid kaasaegsetele automaatanalüüsitehnoloogiatele arusaadavad ning ka inimestele kergesti loetavad, kuid kaduma läheb oluline info kunagise keelekasutuse kohta. Teine võimalus on muuta olemasolevaid keelt analüüsivaid vahendeid selliselt, et need oskaks ära tunda ka vanas kirjaviisis sõnavorme. Bakalaureusetöös kasutatakse mõlemat lähenemist. Võttes aluseks 1739. aasta Piibli teksti, kirjutatakse uus ortograafiamuundur, mis vastendab vanas kirjaviisis sõnu nende tänapäevaste kujudega. Lisaks kohandatakse olemasolevat eesti keele morfoloogiamuundurit vana kirjakeelega, et oleks võimalik säilitada sõnade tollane kuju, seostades neid siiski kaasaegsete sõnavormidega. Töös antakse ka näpunäiteid, kuidas alustatud lahendust tulevikus edasi arendama peaks.Nowadays it is common to analyse all kinds of written sources automatically. However, the necessary technologies are only applicable to words that follow the morphological rules of the modern language. Therefore, it is necessary to normalize historical texts that are written using the old Estonian orthography. This problem may approached from two different angles. On the one hand, it is possible to convert all old Estonian orthography forms to their modern counterparts. This would make the texts easy to understand for both the automated analysis technologies and also for the people who are not so familiar with the old Estonian orthography. However, valuable information about how the language has changed, would be lost. The second approach is to adapt the current technologies to make them recognize the old word forms. In this thesis, both solutions are used. The author creates a new orthographic transducer that maps old word forms from the 1739 Bible translation to their modern forms. In addition, an existing morphological analyser of the Estonian language is modified, to allow it to recognize old Estonian orthography word forms. The author also gives suggestions for future developments of the created system

    Ekstraktmorfoloogia meetodiga tuletatud keeletehnoloogia vadja noomeni vormisõnastiku näitel

    Trond Trosterud – publikasjonar 1989–2022

    Verbi grammatiliste kategooriate esinemine eri tekstiliikides

    24th Nordic Conference on Computational Linguistics (NoDaLiDa)

