4 research outputs found

    Using POS n-grams to detect grammatical errors in Finnish text

    Get PDF
    Automaattinen kieliopin tarkistus on hyödyllinen työkalu henkilöille, jotka kirjoittavat julkaistavia tekstejä. Kieliopintarkistimista on myös hyötyä kielenoppijoille. Suomen kielelle tehdyt käytetyimmät tarkistimet ovat sääntöpohjaisia, minkä vuoksi ne kattavat vain pienen osan kielioppivirheistä, ja sääntöjoukon laajentaminen vaati paljon käsintehtävää työtä. Tilastollisilla menetelmillä voidaan löytää suurempi määrä eri virheitä ilman käsinlaadittavia sääntöjä. Eräs helposti toteutettavissa oleva tilastollinen tapa on kerätä esimerkkijoukko kieliopillisia n-grammeja, ja verrata, löytyykö tarkistettavan lauseen kaikki n-grammit esimerkkijoukosta. Suomen kielessä on paljon taivutusmuotoja, ja uusia sanoja pystytään myös luomaan käyttämällä johtimia. Jos n-grammien yksikköinä käytetään saneita, esimerkkijoukon tulee olla käsittämättömän suuri, jotta se voi kuvata Suomen kieliopin kattavasti. Tämä pro gradu -työ esittää kieliopintarkistusmetodin, joka on helppo toteuttaa, koska siinä käytetään n-grammeja yllä mainitulla tavalla, mutta n-grammien yksikköinä käytetään part-of-speech (POS) -informaatiota saneiden sijaan, jolloin esimerkkijoukon n-grammit on mahdollista kerätä, ja niiden määrä pysyy tarpeeksi pienenä käsiteltäväksi. N-grammit ja niiden esiintymäkertojen lukumäärät kerätään suomenkielisestä morfologisesti annotoidusta FinnTreeBank -korpuksesta. Kieliopintarkistin arvioidaan 200 eri koeasetelmassa, jotka eroavat toisistaan viidellä eri tavalla. Puolet tarkistimista koulutetaan pienellä käsinannotoidulla korpuksella ja puolet suurella automaattisesti annotoidulla korpuksella. Puolet tarkistimista käyttää lauserajamerkintöjä n-grammeissaan ja puolet ei. Puolissa asetelmissa valitaan yksi lauserakenteen tulkinta tarkistettavaksi, ja puolissa tarkistetaan kaikki mahdolliset rakennetulkinnat. Jokainen tarkistimista käyttää myös yhtä viidestä esiintymäkertojen raja-arvoista, joka n-grammien tulee ylittää, jotta ne hyväksytään kieliopillisiksi. Lisäksi jokainen tarkistimista käyttää yhtä viidestä POS n-grammityypistä, joista jokainen sisältää eri yhdistelmän POS-informaatiota. Kieliopintarkistin arvioidaan konekäännösjärjestelmän tuottamilla kieliopillisesti virheellisillä lauseilla sekä niiden kieliopillisesti oikeilla vastineilla. Suurimmassa osassa koeasetelmia tarkistin merkitsee vain vähän virheitä ja on usein väärässä, tai tarkistin merkitsee lähes kaikki lauseet, myös kieliopilliset, virheellisiksi. Tarkkuuden kannalta parhaiten suoriutuneessa asetelmassa käytetään suurta korpusta, ei lauserajamerkintöjä, kaikki lauserakennetulkinnat tarkistavaa metodia, pientä esiintymäkertaraja-arvoa ja POS-informaatiota, jolla on vähiten mahdollisia esiintymämuotoja. Tässä asetelmassa tarkistin on noin 86% kerroista oikeassa merkitessään kielioppivirheitä, mutta toisaalta se löytää vain noin 27% testiaineiston virheistä. Toteutettu metodi ei siis sellaisenaan ole toimivia Suomen kieliopin tarkastamiseen, mutta metodia voisi parantaa lisäämällä siihen disambiguaatiokomponentin ja käyttämällä suurempaa koulutuskorpusta
    corecore