Automatikus írásjel-visszaállítás és Nagybetűsítés statikus korpuszon transzformer modellen alapuló neurális gépi fordítással

Abstract

Cikkemben egy írásjelvisszaállító és nagybetűsítő programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapuló neurális gépi fordító rendszerrel tanítottam be. A mobil eszközökön történő üzenetírás elterjedésével és a minél gyorsabb szövegbevitelre való törekvéssel tömeges jelenséggé vált a hibás szövegek írása. Ennek egyik következménye, hogy a interneten elérhető – főleg a szociális médiából származó – korpuszok egy része hibás. Többek között írásjelek hiányoznak, vagy végig kisbetűvel írnak. Az így létrejött korpuszok nem alkalmasak különböző kutatásokhoz, csak tisztítás után. A tisztítás folyamata időigényes, ezért igény van különböző korpusztisztító módszerekre. Az általam létrehozott rendszer, annak ellenére, hogy semmilyen morfológiai és szintaktikai elemzőt nem használ, közel 81%-os f-mértékkel tudja helyesen visszaállítani az alapírásjeleket és elvégezni a nagybetűsítést magyar nyelv esetében

    Similar works