17 research outputs found

    Word sense disambiguation using corpora

    No full text
    Šiame darbe nagrinėjamas žodžio daugiaprasmiškumo pašalinimo elektroniniame tekste modelis bei jo algoritmas. Problemos analizės skyriuje apžvelgiami pagrindiniai šios problemos sprendimo metodai: žodynais paremti, žymėtais tekstynais paremti bei nežymėtais tekstynais paremti. Dėl savo pritaikomumo bei patogumo naudoti elektroninius, nesužymėtus tekstus, tolesniam darbui pasirenkamas nežymėtų tekstynų metodas. Projektavimo skyriuje remiantis atlikta teorine analize ir gautais jos rezultatais, projektuojamas reikšmingų žodžių vektoriaus algoritmas ir jam naudojamos funkcijos. Sekančiame skyriuje atliekama tinkamiausių resursų analizė. Teorinių bei eksperimentinių tyrimų skyriuje bandymams pasirenkami tekstynai bei skirtingi klasterizavimo algoritmai. Testuojamas reikšmingų žodžių vektoriaus algoritmas ir žiūrima kokie programoje naudojami parametrai leidžia pagerinti žodžio prasmės identifikavimo tikslumą. Paskutiniame skyriuje suformuojamos galutinės išvados, apibrėžiančios metodo pasirinkimą, algoritmo veikimo tikslumą bei skirtingų parametrų įtaką. Apibendrinama atlikto darbo esmė.In this paper model and algorithm of word sense disambiguation is discussed. In problem analysis chapter there are outlined some of most important methods for solving this problem: knowledge-based disambiguation, supervised disambiguation and unsupervised disambiguation. Because of it‘s adaptability and ease of use of electronic, unannotated texts, unsupervised disambiguation method is selected for further work. In planning chapter referring to previously made theoretical analysis and it‘s results, feature vector algorithm and all of it‘s functions are designed. Next chapter presents the analysis of the most useful resources for algorithm. For the theoric and experimental research chapter different kind of corpora and clustering algorithms are selected. Experiments are being used to test word sense disambiguation accuracy for the feature vector algorithm. In the last chapter some final conclusions are formulated, defining the method of choice, functioning of various parameters and accuracy of algorithm.Vytauto Didžiojo universiteta
    corecore