5 research outputs found

    Towards context-aware syntax parsing and tagging

    Get PDF
    Information retrieval (IR) has become one of the most popular Natural Language Processing (NLP) applications. Part of speech (PoS) parsing and tagging plays an important role in IR systems. A broad range of PoS parsers and taggers tools have been proposed with the aim of helping to find a solution for the information retrieval problems, but most of these are tools based on generic NLP tags which do not capture domain-related information. In this research, we present a domain-specific parsing and tagging approach that uses not only generic PoS tags but also domain-specific PoS tags, grammatical rules, and domain knowledge. Experimental results show that our approach has a good level of accuracy when applying it to different domains

    Agglutinatiivisten kielten käsittely hakulausekkeissa

    Get PDF
    Agglutinatiiviset kielet kohtaavat erityisiä haasteita kieliteknologian alalla, johtuen sanojen morfologisesta monimutkaisuudesta ja usein myös kielellä saatavan aineiston vähyydestä. Näissä kielissä sanoilla voi olla käytännössä rajaton määrä eri muotoja, joita ohjelmien odotetaan pystyvän käsittämään ja ymmärtämään. Sen sijaan analyyttisissa kielissä, kuten englannissa, sanat harvoin, jos koskaan, taipuvat tai sisältävät affikseja eli sanaliitteitä. Tutkielmassa käsiteltävät perinteiset metodit ovat stemmaus, lemmaus, sanaluokkajäsennys, morfologinen koodaus, nimien tunnistaminen, kyselyn laajentaminen, parafraasitietokannat sekä hukkasanojen poisto. Hukkasanojen, eli hakulausekkeen kannalta merkityksettömät saneet, kuten konjunktiot, poisto toteutetaan ensimmäisenä, jotta turhia sanoja ei käsiteltäisi. Stemmauksessa sane, eli sanan konkreettisesta esiintymästä tekstissä (vrt. ”kukka” ja ”kukkien”, joista jälkimmäinen sane) poistetaan affiksit ja typistetään juureensa (”kukkien” tapauksessa ”kuk”). Läheistä sukua olevassa lemmauksessa palautetaan sanan perusmuoto. Sanaluokkajäsennyksessä merkitään saneen kieliopilliset koodit, jonka jälkeen voidaan tunnistaa erisnimiä hakulausekkeen joukosta. Kyselyn laajentamisessa hakulausekkeeseen joko sisällytetään hakusanojen synonyymeja tai useampia sijamuotoja; samankaltaisessa prosessissa parafraasitietokantoja käytetään kiertoilmausten etsimiseen. Kaikki nämä metodit perustuvat joko tilastollisiin menetelmiin tai asiantuntijoiden laatimiin kielikohtaisiin sääntöihin. Nämä perinteiset, melko yksinkertaisetkin metodit vaativat huomattavasti enemmän sääntöjä ja dataa agglutinatiivisten kielten käsittelyssä verrattuna analyyttisiin kieliin. Toimivimmillaan metodit ovat kielikohtaisissa ohjelmissa, tai laajemmin nimenomaan agglutinatiivisille kielille koskevissa ohjelmissa. Käytännössä hakukoneet käyttävät samanaikaisesti useampia metodeja mielekkäiden tulosten palauttamiseksi. Viimeisen kymmenen vuoden aikana neuroverkot ovat muodostuneet yhä tärkeämmäksi työvälineeksi kieliteknologian alalla, kun tilastollisten ja sääntöpohjaisten metodien rinnalla on alettu tarkastelemaan sanojen kontekstia. Kirjallisuuskatsauksessa tarkastelen, minkälaisilla metodeilla hakukoneet käsittelevät agglutinatiivisten kielten hakulausekkeita. Tutkielman lähteet on valittu viidestä eri tietokannasta perustuen otsikkoon, tiivistelmään, julkaisufoorumin luokitukseen ja lopulta yleiseen silmäilyyn
    corecore