Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä

Abstract

Tutkimuksen tarkoituksena on selvittää kyselyn laajentamisen vaikutusta lyhyisiin, eritasoisesti toimiviin aloituskyselyihin. Kyselyn laajennus on toteutettu relevanssipalautteella ja pseudorelevanssipalautteella. Relevanssipalautteessa käyttäjä valitsee tuloslistasta relevantiksi arvioimansa dokumentin tai useita dokumentteja ja hakujärjestelmä muodostaa dokumenteissa esiintyviä sanoja hyödyntäen muokatun kyselyn. Pseudorelevanssipalautteessa hakujärjestelmä poimii automaattisesti tuloslistan kärjestä halutun määrän dokumentteja, joista se edelleen valitsee hakutermejä ja tekee näillä uuden kyselyn. Päätutkimuskysymykseni on: Kuinka käyttäjän tekemän kyselyn pitäisi onnistua, jotta relevanssipalautteella ja pseudorelevanssipalautteella voitaisiin parantaa hakutehokkuutta? Lisäksi tarkoituksenani on selvittää tarkemmin palautedokumenttien määrän vaikutusta hakutehokkuuteen, sekä huomioida myös relevanssipalautteeseen valittavien dokumenttien relevanssitason vaikutus. Tutkimus on toteutettu osittaistäsmäyttävällä Lemur Indri -tiedonhakujärjestelmällä. Testikokoelmana on TRECUTA -dokumenttikokoelma ja käytössä on 35 hakuaihetta. Hakutehokkuuden mittarina käytetään keskitarkkuuksien keskiarvoa (MAP = mean average precision) ja tulosten tilastollinen merkitsevyys on testattu Friedmanin testillä. Lisäksi tulosten käytännön merkittävyyttä on arvioitu Sparck-Jonesin prosenttiyksiköiden eroon perustuvalla mittarilla. Lähtötilanteena tutkimuksessa on kolmella eri tasolla onnistuneet, enintään kolmen sanan mittaiset kyselyt, joita kutsutaan tässä heikosti, hieman paremmin ja hyvin onnistuneiksi aloituskyselyiksi. Eritasoiset kyselyt olen muokannut tutkimusta varten hakuaiheiden otsikoissa ja relevanteissa dokumenteissa esiintyvien termien avulla. Tutkimuksessa ei ole käytetty koehenkilöitä. Tutkimuksen mukaan relevanssipalautteella voidaan parantaa hakutehokkuutta kyselyn onnistuneisuudesta riippumatta. Relevanssipalaute hyvin onnistuneesta aloituskyselystä tuotti enemmän relevantteja dokumentteja kuin heikkotasoisesta kyselystä. Suhteellisesti laskettuna heikkotasoinen kysely hyötyy kuitenkin eniten relevanssipalautteesta. Relevanssipalautteeseen kannattaa tämän tutkimuksen perusteella valita mahdollisimman monta relevanttia dokumenttia relevanssitasosta riippumatta, vaikka hyviin tuloksiin päästään jo yhdelläkin palautedokumentilla. Tämän tutkimuksen perusteella pseudorelevanssipalaute ei yleensä paranna tai heikennä hakutehokkuutta niin, että ero olisi tilastollisesti merkitsevä. Toisin sanoen vaikutus näyttää olevan hyvin sattumanvarainen. Myöskään kyselyn onnistuneisuudella tai palautedokumenttien määrällä ei näyttänyt olevan vaikutusta pseudorelevanssipalautteen toimivuuteen. Avainsanat: kyselyn laajentaminen, relevanssipalaute, pseudorelevanssipalaute, kyselyn onnistuneisuu

    Similar works