thesis

Methods for Answer Extraction in Textual Question Answering

Abstract

In this thesis we present and evaluate two pattern matching based methods for answer extraction in textual question answering systems. A textual question answering system is a system that seeks answers to natural language questions from unstructured text. Textual question answering systems are an important research problem because as the amount of natural language text in digital format grows all the time, the need for novel methods for pinpointing important knowledge from the vast textual databases becomes more and more urgent. We concentrate on developing methods for the automatic creation of answer extraction patterns. A new type of extraction pattern is developed also. The pattern matching based approach chosen is interesting because of its language and application independence. The answer extraction methods are developed in the framework of our own question answering system. Publicly available datasets in English are used as training and evaluation data for the methods. The techniques developed are based on the well known methods of sequence alignment and hierarchical clustering. The similarity metric used is based on edit distance. The main conclusions of the research are that answer extraction patterns consisting of the most important words of the question and of the following information extracted from the answer context: plain words, part-of-speech tags, punctuation marks and capitalization patterns, can be used in the answer extraction module of a question answering system. This type of patterns and the two new methods for generating answer extraction patterns provide average results when compared to those produced by other systems using the same dataset. However, most answer extraction methods in the question answering systems tested with the same dataset are both hand crafted and based on a system-specific and fine-grained question classification. The the new methods developed in this thesis require no manual creation of answer extraction patterns. As a source of knowledge, they require a dataset of sample questions and answers, as well as a set of text documents that contain answers to most of the questions. The question classification used in the training data is a standard one and provided already in the publicly available data.Tekstuaalinen kysymysvastausjärjestelmä on tietokoneohjelma, joka vastaa käyttäjän esittämiin kysymyksiin tekstidokumenteista eristämillään vastauksilla. Tekstuaaliset kysymysvastausjärjestelmät ovat tärkeä tutkimusongelma, sillä digitaalisessa muodossa olevien tekstidokumenttien määrä lisääntyy jatkuvasti. Samalla kasvaa myös sellaisten tiedonhakumenetelmien tarve, joiden avulla käyttäjä löytää tekstidokumenteista olleellisen tiedon nopeasti ja helposti. Kysymysvastausjärjestelmiä on tutkittu jo 1960-luvulta alkaen. Ensimmäiset järjestelmät osasivat vastata suppeaan joukkoon määrämuotoisia kysymyksiä, jotka koskivat jotakin tarkasti rajattua aihepiiriä kuten pesäpallotuloksia. Nykyään kysymysvastausjärjestelmien tutkimuksessa keskitytään järjestelmiin, joissa kysymykset voivat olla melko vapaasti muotoiltuja ja ne voivat liittyä mihin tahansa aihepiiriin. Nykyjärjestelmissä tiedonhaku kohdistuu usein laajoihin tekstidokumenttikokoelmiin kuten WWW:hen ja sanomalehtien uutisarkistoihin. Toisaalta myös rajatun aihepiirin järjestelmät ovat yhä tärkeä tutkimuskohde. Käytännön esimerkkejä rajatun aihepiirin järjestelmistä ovat yritysten asiakaspalvelua helpottavat järjestelmät. Nämä järjestelmät käsittelevät automaattisesti osan asiakkaiden yritykselle osoittamista kysymyksistä tai toimivat asiakasneuvojan apuvälineenä hänen etsiessään tietoa asiakkaan kysymykseen. Tässä väitöskirjassa kehitetyt menetelmät ovat sovellettavissa sekä avoimen että rajatun aihepiirin kysymysvastausjärjestelmiin. Väitöskirjassa on kehitetty kaksi uutta menetelmää vastausten eristämiseksi tekstistä ja tekstuaalinen kysymysvastausjärjestelmä, joka käyttää molempia menetelmiä. Menetelmät on arvioitu julkisesti saatavilla olevalla testidatalla. Väitöskirjassa kehitetyt vastauksen eristämismenetelmät ovat oppivia. Oppivuudella tarkoitetaan sitä, että vastausten eristämiseen käytettäviä hahmoja ei tarvitse ohjelmoida, vaan ne tuotetaan automaattisesti esimerkkidatan perusteella. Oppivuudella tehostetaan uusien kysymysvastausjärjestelmien kehittämistä. Tehokas järjestelmäkehitys on erityisen tärkeää silloin kun järjestelmästä tarvitaan useita kieliversioita. Myös uusien kysymys- ja tekstityyppien lisääminen järjestelmään helpottuu oppivan menetelmän ansiosta

    Similar works