Search CORE

5 research outputs found

Managing Keyword Variation with Frequency Based Generation of Word Forms in IR

Author: Kettunen Kimmo
Publication venue
Publication date: 01/01/2007
Field of study

Proceedings of the 16th Nordic Conference of Computational Linguistics NODALIDA-2007. Editors: Joakim Nivre, Heiki-Jaan Kaalep, Kadri Muischnek and Mare Koit. University of Tartu, Tartu, 2007. ISBN 978-9985-4-0513-0 (online) ISBN 978-9985-4-0514-7 (CD-ROM) pp. 318-323

CiteSeerX

DSpace at Tartu University Library

Targeted Query Expansions as a Method for Searching Mixed Quality Digitized Cultural Heritage Documents

Author: Arvola Paavo
Ferro Nicola
Järvelin Anni
Järvelin Kalervo
Kekäläinen Jaana
Keskustalo Heikki
Kettunen Kimmo
Kumpulainen Sanna
Saastamoinen Miamaria
Silvello Gianmaria
Sormunen Eero
Publication venue: 'iSchools'
Publication date: 01/01/2015
Field of study

Digitization of cultural heritage is a huge ongoing effort in many countries. In digitized historical documents, words may occur in different surface forms due to three types of variation - morphological variation, historical variation, and errors in optical character recognition (OCR). Because individual documents may differ significantly from each other regarding the level of such variations, digitized collections may contain documents of mixed quality. Such different types of documents may require different types of retrieval methods. We suggest using targeted query expansions (QE) to access documents in mixed-quality text collections. In QE the user-given search term is replaced by a set of expansion keys (search words); in targeted QE the selection of expansion terms is based on the type of surface level variation occurring in the particular text searched. We illustrate our approach in a highly inflectional compounding language, Finnish while the variation occur across all natural languages. We report a minimal-scale experiment based on the QE method and discuss the need to support targeted QEs in the search interface.ye

Illinois Digital Environment for Access to Learning and Scholarship Repository

International Migration, Integration and Social Cohesion online publications

UvA-DARE

Archivio istituzionale della ricerca - Università di Padova

Kyselynkäsittelymenetelmien evaluointitutkimus Suomalaisen verkkoarkiston taivutusmuotoindeksiä käyttäen

Author: Veikkolainen Petteri
Publication venue
Publication date: 30/12/2015
Field of study

Suomen kielen rikas morfologia aiheuttaa tiedonhaulle haasteita. Jotta tiedonhaku on tuloksellista, täytyy kyselyn sanamuoto saada täsmäämään dokumentissa esiintyvän sanamuodon kanssa. Tässä tutkimuksessa verrataan neljän eri kyselynkäsittelymenetelmän tuloksellisuutta dokumenteista rakennetussa taivutusmuotoindeksissä. Aiempi suomenkielisellä aineistolla toteutettu tiedonhaun evaluointitutkimus on käyttänyt dokumenttikokoelmina pääasiassa lehtiartikkelikokoelmista rakennettuja testikokoelmia. Tässä tutkimuksessa käytetään artikkelikokoelman sijaan Suomalaisesta verkkoarkistosta rakennettua testikokoelmaa, joka sisältää verkkosivuja joiden sisältö ja laatu vaihtelevat paljon. Tutkielmassa verrattavat menetelmät ovat Frequent case generation 3 (FCG3), Simple word ending based rule generator (SWERG+), Snowball-stemmaus yhdistettynä villiin korttiin sekä käsittelemättömät kyselyt. Tämän tutkimuksen tutkimusmenetelmä on tiedonhaun laboratoriomallin mukainen testaus. Sen suorittamiseksi Suomalaisesta verkkoarkistosta oli rakennettava testikokoelma. Testikokoelmaan valittiin lopulta 16 hakuaihetta, joista muodostetuilla lyhyillä kyselyillä suoritettiin kyselyajot. Ajojen tulokset mitattiin tarkkuudella kymmenen ensimmäisen tulosdokumentin kohdalla sekä kumuloituvan hyödyn mittarilla. Tutkimuksessa havaittiin FCG3-menetelmän tuottavan perustasona toimineita käsittelemättömiä kyselyitä parempia tuloksia. Sen sijaan aiemmassa tutkimuksessa hyvin suoriutunut SWERG+-menetelmä ei tuottanut tässä tutkimuksessa perustasoa parempia tuloksia. Snowball-stemmaus yhdistettynä villiin korttiin taas tuotti perustasoa heikompia tuloksia

Trepo - Institutional Repository of Tampere University

Restricted Inflectional Form Generation in Management of Morphological Keyword Variation

Author: Airio Eija
Järvelin Kalervo
Kimmo Kettunen
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2007
Field of study

TamPub Julkaisuarkisto - TamPub Institutional Repository

Trepo - Institutional Repository of Tampere University

Restricted inflectional form generation in management of morphological keyword variation

Author: B. Comrie
B. Jansen
B. Jansen
C. D. Manning
C. Galvez
C. Galvez
C. Jacquemin
D. A. Grossman
D. Metzler
E. Airio
Eija Airio
F. Karlsson
J. Bar-Ilan
J. Xu
K. Kettunen
K. Kettunen
K. Koskenniemi
Kalervo Järvelin
Kimmo Kettunen
M. Bacchin
M. Braschler
M. Popovič
P. Ahlgren
R. Baeza-Yates
R. H. Baayen
R. H. Baayen
S. Koval
S. Siegel
T. Hedlund
V. Hollink
W. J. Conover
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2007
Field of study

Crossref

TamPub Julkaisuarkisto - TamPub Institutional Repository

Trepo - Institutional Repository of Tampere University