22 research outputs found
Breaking the rules. Ir and Business
The emergence of advanced information retrieval technologies has caused a drastic change in business
models, in the nature of information intermediaries and in its automated processing. The characteristics
of these changes and their economic consequences are analyzed
Nieuwe spelers in de informatiemaatschappij ā speelt IT-auditor mee?
Kiezen is steeds complexer geworden en vergt steeds meer (achtergrond)informatie en begeleiding. Deze begeleiding wordt geboden door intermediairs, zoals de verzekeringsagent, de hypotheekadviseur en de reisagent. Zij zorgen dat het aanbod behapbaar wordt en dat u uw juiste keuze kunt maken. In toenemende mate worden deze intermediairs vervangen door systemen. De auditor kan zowel intermediair zijn als gebruiker van intermediaire systemen
Wat zijn de baten van documentmanagement?
Documentmanagement, veelal voorzien van een stofļ¬g imago, staat vaak niet hoog op de prioriteitenlijst van de Chief Information Of ļ¬cer. Jammer, omdat juist bij het invoeren van een goed documentmanagementsysteem vele baten te realiseren zijn. Baten die kunnen bijdragen aan het succes van informatiemanagement voor de organisatie
An axiomatic theory for information retrieval
Systemen die aan de hand van een vraagstelling relevante informatie opleveren worden
information retrieval (IR) systemen genoemd. Deze systemen spelen een steeds belang-
rijker rol in de informatievoorziening, zeker gezien de toenemende mate waarin docu-
menten met ongestructureerde informatie (zoals rapporten, memo's, verslagen, foto's en
video's) voor nader gebruik worden opgeslagen en het toenemend gebruik van digitale
bibliotheken voor dit doel. Helaas komt het maar al te vaak voor dat opgeslagen rele-
vante informatie, indien nodig, niet meer terug te vinden is. Dit is een gevolg van het
feit dat het heel lastig is om te bepalen of een document relevant is voor een gegeven
vraagstelling. Het terugvinden van relevante informatie, met uitsluiting van irrelevante
informatie, wordt bovendien bemoeilijkt door het feit dat informatie niet meer in een
statisch informatiedomein staat opgeslagen maar, mede door de opkomst van het digitale
wegennet (Internet), zich kan bevinden in diverse, over de wereld verspreide, dynamische
informatiedomeinen.
De essentie van het zoeken naar relevante informatie kan als volgt omschreven worden:
`Op welke wijze kan men relevante informatie onderscheiden van niet-relevante
informatie met betrekking tot een zekere informatiebehoefte.'
Naarmate een informatiedomein meer informatie bevat en er meer informatiedomeinen
moeten worden doorzocht, wordt de rol van een IR-systeem belangrijker. Handmatige
controle van het resultaat -is alle relevante informatie nu wel gevonden?- is onmogelijk
geworden. Het wordt zodoende steeds belangrijker om op een verantwoorde wijze een
IR-systeem, of een combinatie van meerdere IR-systemen, te selecteren.
Om te helpen bij het maken van een verantwoorde keuze wordt in dit proefschrift
een theoretisch raamwerk voor IR-systemen gepresenteerd. In dit raamwerk wordt vooral
gekeken naar de wijze waarop in een IR-systeem een relevantie-beslissing tot stand komt.
Aan de hand van deze studie zijn we in staat kwalitatieve uitspraken te doen over de
relevantie-beslissingen van verschillende IR-systemen en kunnen we op deze manier ko-
men tot een vergelijking van hun doelmatigheid.
Als uitgangspunt geldt dat ieder IR-systeem een bepaalde methode heeft om te beslis-
sen of een document relevant is gegeven een vraagstelling. Deze methode is afgeleid aan
de hand van een model. Een IR-model is gebaseerd op de volgende drie fundamenten:
191?192 Samenvatting
(i) de documentrepresentatie
voor de meeste IR-modellen is dit gewoon een verzameling representatieve tref-
woorden (keywords) maar steeds vaker gebruikt men tegenwoordig meer complexe
representaties die de inhoud van een document preciezer omschrijven.
(ii) de vraagstelling
deze wordt meestal zo samengesteld dat deze direct passend is op de documentre-
presentatie van het model. In veel modellen kan een vraagstelling worden samen-
gesteld met behulp van connectoren zoals `en', `of', en `niet'.
(iii) de matchingfunctie
deze functie bepaalt of een documentrepresentatie relevant geacht kan worden ge-
geven de vraagstelling. Sommige modellen maken hierbij gebruik van opgeslagen
kennis zoals die bijvoorbeeld aanwezig is in een thesaurus. Een matchingfunctie
kan in plaats van relevant of niet relevant ook gradaties aangeven door middel van
een rankingproces.
Information retrieval onderzoekers voeren vele discussies of de aanpak in model X beter
is dan de aanpak in model Y. In deze discussie kiest men vaak positie aan de hand van
toetsen die plaats vinden op grote, speciaal geprepareerde testcollecties (bijvoorbeeld de
TREC testcollectie die meer dan 3 gigabyte aan informatie bevat). In zogenaamde recall
en precision-berekeningen worden de resultaten van de toetsen omgezet in statistische
waarden, die aangeven hoe doortastend en accuraat een bepaald IR-systeem is. De
recallwaarde geeft aan hoeveel relevante documenten door het systeem zijn opgeleverd
ten opzichte van de in het informatiedomein aanwezige relevante documenten. Precision
geeft aan hoeveel opgeleverde documenten daadwerkelijk relevant zijn. Een hoge recall
geeft dus aan dat het IR-systeem min of meer alles gevonden heeft wat relevant is, een
hoge precision geeft aan dat alles wat door het systeem gevonden is, ook relevant is.
In dit proefschrift wordt, in plaats van een experimentele, een theoretische vergelij-
kingsmethode voor IR-systemen gepresenteerd. Omdat elk IR-model gebaseerd is op een
geschikt begrip van `relevantie', wordt eerst onderzocht hoe dit begrip kan worden ge-
formaliseerd. In 1971 introduceerde Cooper een objectieve notie van relevantie genaamd
`logisch relevant'. Deze notie plaatst het begrip relevantie in een logische context, en
onttrekt het aan subjectieve interpretaties. Bij logische relevantie gaat het erom of men
op een logische wijze een relevantie-beslissing kan a eiden. Om verwarring tussen de be-
grippen `relevant' en `logisch relevant' te vermijden, gebruiken we determ omtrentheid
(in het engels `aboutness') om aan te duiden dat informatie omtrent andere informatie
is. In 1986 presenteerde Van Rijsbergen het idee om te onderzoeken of er een logica,
dus een taal en een formeel bewijssysteem, bestaat die de omtrentheid-relatie kan de-
ni?eren. In dit proefschrift wordt aangetoond dat dit mogelijk is. Dit is vervolgens het?193
uitgangspunt van onze vergelijkingsmethode: stel dat omtrentheid is te karakteriseren in
termen van een logica, dan kan van ieder IR-model een bewijssysteem van omtrentheid
gegeven worden. Zo kunnen we dus IR-modellen aan de hand van hun bewijssystemen
gaan vergelijken.
In dit proefschrift worden de omtrentheidsbeslissingen van een aantal bekende IR-
modellen onderzocht en vervolgens vergeleken. Daarvoor wordt eerst in hoofdstuk 3
een theoretisch raamwerk samengesteld, waarin de fundamenten van de IR-systemen
uitgedrukt kunnen worden. Binnen dit raamwerk wordt een taal geformuleerd waarin
representaties van documenten en vraagstellingen beschreven kunnen worden. Deze taal
is gebaseerd op de zogenaamde Situation Theory. De representaties van documenten en
de vraagstellingen worden vertaald naar situaties. Rest de vraag wanneer een bepaalde
situatie omtrent een andere situatie is.
Om deze vraag te beantwoorden presenteren we een aantal axioma's en a eidingsre-
gels (tezamen postulaten genoemd). Deze postulaten drukken bepaalde karakteristieke
eigenschappen van `omtrentheid' uit. Zo is er bijvoorbeeld de regel Symmetry. Deze regel
stelt dat er geen enkel verschil bestaat tussen concluderen dat situatie S omtrent situatie
T is en concluderen dat situatie T omtrent situatie S is. Met behulp van een taal en een
keuze uit de axioma's en de regels, kan een bewijssysteem voor omtrentheid gecre?eerd
worden. In dit systeem kunnen we dan stapsgewijs, gegeven een aantal feitelijkheden
(de axioma's) en bepaalde regels, a eiden of een situatie omtrent een andere situatie is.
Deze manier van redeneren kunnen we op IR-modellen toepassen.
In hoofdstuk 4 postuleren we zes bekende IR-modellen vanuit deze invalshoek. Na de
presentatie van elk model worden de taal van situaties, de axioma's en de a eidingsregels
gegeven die horen bij het model. Om aan te kunnen tonen dat het bewijssysteem ook
inderdaad het IR-model representeert, worden gezondheid en volledigheid theorema's be-
wezen. Is een bewijssysteem gezond ten opzichte van het model dan betekent dit dat alles
wat in het bewijssysteem bewezen kan worden ook inderdaad een omtrentheidsbeslissing
van het model is. Volledigheid stelt het omgekeerde: alle omtrentheidsbeslissingen van
het model kunnen ook bewezen worden met het voorgestelde systeem.
In hoofdstuk 5 gebruiken we de theorie om IR-systemen te vergelijken. We vergelijken
IR-modellen op basis van hun bewijssystemen. Sommige systemen zijn `bevat' in andere
systemen. Een systeem A is bevat in een systeem B als iedere omtrentheidsbeslissing
van A ook een omtrentheidsbeslissing van B is en als bovendien de taal van A een
deelverzameling van de taal van B is. In hoofdstuk 5 deni?eren we verschillende niveaus
van bevat zijn, om vervolgens tot een overzicht tekomen op welke wijze de zes modellen
aan elkaar gerelateerd zijn.
Men kan zich nu richten op de vraag wat het voor een relevantie-beslissing van een
IR-model A ten opzichte van de relevantie-beslissing van model B betekent dat het
corresponderend bewijssysteem van A bevat is in het bewijssysteem van B. Het is dan?194 Samenvatting
mogelijk om kwalitatieve uitspraken te doen over kwantitatieve grootheden zoals recall
en precision. Zo wordt in hoofdstuk 5 bewezen dat als een omtrentheidsrelatie monotoon
1
is, een uitbreiding van de documentrepresentatie (zoals het toevoegen van woorden aan
de beschrijving van het een document) nooit zal leiden tot een verlaging van de recall.
Bovendien kunnen we uitspraken doen over de recall-waarde, en in enkele gevallen over
de precision-waarde, van de gepresenteerde modellen ten opzichte van elkaar.
In hoofdstuk 6 presenteren we drie door ons onderzochte mogelijke toepassingen van
de theorie. Allereerst gebruiken we de theorie om te analyseren op welke wijze men IR-
systemen met elkaar kan combineren. De aandachtspunten zijn dan welke systemen aan
elkaar gekoppeld kunnen worden, en op welke wijze, en of dit inderdaad leidt tot een beter
resultaat. Vervolgens geven we aan dat een ordening op bewijssystemen kan leiden tot
een preferenti?ele ordening van documenten. Bovendien kan men, gegeven een gewenste
ordening op bewijssystemen, het rankingproces van IR-systemen inspecteren. Tenslotte
wordt in hoofdstuk 6 getoond op welke wijze men de meta-theorie kan toepassen als
modelleringsmethode voor IR ge-ori?enteerde hypermedia toepassingen.
Samenvattend, met behulp van de theorie die in dit proefschrift wordt opgebouwd,
kan men analyseren op welke wijze IR-systemen besluiten dat een document relevant is
gegeven een vraagstelling. Deze analyse kan men op velerlei manieren toepassen. Het
is mogelijk om de beslisstappen te vergelijken, te verbeteren en te koppelen. De theorie
is ook toepasbaar om andere aspecten, zoals ordening van documenten en hypermedia-
toepassingen, te bestuderen.
1
Monotoon betekent hier: als voor iedere situatie S; T en U geldt dat: als S omtrent T is dan is S
verenigd met U omtrent T
Childrenās information retrieval: beyond examining search strategies and interfaces
The study of childrenās information retrieval is still for the greater part untouched territory. Meanwhile, children can become lost in the digital information world, because they are confronted with search interfaces, both designed by and for adults. Most current research on childrenās information retrieval focuses on examining childrenās search performance on existing search interfaces to determine what kind of interfaces are suitable for childrenās search behaviour. However, to discover the true nature of childrenās search behaviour, we state that research has to go beyond examining search strategies used with existing search interfaces by examining childrenās cognitive processes during information-seeking. A paradigm of childrenās information retrieval should provide an overview of all the components beyond search interfaces and search strategies that are part of childrenās information retrieval process. Better understanding of the nature of childrenās search behaviour can help adults design interfaces and information retrieval systems that both support childrenās natural search strategies and help them find their way in the digital information world
Een theorie voor het bestuderen van information retrieval modellen
In dit artikel wordt een theoretisch raamwerk voor het bestuderen van information retrieval (IR) modellen gepresenteerd. Deze studie richt zich met name op de wijze waarop modellen besluiten dat een informatie item omtrent een ander informatie item is. Het raamwerk vindt zijn oorsprong in de Situation Theory. Zogenaamde infons en profons stellen elementaire informatie-dragers voor. Deze kunnen bewerkt worden door middel van fusie operatoren. Middels deze operatoren kunnen relaties tussen informatie-dragers worden vastgelegd. Een verzameling infons vormt een zogenaamde situatie waarmee informatie voorkomend in objecten, zoals documenten, gemodelleerd kan worden. Een willekeurig information retrieval model kan afgebeeld worden in dit raamwerk. Afhankelijk van het soort model zijn hiervoor speciale functies gedefinieerd . Binnen het theoretisch raamwerk definiƫren wij een verzameling postulaten, die gebruikt kunnen worden om de omtrentheid relaties geassocieerd met information retrieval modellen, te beschrijven. Aan de hand van deze postulaten zijn wij in staat kwalitatieve uitspraken te doen over de verschillende omtrentheid-relaties die door de verschillende information retrieval modellen genduceerd worden. Ook is het mogelijk kwalitatieve uitspraken te doen over kwantitatieve grootheden als recall en precision. Aan de hand van het boolse retrieval model tonen wij de toepasbaarheid van ons theoretische raamwerk
in de praktijk van de information retrieval
Evaluating Relevance Feedback: An Image Retrieval Interface for Children
Studies on information retrieval for children are not yet\ud
common. As young children possess a limited vocabulary\ud
and limited intellectual power, they may experience more\ud
difficulty in fulfilling their information need than adults.\ud
This paper presents an image retrieval user interface that\ud
is specifically designed for children. The interface uses relevance feedback and has been evaluated by letting children\ud
perform different search tasks. The tasks were performed\ud
using two interfaces; a more traditional interface - acting as a control interface - and the relevance feedback interface. \ud
One of the remarkable results of this study is that children\ud
did not favor relevance feedback controls over traditional\ud
navigational controls