    Web Retrieval Experiments with the EuroGOV Corpus

    In the CLEF 2005 initiative, multlingual web retrieval was integrated as a task for the first time. This paper describes experiments based on one multilingual index carried out at the University of Hildesheim. Several indexing strategies based on a multi-lingual index have been tested with the EuroGOV corpus. Boosting topic fields with higher weight led to best results during post submission runs. The experiments also led to experiences in working with large test collections and the challenges associated with them

    Multilinguales Webretrieval am Beispiel des EuroGOV Korpus

    Die vorliegende Arbeit befasst sich mit Multilingualem Webre- trieval. Am Anfang werden verschiedene Retrieval Evaluation Initiativen beschrieben. Das Hauptaugenmerk liegt auf dem Cross Language Evaluation Forum (CLEF), mit dem in diesem Jahr gestarteten Web Track WebCLEF. Der Web Track WebCLEF ist in Anlehnung an die Web Tracks der TREC und NTCIR Initiativen entwickelt worden. Der entscheidene Unterschied zu diesen Tracks ist der multilinguale Ansatz, der im WebCLEF Track verfolgt wird. Allen Teilnehmern wurde eine Testkollektion bestehend aus dem EuroGOV Korpus, 547 Topics und der dazugehörigen Relevanzbewertung zur Verfügung gestellt. Neben dem Vergleich des WebCLEF Tracks zu den anderen Initiativen steht die aktive Teilnahme im Mittelpunkt dieser Arbeit. Aufgezeigt werden die Rahmenbedingungen für die Teilnahme, Eigenschaften der Testkollektion, die Vorgehensweise und Ziele des Institutes für Angewandte Sprachwissenschaften (IFAS) der Universität Hildesheim, Erfahrungen und Schwierigkeiten beim Generieren der verschiedenen Indizes, der eigentliche Retrievalprozess und die dazugehörigen Ergebnisse aller Experimente. Als Abschluss dieser Arbeit wird die Teilnahme ausgewertet, Verbesserungen zum eigentlichen Web Track und ein Ausblick für die erneute Teilnahme am WebCLEF Track 2006 dargestelltAbstract This thesis deals with multilingual web retrieval. The main focus is on the active participation of the University of Hildesheim at the first web track of the Cross Language Evaluation Forum (CLEF). The web track WebCLEF originated from the two evaluation initiatives TREC and NTCIR. The main distinction between WebCLEF and the other initiatives is the multilingual approach. Every participating group received a generated test collection for this web track. This collection consists of a multilingual web corpus (EuroGOV), 547 topics and the relevance assessments for those topics. This thesis starts with a description of the WebCLEF track and its belonging to the CLEF initiative. In addition three different web tracks will be specified and compared to the WebCLEF track. The main part of this thesis covers up the procedure of the experiments with a multilingual index at the University of Hildesheim together with all the experiences that have been gained from the participation. Finally, the experiences and the results of the submitted runs as well as the post experiments will be evaluated, so that suggestions for improving the track and the next participation in 2006 can be achieved