research

Automatische Indexierung und elektronische Thesauri

Abstract

Die Diskussion über den praktischen Wert des Einsatzes sprachanalytischer Verfahren in der Erschließung und Verfügbarmachung von Texten (und Titeln) ist fast so alt wie die Erstellung elektronischer Textdatenbanken bzw. bibliographischer Datenbanken (Literaturdatenbanken). Gerald Salton, zunächst ein Pionier des sprachanalytischen Information Retrieval, hatte sich aufgrund wenig überzeugender Ergebnisse zunehmend auf rein statistische Konzepte (v.a. des Document Clustering) verlegt. Vor allem bei Datensammlungen, denen englischsprachige Texte zugrundeliegen, schien die simple Vorgehensweise einer Rechtstrunkierung beim Retrieval, verbunden mit der Ausnutzung von Wortabständen (Adjacency- und Same-Funktion) angesichts der an sich schon großen Variationsbreite sprachlicher Ausdrucksformen, die von "höherwertigen" Systemen auch nicht bewältigt wurden, ein angemessenes Verfahren. In Deutschland gab es allerdings - bedingt durch die stärkere Flexion deutschsprachiger Wörter, v.a. auch durch die Problematik der Wortzusammensetzungen - schon frühzeitig die Bemühung, Verfahren zu entwickeln, die zumindest an der Oberfläche eine grundformorientierte Indexierung ermöglichten und darüberhinaus bei den Komposita eine Dekomposition in (möglichst sinnvolle) Wortbestandteile erzielten. Das von Siemens entwickelte System PASSAT kann hier als Beleg dienen

    Similar works