Automatischer Aufbau eines multilingualen Thesaurus durch Extraktion semantischer und lexikalischer Relationen aus der Wikipedia

Abstract

Die vorliegende Diplomarbeit beschreibt und analysiert Methoden, um aus den Datenbeständen der Wikipedia in verschiedenen Sprachen einen multilingualen Thesaurus zu erstellen. Dabei sollen insbesondere die Beziehungen zwischen Termen (Wörtern, Wortformen, Phrasen) zu sprachunabhängigen Konzepten extrahiert werden sowie die Beziehungen zwischen solchen Konzepten, speziell Beziehungen der Über- bzw. Unterordnung (Subsumtion) sowie der semantischen Verwandtheit und Ähnlichkeit. Zu diesem Zweck werden die Anforderungen sowie die verfügbaren Rohdaten analysiert, ein Prototyp zur Extraktion der gewünschten Daten entwickelt und die mit dem Prototyp gewonnenen Daten in Bezug auf die zuvor formulierten Anforderungen evaluiert

    Similar works