Themenextraktion zur Domänenauswahl für Programmierung in natürlicher Sprache

Abstract

Für den Menschen sind Kontexte von Anweisungen für die Programmierung in natürlicher Sprache einfach ersichtlich, für den Rechner ist dies nicht der Fall. Eine Art des Kontextwissens ist das Verständnis der Themen. Hierfür wird im Rahmen des PARSE-Projekts zur Programmierung in natürlicher Sprache ein Ansatz zur Themenextraktion vorgestellt, welcher mit Hilfe der Wikipedia als Informationsquelle passende Themen aus den Anweisungen extrahiert. Dafür wird eine Auflösung von mehrdeutigen Nomen benötigt, weshalb in dieser Arbeit ebenfalls ein Werkzeug dafür entwickelt wird. Als einen konkreten Anwendungsfall für die extrahierten Themen wird die Auswahl von passenden Ontologien zu diesen Themen angegangen. Durch diese Auswahl wird ermöglicht, statt einer großen allgemeinen Ontologie mehrere kleine domänenspezifische Ontologien einzusetzen. Auf einem Korpus mit Anweisungen für die Programmierung in natürlicher Sprache konnte für die Auflösung von Mehrdeutigkeiten eine Genauigkeit von 87,80% erreicht werden. Um die Themenextraktion zu evaluieren, wurde eine Umfrage durchgeführt, die ergab, dass das erste extrahierte Thema in bis zu 63,6% der Fälle treffend war. Unter den ersten vier extrahierten Themen konnte sogar in knapp 91% der Fälle mindestens ein passendes Thema gefunden werden. Zuletzt wurden in der Evaluation der Ontologieauswahl gute Ergebnisse erzielt, wobei ein F1-Maß von 90,67% und ein F2-Maß von 89,94% erreicht wurden. Dabei wurde festgestellt, dass Schwierigkeiten auftreten, wenn bei der Auswahl mehrere Ontologien benötigt werden. Der Ansatz könnte zukünftig daher mit einer verbesserten Erkennung von unterschiedlichen Themen in der Eingabe weiter ausgebaut werden

    Similar works