3,247 research outputs found

    Korpusbasierte Verfahren zur Generierung lexikalischer Ressourcen für das Opinion Mining. Statistische Ansätze und deren Einsatzmöglichkeiten

    Get PDF
    Die ständig zunehmende Anzahl nutzergenerierter textueller Daten im World Wide Web, wie beispielsweise Kundenrezensionen, und die Begehrlichkeiten diese Daten hinsichtlich der darin ausgedrückten Meinungen zu Unternehmen, Produkten, Dienstleistungen etc. maschinell auszuwerten, erfordern gut funktionierende, angepasste Methoden des Opinion Mining. Die Grundlage für viele dieser Methoden bilden lexikalische Ressourcen in Form von Lexika meinungstragender Wörter und Phrasen. Diese Lexika existieren bisher allerdings nur für ausgewählte Sprachen, haben diverse inhaltliche Lücken, und sind automatisch (für verschiedene Sprachen) nur mit großem Aufwand zu erzeugen. In dieser Arbeit wird deshalb ein neues Verfahren vorgestellt, das dazu beitragen soll, die benannten Probleme – durch den Einsatz statistischer Methoden – zu überwinden. Zudem wurde, mittels dieses Verfahrens, der Prototyp eines neuen Lexikons mit meinungstragenden Wörtern und Phrasen für die deutsche Sprache generiert und anschließend evaluiert. Dafür wurde im Rahmen eines Experiments mit 20 Teilnehmern ein Basis-Referenzlexikon für die deutsche Sprache manuell erzeugt. Klassische Einsatzgebiete der Opinion Mining Algorithmen und Ressourcen, und damit des vorgestellten Verfahrens, sind Systeme zur Erfassung von Kundenmeinungen zu verschiedenen Unternehmensbereichen zur Unterstützung des Beschwerde- und Reputationsmanagements. Allerdings sind die Möglichkeiten des neu entwickelten Verfahrens nicht auf diese klassischen Anwendungsfelder begrenzt. Auch der interdisziplinäre Einsatz, z.B. zur Untersuchung von Sprachvarietäten im Forschungsfeld der Sprachstatistik, ist denkbar.The constantly increasing number of user-generated textual data on the World Wide Web, such as customer reviews, and the desire to automatically analyze this data with regard to the opinions expressed therein regarding companies, products, services, etc., require well-functioning, adapted opinion mining methods. Lexical resources – i.e. lexicons of opinion-bearing words and phrases – form the basis for many of these methods. However, these lexicons only exist for selected languages, have various content gaps, and can only be generated automatically (for different languages) with great effort. In this thesis a new method is presented to help overcome the above described problems by using statistical methods. In addition, the prototype of a new lexicon including opinion-bearing words and phrases for the German language was generated by using this method. In order to evaluate this automatically generated resource, an experiment with 20 participants was performed to manually create a reference lexicon for the German language. Traditional application areas of opinion mining algorithms and resources, and thus of the presented approach, are systems for recording customer opinions on various areas of companies in support of complaint and reputation management. However, the possibilities of the newly developed method are not limited to these classic fields of application. Interdisciplinary use, e.g. to study language varieties in the research field of language statistics, is also conceivable

    CTX - ein Verfahren zur computergestützten Texterschließung

    Get PDF
    Zusammen mit Edith Kroupa und Gerald Keil hat Zimmermann diesen Forschungsbericht für das BMFT, in dessen Mittelpunkt die Entwicklung des computergestützten Texterschließungssystems CTX steht, herausgegeben. Es wird zunächst ausführlich auf Methoden und Probleme des Information Retrieval eingegangen. Es folgt eine detaillierte Beschreibung der Grundlagen, Funktionen und Aufgaben von CTX. Der anwendungsbezogene Teil stellt eine Laboranwendung im Bereich "Datenschutz" mit Schwerpunkten auf den Themen Textsorte, Wörterbucharbeit und Deskriptorermittlung sowie einem Vergleich mit dem System PASSAT vor

    Multilinguale Anwendungen der Sprachdatenverarbeitung in Referenz-Informationssystemen

    Get PDF
    Zusammen mit Edith Kroupa berichtet Zimmermann über das Projekt MARIS, in dem im Auftrag des Bundesforschungsministeriums (BMFT) der Einsatz der maschinellen Übersetzung und der automatischen Indexierung zur Überwindung von Sprachbarrieren in Fachinformationssystemen mit dem Ziel der Verbesserung des Information Retrieval für ausgewählte Bereiche (Bauwesen, Normendokumentation und Sozialwissenschaften) erprobt wird

    Automatische Generierung von Softwarebeschreibungen aus Source Code

    Get PDF
    In dieser Arbeit geht es darum, mithilfe von neuronalen Netzen Readme-Dateien automatisch aus dem Sourcecode von Projekten zu erstellen. Die Readme-Dateien sollen den Zweck des Projekts beschreiben und als Basis für Sourcecode-Retrieval Systeme geeignet sein. Das vereinfacht den Umgang mit undokumentierter Software, insbesondere wenn man mit großen Mengen davon konfrontiert ist. Zur Umsetzung werden zwei verschiedenen Ansätze verfolgt. In beiden werden zunächst die wichtigsten Funktionen des Projekts bestimmt, indem der Call-Graph des Projekts erstellt und die zentralsten Knoten in diesem ermittelt werden. Im sog. Inlining-Ansatz werden die wichtigsten Funktionen ineinander geinlined, sodass eine einzige Funktion entsteht, die das gesamte Projekt repräsentiert. Diese dient anschließend als Input für code2seq - einem neuronalen Netz, das Beschreibungen für einzelne Funktionen erstellen kann. Der so entstandene Text wird dann als Readme verwendet. Im sog. Summary-Ansatz generiert code2seq für die wichtigsten Funktionen zuerst einen Docstring. Die Docstrings werden konkateniert und mithilfe von PEGASUS zu einem Readme zusammengefasst. PEGASUS ist ein neuronales Netz, das auf Textzusammenfassung trainiert ist. In beiden Ansätzen wird ein Fine-Tuning der Netze auf ihre neue Aufgabe durchgeführt. Die Ergebnisse werden bewertet, indem sie mit den originalen Readme-Dateien verglichen werden. Dazu kommen die Metriken ROUGE und BLEU, sowie ein BERT-Modell zur Bewertung semantischer Ähnlichkeit zum Einsatz. Zum Schluss wird die Qualität auch durch eine Umfrage unter Softwareexperten bewertet. Das Generieren von sinnvollen Readme-Dateien gelingt mit beiden Ansätzen in seltenen Fällen. Bei den meisten Projekten fehlt den generierten Beschreibungen ein inhaltlicher Bezug zum tatsächlichen Projekt. Deshalb wäre eine weitere Verbesserung der Ansätze nötig, bevor sie für die genannten Zwecke einsetzbar sind

    Multilingualität und Linked Data

    Get PDF
    Cimiano P, Unger C. Multilingualität und Linked Data. In: Pellegrini T, Sack H, Auer S, eds. Linked Enterprise Data. Management und Bewirtschaftung vernetzter Unternehmensdaten mit Semantic Web Technologien. Berlin, Heidelberg: Springer; 2014: 153-175

    Ontology based support of small groups

    Get PDF
    Der Einsatz von Ontologien wird bereits in vielen Anwendungsbereichen als Werkzeug für die Strukturierung und die Verbesserung der Zugänglichkeit von Informationen unterschiedlichster Art genutzt. Sie ermöglichen die explizite Formulierung der Bedeutung von Konzepten und Strukturen beliebiger Domänen. Auch im Rahmen der Zusammenarbeit in und zwischen Gruppen ist der Austausch und die Verarbeitung von Informationen für den Verlauf und den Erfolg der Kooperation von erheblicher Bedeutung. Daher liegt es nahe, auch kollaborative Aktivitäten durch den Einsatz von Ontologien zu unterstützen. Aktuelle Arbeiten in diesem Themenbereich fokussieren jedoch meist auf ausgewählte Aspekte der Zusammenarbeit wie etwa der Kommunikation zwischen den Gruppenmitgliedern oder die Unterstützung durch eine konkrete Softwarekomponente. In dieser Arbeit wird dagegen von einer ganzheitlichen Betrachtung von Kooperationssituationen ausgegangen. Dabei werden die an einer Kooperation beteiligten Personen und die eingesetzten technischen Komponenten als ein gesamtes soziotechnisches System betrachtet, dessen Elemente nicht losgelöst voneinander betrachtet werden können. Das Ziel dieser Arbeit besteht einerseits darin, zu untersuchen, wie sich der Einsatz von Ontologien auf die Unterstützung der Zusammenarbeit auswirkt und andererseits, welche Möglichkeiten sich hieraus für die Gestaltung von Kooperationssystemen ableiten lassen. Einige dieser Möglichkeiten werden im praktischen Teil prototypisch implementiert, um die technische und wirtschaftliche Umsetzbarkeit zu evaluieren.The usage of ontologies is already common in many felds of application to structure diferent kinds of informations and to make them accessible; they further more make it possible to make the meaning of concepts and structures of any domains explicit. In connection with cooperation in and between groups the exchange and processing of informations about the progress and success of cooperation is of considerable meaning. Because of that it seems reasonable to suppose that collaborative activities should be supported by using ontologies. Current works in this feld often focus only on single aspects of cooperation; for example the communication between members of the group or supporting them by using particular software components. This thesis is emanated from the aspect of an integral way of viewing cooperative situations. Especially the cooperation of the involved persons and the technical components should be looked at a sociotechnical system on the whole and not the elements seperated. The aim of this thesis - on the one side - is to determine the impact of using ontologies on supported cooperative work and - on the other side - which possibilities can be derived from that for the design of cooperative systems. Some of these possibilities will be implemented in a prototyp to evaluate the technical and economic feasibility

    Der Saarbrücker Übersetzungsservice STS - Computergestütztes Übersetzen für die Fachinformation

    Get PDF
    Der im Projekt MARIS (Multilinguale Anwendung von Referenz-Informations-Systemen) an der Fachrichtung Informationswissenschaft der Universität des Saarlandes entwickelte Service für computergestützte Übersetzung (STS) wird vorgestellt. Hierbei werden maschinelle und intellektuelle Übersetzung in einer gemeinsamen Systemumgebung (Übersetzerarbeitsplatz) verknüpft. MARIS setzt Verfahren und Systeme der maschinellen Übersetzung bei der Ubersetzung (Deutsch > Englisch) von Titeln, Deskriptoren und Abstracts aus deutschen Datenbanken praktisch ein. Bisher wurden ca. 2 Mio. Wörter übersetzt, vorwiegend für die Datenbankanwendung. MARIS wird vom Bundesministerium für Forschung und Technologie gefördert

    Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen

    Get PDF
    Aufgrund des schnellen Wachstums biomedizinischer Daten sowie der assoziierten Literatur wird es auch für Experten zunehmend schwierig, den Überblick über den aktuellen Wissensstand zu behalten. Der Aufbau und die manuelle Erweiterung von Datenbanken ist teuer und zeitaufwändig, kann jedoch durch linguistische Methoden unterstützt werden, welche Erkenntnisse automatisch aus der wissenschaftlichen Literatur extrahieren. Die vorliegende Dissertation stellt eine solche Methode zur Annotation von Enzymklassen mit krankheitsrelevanten Informationen vor. Die Enzymnamen von 3901 Enzymklassen der BRENDA, einer Sammlung von qualitativen und quantitativen Enzymdaten, wurden in einem Textkorpus aus über 100000 Kurzzusammenfassungen der PubMed-Datenbank identifiziert. Phrasen der Kurzzusammenfassungen konnten durch das MetaMap-Programm den Konzepten des UMLS (Unified Medical Language Systems) zugewiesen werden, was eine Identifikation der krankheitsrelevanten Begriffe mittels ihrer semantischen Felder in der UMLS-Ontologie erlaubte. Eine Zuordnung von Enzymklassen zu Krankheitskonzepten erfolgte aufgrund der gemeinsamen Nennung innerhalb eines Satzes. Die Zahl falscher Zuordnung konnte durch den Einsatz verschiedener Filter verringert werden. Verwendet wurden unter anderem die Mindestzahl gemeinsamer Nennungen, die Entfernung von Sätzen mit einer Negation sowie die Klassifikation unbekannter Sätze durch eine Support Vector Machine. Eine Überprüfung der Zuordnungen anhand 1500 manuell annotierter Sätze ergab eine Präzision von 95%, was eine direkte Erweiterung der BRENDA-Datenbank mit den gefundenen Zuordnungen erlaubte

    Stand und Perspektiven der Sprachtechnologie : mit dem Beispiel der Maschinellen Übersetzung

    Get PDF
    Ausgehend von einer Betrachtung grundsätzlicher Schwierigkeiten der Sprachverarbeitung werden einige Anregungen zu zukünftigen Entwicklungen der MÜ vorgestellt. Dazu gehören die automatische Erkennung von Fachgebieten, die Erkennung von Eigennamen, satzübergreifende Diasmbiguierung, Flexibilität in Bezug auf Textsorten, Standards für MÜ-Systeme, Interaktiv-Übersetzung und eine erhebliche Ausweitung der Lexika
    corecore