12,064 research outputs found

    Evaluation of query expansion methods for semantic search over german legal norms

    Get PDF
    Semantic search aims at understanding the information need of a users query and thus improve the effectiveness of the search. To our knowledge, free, public search systems in the German legal domain rely on simple lexical matching for document retrieval. In this work we present a prototype for the semantic search over German legal norms. We compare vector space models (word2vec, doc2vec and SBERT) on their ability to calculate document embeddings for similarity based ranking. Furthermore, we implement two query expansion techniques. Tue first technique is based on pseudo relevance feedback in which the users initial query is expanded by terms found in the relevant results retrieved by the initial query. Tue second expansion technique is based on external knowledge found in a thesaurus. Additionally, a vector space model is used to identify a relevant document during pseudo relevance feedback and for the ward-sense disambiguation of candidate terms in both techniques. An experiment, which was conducted with a law expert, showed that semantic techniques have the potential to aid the search over German legal documents.Die semantische Suche zielt darauf ab, das Informationsbedürfnis eines Nutzers zu verstehen und so die Effektivität der Suche zu verbessern. Unseres Wissens nach nutzen freie, öffentliche Suchsysteme im deutschen Rechtsbereich eine einfache Volltextsuche für das Abrufen von Dokumenten. In dieser Arbeit stellen wir einen Prototyp für die semantische Suche über deutsche Rechtsnormen und Gesetzestexte vor. Wir vergleichen Vektorraummodelle (word2vec, doc2vec und SBERT) hinsichtlich ihrer Fähigkeit, Dokument-Embeddings für einÄhnlichkeitbasiertes Ranking zu berechnen. Darüber hinaus implementieren wir zwei Techniken zur Expansion von Suchanfragen. Die erste Technik basiert auf einem pseudo-Relevanz-FeedbackAnsatz, bei dem die ursprüngliche Suchanfrage des Benutzers mit Begriffen erweitert wird, die in den relevanten Ergebnissen der ursprünglichen Anfrage gefunden wurden. Die zweite Erweiterungstechnik nutzt externes Wissen, welches in einem Thesaurus gefunden wird. Zusätzlich wird ein Vektorraummodell verwendet, um ein relevantes Dokument während des Pseudo-Relevanz-Feedbacks zu identifizieren und für die Sinn-Disambiguierung von Begriffen in beiden Techniken. Eine Evaluation, die mit einem Rechtsexperten durchgeführt wurde, hat gezeigt, dass semantische Techniken das Potenzial haben die Suche in deutschen juristischen Dokumenten zu unterstützen

    Semantic Wiki

    Get PDF

    Zur Lexikon-Grammatik-Schnittstelle in einem hypermedialen Informationssystem

    Get PDF
    Der Beitrag beschreibt Konzeption und Umsetzung der Anbindung von lexikalischen Datenbanken an das grammatische Informationssystem grammis, das seit Mitte 1993 am Institut für deutsche Sprache (IDS) entwickelt wird. Im Rahmen dieses Projekts wird erforscht, wie grammatisches Wissen mit moderner Computertechnik anschaulich dargestellt und verständlich vermittelt werden kann

    Ein semantisches Netz für die Suche mit der Dewey-Dezimalklassifikation - Optimiertes Retrieval durch die Verwendung versionierter DDC-Klassen

    Get PDF
    A semantic network for the search with the Dewy Decimal Classification - optimized retrieval by using versioned DDC classes: The Dewey Decimal Classification (DDC) is used to catalogue library holdings all over the world. In order to keep the classification up-to-date with scientific advancement, the DDC is revised regularly. As a result, particular topics might be relocated and the original DDC notation might not represent the topic of a resource any more. This can lead to incorrect search results. A possible solution for this problem is to assign a unique identifier to each version of a DDC class. By doing that, it is possible to explicitly label which version of a DDC class was used for the classification of a particular resource. Bibliographic resources, terms from the German Subject Headings, and the different versions of the DDC classes can then be used to build a semantic network. Using the semantic network with appropriate queries allows for better search results independent of modifications within the DDC

    Ein Wissensnetz für die Hochschule: Das Projekt ToMaHS

    Get PDF
    Ein Ziel der Arbeitsgruppe Künstliche Intelligenz am Fachbereich Wirtschaft der Hochschule Wismar ist die praktische Anwendung der Methoden und Techniken der Künstlichen Intelligenz in der betriebswirtschaftlichen Praxis. Der Trend hin zum Einsatz von Wissen in entsprechenden IT-Lösungen und somit zur Wissensverarbeitung im Unternehmen und Verwaltungen ist unverkennbar. Im TeamFH-Projekt "Data Mining Engineering" steht die Ableitung, die Extraktion von Wissen aus großen Datenmengen, somit der Wissenserwerb im Mittelpunkt. Data-Mining-Analysen, wie diese im Projekt "Data Mining Engineering" durchgeführt werden, extrahieren Wissen und führen idealerweise zur expliziten Formulierung von Wissen, beispielsweise in Form von Regeln. Die Wissensbeschreibung und -verarbeitung mittels Regeln und deren Einsatz in betriebswirtschaftlicher Standard- Software ist andererseits Gegenstand des aktuellen Forschungsgebietes "Business Rules". Das Projekt ToMaHS - Topic Maps für Hochschul-Strukturen - stellt die Arbeiten zur Wissensdarstellung verknüpft mit einer semantischen Suche, als eine Komponente des Wissensmanagement, in den Mittelpunkt. Exemplarisch wird dabei die Hochschule insbesondere mit ihrer Verwaltungsstrukur in ein Wissensnetz mit einer Topic-Map-Darstellung überführt. Das Projekt ToMaHS wird im Rahmen einer hochschulinternen Forschungsförderung durch die Hochschule Wismar finanziell gefördert. --

    Ontologiebasierter Forschungsführer für die Bildungsforschung

    Full text link
    Dieser Beitrag beschreibt das Vorhaben, Semantic Web-Technologien für den Aufbau eines ontologiebasierten Forschungsführers einzusetzen. Heterogene, verteilte Datenquellen des Informationszentrums Bildung sollen auf diese Weise semantisch integriert, angereichert und über entsprechende Recherchemöglichkeiten zugänglich gemacht werden. Die einzelnen Schritte zur Umsetzung des geplanten Projekts werden vorgestellt, wobei insbesondere auf zu erwartende Mehrwerte gegenüber der aktuellen Datenquellennutzung eingegangen wird. (DIPF/Autor).This paper elaborates on the objective to use semantic web technologies for the implementation of an ontology based research guide. It aims at a semantic integration and enrichment of heterogeneous, distributed data sources of the Information Center for Education, thus making them accessible through appropriate retrieval functionalities. The individual steps of the planned project are presented with a particular focus on the added value that can be expected in comparison with the current use of the data sources. (DIPF/Author)

    Stereotype in Webkorpora: Strategien zur Suche in sehr großen Datenmengen

    Get PDF
    Research on stereotypes (as well as on similar constructs such as prejudice, image, identity, etc.) goes back around a century. Most research on stereotypes belongs to the field of psychological, social and cultural studies, with a strong focus on cognitive and socio-cultural phenomena. Since Uta Quasthoff’s pioneering analysis in 1973, there have been several linguistic studies of stereotypes, i. e. on linguistic aspects of how stereotypes are realized in language use. Linguistic research on stereotypes uses methods from disciplines such as sociolinguistics, ethnography, discourse and conversation analysis. Discursive psychology and cognitive linguistics and single studies on stereotypes have used corpus-linguistic methods to explore stereotypes in language use. Nevertheless, we state that no large-scale empirical studies have yet investigated the linguistic realization of stereotypes by using empirical data from large text corpora. In this article, we explore the potential of corpus linguistic approaches in the research on the occurrences of stereotypes in written language. By using an analysis of co-occurrences, we aim to describe the relation between associative semantic stereotypes and co-occurrences in a corpus. Our hypothesis is that the linguistic construction of stereotypes as their realization in language use reproduces stereotypic representations of cognitive conceptualizations and meaning patterns, thus, stereotypic meanings should be detectable in statistical patterns in large corpora

    Grundlagen der Suchtechnologie

    Get PDF
    Nach einem kurzen historischen Abriss (vom ersten Register, über die ersten Idee einer Suchmaschine bis zu Google) wird die Vorgehensweise bei der automatischen Indexierung von Dokumenten vorgestellt. Wie gelangt ein Dokument in den Index und wie und welcher Reihenfolge (Ranking) wird es wieder ausgegeben. Anschließend werden die verschiedenen Suchtechnologie-Arten (Zeichenabgleichung, Reguläre Ausdrücke, Fuzzy-Suche, Phonetische Suche, Semantische Suche) und Ranking-Verfahren (Formale Sortierung, On-Page-Faktoren, On-Site-Faktoren, Link-Faktoren, Eigenschaften und Verhalten der Nutzer) vorgestellt. Zum Abschluss wird ein kurzer Ausblick auf Suchmaschinenoptimierung gegeben
    corecore