Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Not a member yet
    935 research outputs found

    Structured Knowledge Extraction from Text using Large Language Models

    Get PDF
    This thesis presents an approach to structured knowledge extraction using Large Language Models (LLMs), specifically addressing the challenge of transforming unstructured text into ontology-guided knowledge representations. We introduce a dual-task framework that first generates domain-specific ontologies and then extracts knowledge in the form of custom hypergraphs, ensuring both structural consistency and semantic accuracy. Through the implementation of Parameter-Efficient Fine-Tuning techniques, particularly Low-Rank Adaptation (LoRA), we demonstrate how LLM can be effectively adapted for complex knowledge extraction tasks while modifying less than 1% of the model’s parameters. Our methodology integrates several components: a synthetic data generation pipeline for creating training instances, a validation framework ensuring ontological consistency, and a custom hypergraph representation capable of capturing entities, binary relations, complex multi-entity relations and their attributes. We conducted two distinct sets of experiments – full block adaptation and selective attention-layer adaptation – each tested with different LoRA rank configurations (4, 16, and 32) to investigate how the type of targeted layers and number of adapted parameters affect performance. The experimental results demonstrate that full-block adaptation achieves superior performance across structural consistency and knowledge similarity metrics, with rank-16 configuration offering an optimal balance between efficiency and effectiveness. Although attention-only adaptation shows promise for computational efficiency by requiring only one-third of the parameters, it exhibits higher volatility in training and lower performance metrics. This research contributes to the field by providing a framework for adapting LLMs to structured knowledge extraction tasks, offering insights into the balance between model efficiency and extraction accuracy, and establishing a foundation for future work in automated knowledge management systems

    Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Audioaufnahmen als Vorbereitungsschritt einer Plagiatserkennung

    Get PDF
    Diese Bachelorarbeit befasst sich mit der Konzeption und Implementierung eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Audioaufnahmen, die als Vorbereitungsschritt für die Plagiatserkennung dienen. Ziel der Arbeit war es, einen robusten ETL-Workflow zu entwickeln, der Audiodaten aus verschiedenen Quellen effizient extrahiert, transformiert und in ein Zielsystem lädt. Die Arbeit beleuchtet die Herausforderungen und technischen Aspekte, die mit der Verarbeitung von Audiodaten verbunden sind, und zeigt, wie ein maßgeschneidertes ETL-Framework zur Bewältigung dieser Herausforderungen beitragen kann. Im theoretischen Teil der Arbeit werden die Grundlagen des ETL-Prozesses sowie die relevanten Technologien und Tools vorgestellt. Darauf aufbauend wird der aktuelle Stand der Technik hinsichtlich der Audiodatenverarbeitung und Plagiatserkennung untersucht. Im praktischen Teil derArbeit wird das entwickelte Konzept detailliert beschrieben und die Implementierung Schritt für Schritt erläutert. Die Ergebnisse zeigen, dass das entwickelte System in der Lage ist, Audiodaten effizient zu verarbeiten und die Grundlage für eine zuverlässige Plagiatserkennung zu schaffen. Abschließend werden die Ergebnisse diskutiert und Empfehlungen für zukünftige Entwicklungen gegeben

    Automated Data Extraction and Analysis for Market Intelligence

    No full text

    KI-basierte Generierung von SQL-Anfragen basierend auf natürlichsprachlichen Anfragen

    No full text
    In dieser Masterarbeit wird die KI-basierte Generierung von SQL-Anfragen aus natürlichsprachlichen Anfragen untersucht. Im Mittelpunkt der Studie stehen die fortschrittlichen Tools LlamaIndex und LangChain, die im Kontext des Generative Pre-trained Transformer 4 (GPT-4) analysiert werden. Die Relevanz dieser Untersuchung ergibt sich aus der zunehmenden Bedeutung von Datenbanken in der modernen digitalen Welt und der gleichzeitig bestehenden Barriere technischer Fachkenntnisse, insbesondere im Bereich der strukturierten Abfragesprache (SQL). Durch den Einsatz von künstlicher Intelligenz (KI) und der Verarbeitung natürlicher Sprache (NLP) zielt diese Arbeit darauf ab, die Mensch-Computer-Interaktion zu vereinfachen, indem sie einen breiteren Zugang zu Datenbankinteraktionen ermöglicht und die Art und Weise, wie Informationen abgerufen und genutzt werden, revolutioniert. Die Hauptziele dieser Arbeit umfassen die eingehende Untersuchung und den Vergleich von LlamaIndex und LangChain hinsichtlich ihrer Fähigkeiten, natürlichsprachliche Anfragen in präzise SQL-Befehle umzuwandeln, sowie die Bewertung ihrer Benutzerfreundlichkeit, Leistung in unterschiedlichen Szenarien und ihre Zuverlässigkeit. Die Ergebnisse sollen Einblicke in die Praktikabilität und Effizienz von KI-gestützten Datenbankabfragetools bieten und Verbesserungsmöglichkeiten für die zukünftige Entwicklung solcher Technologien aufzeigen

    Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Videos als Vorbereitungsschritt einer Plagiatserkennung

    Get PDF
    Medien mit zunehmender Geschwindigkeit hochgeladen. Plagiat, oder das unautorisierte Kopieren von Inhalten, ist ein ernstes gesellschaftliches Problem im Bereich des Internets und der Multimediatechnologien. In dieser Forschungsarbeit schlagen wir eine Methode vor, um Merkmale aus Videos zu extrahieren und Plagiate zu erkennen. Dieses Framework stützt sich auf lokale Merkmale, um einzelne Videos im Vergleich zu in der Datenbank gespeicherten Videos zu identifizieren. Es erfordert eine Untersuchung der aktuellen Methoden zur Erkennung von Plagiaten in Videos, einen Vergleich dieser Methoden anhand geeigneter Leistungskennzahlen und die Identifizierung offener Herausforderungen. Diese Arbeit stellt einen ETL-Prozess zur Erkennung von Plagiaten in Videos vor. Sie extrahiert relevante Daten aus dem Video wie Audio, Frames und Text. Dann werden die Daten transformiert, um einen zuverlässigen Satz von Merkmalen zu extrahieren, der bei der Vergleich von Videos verwendet wird. Am Ende werden die extrahierten und transformierten Daten in einer geeigneten Datenbank gespeichert, die schnelle Vergleiche zwischen einem neuen Video und den bereits hinzugefügten Videos ermöglicht

    Konzeption eines ETL-Prozesses zur Ermittlung von Kennzahlen aus Texten als Vorbereitungsschritt einer Plagiatserkennung

    Get PDF
    Diese Bachelorarbeit diskutiert den Entwicklungsprozess eines ETL-Prozesses, das darauf abzielt, spezifische Kennzahlen aus Texten zu extrahieren. Die Texte wurden aus PDF-Dateien unter Verwendung der PyPDF2-Bibliothek in der Programmiersprache Python extrahiert. Diese Arbeit bietet eine umfassende Analyse der Arten von Kennzahlen, die extrahiert werden können, mit einem besonderen Schwerpunkt auf der Art und Weise, wie Metadaten extrahiert und als effektive Indikatoren genutzt werden können, auf diese Kennzahlen kann dann später verlassen werden, um Plagiate in akademischen Arbeiten von Studenten zu identifizieren. Die Arbeit hebt auch eine Reihe von in Python verfügbaren Programmbibliotheken hervor, erläutert ihre Eigenschaften und die Vorteile, die sie bieten, und kommt zu dem Schluss, dass in dieser Arbeit die PyPDF2-Bibliothek die bessere Option für die Textextraktion darstellt. Darüber hinaus wird die Rolle der NLTK-Bibliothek bei der effizienten Extraktion von Kennzahlen und Textanalyse diskutiert. Zusätzlich wurden die Ergebnisse der Text- und Kennzahlenextraktion sowie der Metadaten sorgfältig bewertet, um ihre Gültigkeit und Zuverlässigkeit zu überprüfen. Die Arbeit schließt mit einer Reihe von Empfehlungen für zukünftige Forschungen in diesem vielversprechenden Feld

    Layout- und Texterkennung im Wossidlo-Archiv

    No full text
    Der Fokus dieser wissenschaftlichen Arbeit liegt darauf, historische und handgeschriebene Flurnamen aus der Vielzahl von der im Wossidlo-Archiv vorliegenden Karteikarten in digitale Form zu bringen, ihren Inhalt und Aufbau gründlich zu analysieren und mithilfe des Transkribus-Modells zu extrahieren. Das Ziel besteht darin, diese Informationen präzise in dedizierten Datensätzen zu organisieren und zu speichern, um eine einfache und digitale Zugänglichkeit sicherzustellen. Der Prozess umfasst die Umwandlung von handschriftlichem Text in digitale Form für eine effiziente Nutzung und Analyse. Die extrahierten Daten werden in Datensätzen strukturiert, um eine organisierte und durchsuchbare Datenbank zu schaffen

    250

    full texts

    935

    metadata records
    Updated in last 30 days.
    Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository is based in Germany
    Access Repository Dashboard
    Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇