Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository
Not a member yet
    935 research outputs found

    Implementation and parallelization of SOMs in Structured Query Language (SQL).

    Get PDF
    Self-Organizing Maps (SOMs) find extensive applications in pattern discovery and clustering but are computationally intensive to train, particularly with big data. Parallelization of SOM training in PostgreSQL is investigated here by spreading neuron computations over plurality of schemas for improved performance and scalability. The study was originally planned to carry out multi-server parallelization with the assistance of PostgreSQL-XL. As there was no multiple server and PostgreSQL-XL was not implemented in the university environment, the study focused on schema-based parallelization on a single server database. Parallel processing of neuron data among schemas helped the workload run much quicker. The experiment was run on a high-end machine with parallel query execution and PostgreSQL. For the experiment, a dataset size of 100,000 feature vectors was used against a 100x100 grid of SOMs. The experiment showed that the parallelization process based on a schema optimizes computation effectively than the legacy single-schema solution, reducing the training time. Even with all these advancements, there are certain limitations. Scalability with multiple servers was not feasible to test under the study, and the performance improvement is restricted to the capability of a single server. Other distributed database solutions like CitusDB and hybrid solutions with schema-based parallelism with GPU process or cloud process will be studied further. Briefly, distributing SOM training across schemas in PostgreSQL greatly improves efficiency. Parallelization across multiple servers is yet to be attempted on minimal infrastructure, but schema-based distribution is a effective optimization technique. Testing distributed database platforms and hybrid parallelization techniques should be included in future work in an attempt to further improve the scalability of SOM training

    Integration von Anonymisierungsverfahren in ETL-Prozesse für semistrukturierte Daten

    Get PDF
    Die Verarbeitung und Analyse personenbezogener Daten stellt in vielen Anwendungsbereichen eine große Herausforderung dar, insbesondere im Hinblick auf Datenschutzbestimmungen wie die Datenschutz-Grundverordnung (DSGVO). Diese Arbeit untersucht die Integration von Anonymisierungsverfahren in Extract (Extrahieren), Transform (Transformieren) und Load (Laden) (ETL)-Prozesse für semistrukturierte Daten, um sowohl den Datenschutz als auch die Datenqualität zu gewährleisten. Der Fokus liegt auf der Anonymisierung von Extensible Markup Language (XML)-Daten und deren Speicherung in einem relationalen Format sowie der Anwendung von k-Anonymität und ℓ-Diversität zum Schutz sensibler Attribute. Zur Umsetzung wurde eine Pipeline entwickelt, die Daten extrahiert, transformiert und anonymisiert, bevor sie für die weitere Verarbeitung gespeichert werden. Die Evaluierung zeigt, dass eine Kombination aus Maskierung oder Generalisierung mit den Schutzmodulen einen effektiven Schutz bietet, während die Daten weiterhin für Analysen nutzbar bleiben. Die Ergebnisse verdeutlichen, dass eine adaptive Anonymisierungsstrategie, die sich dynamisch an die Datenstruktur anpasst, den besten Kompromiss zwischen Datenschutz und Datenqualität bietet. Zukünftige Arbeiten könnten diesen Ansatz durch Machine-Learning-gestützte Klassifikationsmethoden oder Differential Privacy erweitern

    Data Cleaning in SQL

    No full text

    Erstellung und Evaluierung einer Datenpipeline zur automatisierten Klassifikation von Sammelkarten am Beispiel des Pokémon TCGs

    Get PDF
    Die vorliegende Arbeit beschreibt die Entwicklung einer Datenpipeline zur automatischen Klassifizierung von Pokémon-Sammelkarten. Ziel ist es, Verfahren aus der Literatur zurVorverarbeitung und Klassifikation von Sammelkarten miteinander zu vergleichen,umeine effiziente und genaue Methode zur automatischen Erkennung und Klassifizierung der Karten zu entwickeln. Da Sammelkarten oft durch verschiedene Störeinflüsse, wie unterschiedliche Lichtverhältnisse aufgenommen werden, ist die Entwicklung einer robusten Methodik für deren eindeutige Erfassung wichtig. Dafür wurden Methoden der globalen und lokalen Merkmalsextraktion untersucht und miteinander verglichen. Der entwickelte Prototyp nutzt dafür eine Datenbank von Pokémon-Kartenbildern, um die Ansätze hinsichtlich ihrer Genauigkeit beim Bildabruf zu evaluieren. Die Ergebnisse zeigen, dass die helligkeitsbasierte Merkmalsextraktion in Verbindung mit einem trainierten Instanzsegmentierungsmodell in der Lage ist, eine hohe Erkennungsgenauigkeit zu erreichen. Mit zunehmender Komplexität an Störeinflüssen stößt die Methodik jedoch an ihre Grenzen. Die Arbeit stellt ein solides Grundgerüst für weitere Arbeiten im Bereich der Bildklassifikationsverfahren für Sammelkarten bereit und kann als Ausgangspunkt für weitere Experimente verwendet werden

    Reverse engineering for the subsequent creation of relational models

    No full text
    Data’s massive production has changed how we live, work and collaborate. As accessing large databases becomes increasingly affordable and widely available, numerous data-intensive applications have emerged in various fields, including scientific research, healthcare, sports, industry, and many more. However, many datasets are poorly structured and designed, often containing missing, non-existent, or incorrect documentation, and lacking essential design information. When this type of data is required for modern research, whether for statistical analysis or artificial intelligence, it is crucial first to understand its structure, which can be both challenging and time-consuming. Furthermore, identifying relationships between tables and columns requires significant time and effort. Manual processing not only increases the chances of errors but also adds to the costs. Nevertheless, if we can identify key relational properties and data dependencies from a dataset, it is possible to generate a relational model by combining these properties. To solve this problem, we will design and develop a system that automates the identification of important relational properties and the generation of a complete relational model from existing data. Our research will focus on exploring various methods and techniques of database reverse engineering, relational models, and data dependencies. By combining these methods, we aim to create a web-based application that accepts a database as input and generates both key relational properties and a complete relational model as output. In addition, we are developing a user-friendly interface to use the system for data analysis and optimization. To evaluate the effectiveness and accuracy of our application, we will conduct tests with different databases and compare the results. Overall, our study will provide a systematic approach to the reverse engineering of relational databases and the automation of the extraction of key relational properties and data dependencies. Our system will help users to understand the structure of their databases. In this study, the system will support MySQL and PostgreSQL databases. In the future, further research will be conducted to expand the system’s capabilities to support other types of databases and different dataset formats

    Automatisierte Prüfung von Quellenangaben in studentischen Arbeiten

    Get PDF
    Diese Bachelorarbeit beschäftigt sich mit der Entwicklung eines automatisierten Systems zur Überprüfung von Quellenangaben in studentischen Arbeiten. Ziel ist es, die Integrität wissenschaftlicher Arbeiten zu gewährleisten und einen Beitrag zur Plagiatserkennung zu leisten. Zur Realisierung dieses Vorhabens wurden verschiedene Technologien und Methoden eingesetzt. Für die Extraktion von Texten aus PDF-Dateien kam die Bibliothek PyPDF2 zum Einsatz, während die Vorverarbeitung der natürlichen Sprache mithilfe der NLTK-Bibliothek durchgeführt wurde. Reguläre Ausdrücke (regex) dienten dazu, Zitate innerhalb der studentischen Arbeiten zu identifizieren sowie relevante Abschnitte aus den referenzierten wissenschaftlichen Publikationen zu extrahieren. Zur automatisierten Suche nach Quellen wurde die Datenbank DBLP1 herangezogen. Zur Messung der Ähnlichkeit zwischen den extrahierten Zitaten aus studentischen Arbeiten und den Textpassagen aus den wissenschaftlichen Referenzen wurden zwei Methoden verglichen: die TF-IDF-Methode, implementiert mit scikit-learn, sowie die SIF-Methode unter Verwendung eines vortrainierten Word2Vec-Modells. Als Maßstab für die Ähnlichkeit diente die Kosinus-Ähnlichkeit. Die wichtigsten Ergebnisse der Arbeit zeigen, dass die automatisierte Messung der Ähnlichkeit zwischen Textpassagen effektiv durchgeführt werden kann, was bedeutende Implikationen für die Plagiatserkennung in akademischen Kontexten hat. Diese Forschung demonstriert die Machbarkeit der automatisierten Überprüfung von Quellenangaben und unterstreicht das Potential, die akademische Integrität durch den Einsatz fortschrittlicher Textanalysemethoden zu fördern

    Detection of Similar Text Documents Based on Self-Organizing Maps

    Get PDF
    Plagiarism of text has become a common occurrence today with difficulty in detecting forms such as paraphrasing being frequently practiced. This project presents an approach for detecting plagiarism in academic documents using Self-Organizing Maps (SOMs). The system leverages SOMs to cluster documents based on both word-level and context-level similarities, achieved through advanced text embeddings. Experimental results demonstrate the effectiveness of this approach in accurately detecting textual similarities and distinguishing between original and plagiarized content. Future enhancements include fine-tuning the embedding models and expanding the system’s capabilities to handle multilingual

    250

    full texts

    935

    metadata records
    Updated in last 30 days.
    Universität Rostock, Lehrstuhl Datenbank- und Informationssysteme: Dbis Repository is based in Germany
    Access Repository Dashboard
    Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇