16 research outputs found

    Towards multi-purpose main-memory storage structures: Exploiting sub-space distance equalities in totally ordered data sets for exact knn queries

    Get PDF
    Efficient knn computation for high-dimensional data is an important, yet challenging task. Today, most information systems use a column-store back-end for relational data. For such systems, multi-dimensional indexes accelerating selections are known. However, they cannot be used to accelerate knn queries. Consequently, one relies on sequential scans, specialized knn indexes, or trades result quality for speed. To avoid storing one specialized index per query type, we envision multipurpose indexes allowing to efficiently compute multiple query types. In this paper, we focus on additionally supporting knn queries as first step towards this goal. To this end, we study how to exploit total orders for accelerating knn queries based on the sub-space distance equalities observation. It means that non-equal points in the full space, which are projected to the same point in a sub space, have the same distance to every other point in this sub space. In case one can easily find these equalities and tune storage structures towards them, this offers two effects one can exploit to accelerate knn queries. The first effect allows pruning of point groups based on a cascade of lower bounds. The second allows to re-use previously computed sub-space distances between point groups. This results in a worst-case execution bound, which is independent of the distance function. We present knn algorithms exploiting both effects and show how to tune a storage structure already known to work well for multi-dimensional selections. Our investigations reveal that the effects are robust to increasing, e.g., the dimensionality, suggesting generally good knn performance. Comparing our knn algorithms to well-known competitors reveals large performance improvements up to one order of magnitude. Furthermore, the algorithms deliver at least comparable performance as the next fastest competitor suggesting that the algorithms are only marginally affected by the curse of dimensionality

    A first metadata schema for learning analytics research data management

    Get PDF
    Forschungsdaten bilden die Grundlage für wissenschaftliches Arbeiten und um neue Erkenntnisse zu gewinnen. Learning Analytics ist die Wissenschaft zur Verbesserung des Lernens in verschiedenen Bereichen des Bildungssektors, doch obwohl die Datenerhebung zum größten Teil mittels computer-gestützter Verfahren durchgeführt wird, besitzt die Disziplin zum jetzigen Zeitpunkt noch keine Forschungsdatenmanagementkultur oder -konzepte. Wie jede Forschungsdisziplin hat Learning Analytics ihre Eigenheiten, die für die Erstellung von Forschungsdatenmanagementkonzepten, insbesondere für die Generalisierung von Daten und die Modellierung eines Metadatenmodells, wichtig sind. Die folgende Arbeit präsentiert Ergebnisse einer Anforderungsanalyse für Learning Analytics, um relevante Elemente für ein Metadatenschema zu identifizieren. Zur Erreichung dieses Ziels führten wir zunächst eine Literaturrecherche durch, gefolgt von einer Untersuchung unserer eigenen Forschung an Softwareumgebungen zur Evaluierung von kollaborativen Programmierszenarien an zwei Hochschulstandorten. Aus den Ergebnissen lassen sich ein disziplinspezifischer wissenschaftlicher Workflow sowie ein fachspezifisches Objektmodell ableiten, das alle erforderlichen Merkmale für die Entwicklung eines für Learning Analytics spezifischen Metadatenmodells für die Nutzung von Datenbeständen aufzeigt.In most cases, research data builds the ground for scientific work and to gain new knowledge. Learning analytics is the science to improve learning in different fields of the educational sector. Even though it is a data-driven science, there is no research data management culture or concepts yet. As every research discipline, learning analytics has its own characteristics, which are important for the creation of research data management concepts, in particular for generalization of data and modeling of a metadata model. The following work presents our results of a requirements analysis for learning analytics, in order to identify relevant elements for a metadata schema. To reach this goal, we conducted a literature survey followed by an analysis of our own research about frameworks for evaluation of collaborative programming scenarios from two universities. With these results, we present a discipline-specific scientific workflow, as well as a subject-specific object model, which lists all required characteristics for the development of a learning analytics specific metadata model for data repository usage

    User Story: Besuchernachweis im Covid-19-Kontext

    Get PDF
    Die Corona-Pandemie führte in Bibliotheken nicht nur zu massiven Umstellungen hinsichtlich digitaler Angebote, auch der Publikumsverkehr ist im Zuge der Wiedereröffnung durch Regelungen neugestaltet. In diesem Zusammenhang müssen einerseits ministerielle Vorgaben zur Nachverfolgung von potentiellen Kontakten beachtet werden und andererseits datenschutzrechtliche Belange. Auch die unkomplizierte Nutzung und zugleich schnelle Erfassung spielen eine hohe Priorität im Kontext eines kontaktarmen, aber durchsatzstarken Betriebes. An der Universitätsbibliothek Magdeburg wurde hier eine Lösung entwickelt, die viele Anforderungen ohne zusätzlichen Ressourceneinsatz abdeckt und zugleich zur Nachnutzung in anderen Einrichtungen zur Verfügung steht. Im vorliegenden Beitrag werden die Anforderungen kurz dargestellt, die im agilen Projektmanagement entwickelte Software beschrieben und Potentiale für eine Nach- und Weiternutzung aufgrund der ersten Betriebserfahrungen aufgezeigt.The corona pandemic not only led to massive changes in libraries with regard to digital services, but also in the public business, which has been reorganized by regulations for the reopening. On the one hand, ministerial guidelines for tracking potential contacts must be observed and, on the other hand, data protection issues have to be considered. Furthermore, an uncomplicated use and at the same time fast data registration play a high priority in the context of a low-contact but high-throughput operation. At the Magdeburg University Library, a solution was developed that covers many requirements without the need for additional resources and is also available for subsequent use in other institutions. In this paper, the requirements are briefly described, the software, developed in agile project management, is presented and potentials for a subsequent use based on the first operational experiences are shown

    Ein Fallbeispiel zum Umgang mit Learning-Analytics-Forschungsdaten

    Get PDF
    Offene Wissenschaft in die Praxis umzusetzen, bringt für jede Fachwissenschaft und Wissenschaftler*innen Herausforderungen mit sich. Mit dem Aufkommen von Data Librarians hat sich ein neues Berufsbild etabliert, mit dem wissenschaftliche Bibliotheken die Prozesse im Forschungsdatenmanagement umsetzen können. In diesem Beitrag werden die grundsätzlichen Rollen und Aufgaben von Data Librarians erläutert und ihr spezifischer Einsatz im Rahmen des BMBF-Forschungsprojekts DiP-iT aufgezeigt. Ausgehend von einer gemeinsamen Verständigungsebene in Form eines Dateninterviews wurden fachspezifische Konzepte für die Learning Analytics in den Bereichen Datendokumentation, -kuration und -organisation entwickelt. Ergebnisse sind ein Datentransfermodell, das die Speicherung der Daten in verschiedenen Domänen unter Einbezug datenschutzrechtlicher Rahmenbedingungen ermöglicht, und die detaillierte und fachspezifische Dokumentation der Daten anhand eines Learning Analytics Metadatenmodells

    Towards real-time data integration and analysis for embedded devices

    Get PDF
    In complex systems, e.g., in logistic hubs, cars or factories, there is a need for real time decision support. In present approaches the transfer and storage process and subsequent analysis of data in real time is not possible. One reason is that data sources can fail and thus the information flow is interrupted. Furthermore there is a large divergence of the data amount generated by data streams coming from different data sources, e.g. sensors, relational databases and mobile devices. We offer an architecture to eliminate these problems. Therefore we introduce a classification of the data sources that enables an appropriate handling of the specific data source's properties

    Methodik und Bewertung

    No full text
    Long term business success highly depends to how fast a company reacts on changes in the market situation. Those who want to be successful need relevant, up-to-date, and accurate information. Business or economic decisions rely on indicators. One facet of data quality is the integrity of data. Most of the main business and economic indicators suffer from statistical discrepancies. These indicators are based on non-linear equation systems and are normally not crisp, but random due to measurement errors. Consequently, computation of the corresponding probability distributions is usually not trivial. Handling uncertainty within indicator systems is a major challenge for improved decision making. Different approaches exist for dealing with uncertainty, e. g., Fuzzy set theory and the probabilistic method. The shortcomings of both approaches can be reduced by the use of simulation. As the Gaussian distribution is not closed under all four arithmetic operations, there is the need for Markov Chain Monte Carlo (MCMC) simulation to determine the probability distributions. A combination of data, generated by MCMC simulation, which is based on prior knowledge about a fully specified non- linear, stochastic balance equation system with noisy measurements, is proposed for handling uncertainty within indicator systems. The Metropolis Hastings algorithm enables the use of any computable target probability function. SamPro is the algorithm that implements the MCMC simulation approach for indicator systems. The estimation of unobservable quantities of such models is improved by SamPro and data inconsistencies to the equation system are revealed. MoSi is proposed as a software tool for the modelling of indicator systems as well as their simulation. The implementation of the SamPro algorithm is consequently included in MoSi, as well. MoSi can be used efficiently in the processes of planning, decision making, and controlling.Langfristiger Unternehmenserfolg hängt sehr stark davon ab, wie das Unternehmen auf Marktänderungen reagiert. Erfolgreiche Manager benötigen relevante, aktuelle und korrekte Informationen. Betriebs- und volkswirtschaftliche Entscheidungen werden anhand von Kennzahlen getroffen. Ein Gesichtspunkt der Datenqualität ist die Datenintegrität. Die meisten Kennzahlen unterliegen jedoch statistischen Unstimmigkeiten. Diese Kennzahlen werden über nichtlineare Gleichungen mit Messfehlern ermittelt. Deshalb ist die Bestimmung der zugehörigen Wahrscheinlichkeitsfunktion nicht trivial. Der Umgang mit Unsicherheit in Kennzahlensystemen ist eine große Herausforderung für eine verbesserte Entscheidungsfindung. Es gibt unterschiedliche Ansätze für den Umgang mit Unsicherheit, wie z.B. Fuzzy Set Theorie und Wahrscheinlichkeitstheorie. Die Unzulänglichkeiten beider Ansätze können durch Simulation verringert werden. Da die Normalverteilung unter den vier arithmetischen Operationen nicht geschlossen ist, muss die Markov Chain Monte Carlo (MCMC) Simulation zur Bestimmung der Wahrscheinlichkeitsfunktionen herangezogen werden. Zum Umgang von Kennzahlensystemen mit Unsicherheit werden Daten, die mit MCMC Simulation generiert werden, kombiniert mit einem vollspezifizierten stochastischen Kennzahlensystem mit Messfehlern. Der hier entwickelte SamPro Algorithmus ist der MCMC-Simulationsansatz für Kennzahlensysteme. Die Schätzung nicht beobachtbarer Kennzahlen wird durch SamPro verbessert und Inkonsistenzen von Daten zum Kennzahlensystem werden aufgedeckt. MoSi ist ein Softwaretool für die Modellierung und Simulation von Kennzahlensystemen. Die Implementierung des SamPro Algorithmus ist folglich in MoSi enthalten. MoSi kann effizient in den Prozessen der Planung, der Entscheidungsfindung und der Unternehmenssteuerung eingesetzt werden

    Warenkorbanalyse fĂĽr Empfehlungssysteme in wissenschaftlichen Bibliotheken

    No full text
    Bibliotheken als Informationsdienstleister müssen im Datenzeitalter adäquate Wege nutzen. Mit der Durchdringung des Digitalen bei Nutzern werden Anforderungen an die Informationsbereitstellung gesetzt, die durch den täglichen Umgang mit konkurrierenden Angeboten vorgelebt werden. So werden heutzutage im kommerziellen Bereich nicht nur eine Vielzahl von Daten erhoben, sondern diese werden analysiert und die Ergebnisse entsprechend verwendet. Auch in Bibliotheken fallen eine Vielzahl von Daten an, die jedoch nicht genutzt werden. Schranken, wie der Datenschutz, werden häufig genannt, obwohl diese keine wirkliche Barriere für die Datennutzung darstellen. Die Analyse von anonymisierten Daten zur Ausleihe mittels Association-Rule-Mining ermöglicht Zusammenhänge in den Buchausleihen zu identifizieren. Die Ergebnisse können in den Recherche-Webangeboten den Nutzern zur Verfügung gestellt werden. So wird ein Empfehlungssystem basierend auf dem Nutzerverhalten bereitgestellt. Die technische Realisierung des Empfehlungssystems betrachtet die Datenerhebung, die Datenverarbeitung, insbesondere hinsichtlich der Data Privacy, die Datenanalyse und die Ergebnispräsentation. Neben der technischen Realisierung des Empfehlungssystems wird anhand einer in der Universitätsbibliothek der Otto-von-Guericke-Universität Magdeburg durchgeführten Fallstudie die Parametrisierung im Kontext der Data Privacy und für den Data Mining Algorithmus diskutiert. Damit liegt ein datengetriebenes Empfehlungssystem für die Ausleihe in Bibliotheken vor

    Warenkorbanalyse fĂĽr Empfehlungssysteme in wissenschaftlichen Bibliotheken

    Get PDF
    Bibliotheken als Informationsdienstleister müssen im Datenzeitalter adäquate Wege nutzen. Mit der Durchdringung des Digitalen bei Nutzern werden Anforderungen an die Informationsbereitstellung gesetzt, die durch den täglichen Umgang mit konkurrierenden Angeboten vorgelebt werden. So werden heutzutage im kommerziellen Bereich nicht nur eine Vielzahl von Daten erhoben, sondern diese werden analysiert und die Ergebnisse entsprechend verwendet. Auch in Bibliotheken fallen eine Vielzahl von Daten an, die jedoch nicht genutzt werden. Schranken, wie der Datenschutz, werden häufig genannt, obwohl diese keine wirkliche Barriere für die Datennutzung darstellen. Die Analyse von anonymisierten Daten zur Ausleihe mittels Association-Rule-Mining ermöglicht Zusammenhänge in den Buchausleihen zu identifizieren. Die Ergebnisse können in den Recherche-Webangeboten den Nutzern zur Verfügung gestellt werden. So wird ein Empfehlungssystem basierend auf dem Nutzerverhalten bereitgestellt. Die technische Realisierung des Empfehlungssystems betrachtet die Datenerhebung, die Datenverarbeitung, insbesondere hinsichtlich der Data Privacy, die Datenanalyse und die Ergebnispräsentation. Neben der technischen Realisierung des Empfehlungssystems wird anhand einer in der Universitätsbibliothek der Otto-von-Guericke-Universität Magdeburg durchgeführten Fallstudie die Parametrisierung im Kontext der Data Privacy und für den Data Mining Algorithmus diskutiert. Damit liegt ein datengetriebenes Empfehlungssystem für die Ausleihe in Bibliotheken vor

    ManagementunterstĂĽtzung zur Besuchersteuerung in Bibliotheken: Reportingprozesse im Coronakontext

    Get PDF
    Mit der notwendigen Besuchersteuerung im Kontext der COVID-19-Pandemie ergaben sich für Bibliotheksleitungen eine Vielzahl von Entscheidungen in einem unbekannten, dynamischen Umfeld. Neue Werkzeuge können dabei nicht nur unmittelbar das operative Tagesgeschäft erleichtern, sondern als zusätzliche Informationsquellen für die nächsten Entscheidungsschritte dienen. Kennzahlen quantifizieren und verdichten Informationen und können für Steuerungsprozesse eingesetzt werden. An der Universitätsbibliothek Magdeburg wurde eine leichtgewichtige Reportinglösung für die Bibliotheksleitung entworfen, die es ermöglicht, kurzfristig und gleichzeitig adäquat auf die Anforderungen und Rahmenbedingungen einzugehen.With the necessary visitor management in the context of the COVID-19 pandemic, library managers had to make numerous decisions in an unknown, very dynamic environment. New tools should not only directly facilitate the operative daily business, but also serve as additional sources of information for the next decisions. Key indicators quantify and condense information and can be used for control processes. At Magdeburg University Library, a lightweight reporting solution was designed for the library director, which enables responding to requirement changes and general conditions at short notice adequately.Peer Reviewe

    Improving Information Ranking by Respecting the Multidimensionality and Uncertainty of User Preferences

    No full text
    Rankings and ratings are popular methods for structuring large information sets in search engines, e-Commerce, e-Learning, etc. But do they produce the right rankings for their users? In this paper, we give an overview of major evaluation approaches for rankings as well as major challenges facing the use and usability of rankings. We point out the importance of an interdisciplinary perspective for a truly user-centric evaluation of rankings. We then focus on two central problems: the multidimensionality of the criteria that influence both users ’ and systems ’ rankings, and the randomness inherent in users ’ preferences. We propose multi-criteria decision analysis and the integration of randomness into rankings as solution approaches to these problems. We close with an outlook on new challenges arising for ranking when systems address not only individuals, but also groups
    corecore