16 research outputs found
Towards multi-purpose main-memory storage structures: Exploiting sub-space distance equalities in totally ordered data sets for exact knn queries
Efficient knn computation for high-dimensional data is an important, yet challenging task. Today, most information systems use a column-store back-end for relational data. For such systems, multi-dimensional indexes accelerating selections are known. However, they cannot be used to accelerate knn queries. Consequently, one relies on sequential scans, specialized knn indexes, or trades result quality for speed. To avoid storing one specialized index per query type, we envision multipurpose indexes allowing to efficiently compute multiple query types. In this paper, we focus on additionally supporting knn queries as first step towards this goal. To this end, we study how to exploit total orders for accelerating knn queries based on the sub-space distance equalities observation. It means that non-equal points in the full space, which are projected to the same point in a sub space, have the same distance to every other point in this sub space. In case one can easily find these equalities and tune storage structures towards them, this offers two effects one can exploit to accelerate knn queries. The first effect allows pruning of point groups based on a cascade of lower bounds. The second allows to re-use previously computed sub-space distances between point groups. This results in a worst-case execution bound, which is independent of the distance function. We present knn algorithms exploiting both effects and show how to tune a storage structure already known to work well for multi-dimensional selections. Our investigations reveal that the effects are robust to increasing, e.g., the dimensionality, suggesting generally good knn performance. Comparing our knn algorithms to well-known competitors reveals large performance improvements up to one order of magnitude. Furthermore, the algorithms deliver at least comparable performance as the next fastest competitor suggesting that the algorithms are only marginally affected by the curse of dimensionality
A first metadata schema for learning analytics research data management
Forschungsdaten bilden die Grundlage für wissenschaftliches Arbeiten und um neue Erkenntnisse zu gewinnen. Learning Analytics ist die Wissenschaft zur Verbesserung des Lernens in verschiedenen Bereichen des Bildungssektors, doch obwohl die Datenerhebung zum größten Teil mittels computer-gestützter Verfahren durchgeführt wird, besitzt die Disziplin zum jetzigen Zeitpunkt noch keine Forschungsdatenmanagementkultur oder -konzepte. Wie jede Forschungsdisziplin hat Learning Analytics ihre Eigenheiten, die für die Erstellung von Forschungsdatenmanagementkonzepten, insbesondere für die Generalisierung von Daten und die Modellierung eines Metadatenmodells, wichtig sind. Die folgende Arbeit präsentiert Ergebnisse einer Anforderungsanalyse für Learning Analytics, um relevante Elemente für ein Metadatenschema zu identifizieren. Zur Erreichung dieses Ziels führten wir zunächst eine Literaturrecherche durch, gefolgt von einer Untersuchung unserer eigenen Forschung an Softwareumgebungen zur Evaluierung von kollaborativen Programmierszenarien an zwei Hochschulstandorten. Aus den Ergebnissen lassen sich ein disziplinspezifischer wissenschaftlicher Workflow sowie ein fachspezifisches Objektmodell ableiten, das alle erforderlichen Merkmale für die Entwicklung eines für Learning Analytics spezifischen Metadatenmodells für die Nutzung von Datenbeständen aufzeigt.In most cases, research data builds the ground for scientific work and to gain new knowledge. Learning analytics is the science to improve learning in different fields of the educational sector. Even though it is a data-driven science, there is no research data management culture or concepts yet. As every research discipline, learning analytics has its own characteristics, which are important for the creation of research data management concepts, in particular for generalization of data and modeling of a metadata model. The following work presents our results of a requirements analysis for learning analytics, in order to identify relevant elements for a metadata schema. To reach this goal, we conducted a literature survey followed by an analysis of our own research about frameworks for evaluation of collaborative programming scenarios from two universities. With these results, we present a discipline-specific scientific workflow, as well as a subject-specific object model, which lists all required characteristics for the development of a learning analytics specific metadata model for data repository usage
User Story: Besuchernachweis im Covid-19-Kontext
Die Corona-Pandemie führte in Bibliotheken nicht nur zu massiven Umstellungen hinsichtlich digitaler Angebote, auch der Publikumsverkehr ist im Zuge der Wiedereröffnung durch Regelungen neugestaltet. In diesem Zusammenhang müssen einerseits ministerielle Vorgaben zur Nachverfolgung von potentiellen Kontakten beachtet werden und andererseits datenschutzrechtliche Belange. Auch die unkomplizierte Nutzung und zugleich schnelle Erfassung spielen eine hohe Priorität im Kontext eines kontaktarmen, aber durchsatzstarken Betriebes. An der Universitätsbibliothek Magdeburg wurde hier eine Lösung entwickelt, die viele Anforderungen ohne zusätzlichen Ressourceneinsatz abdeckt und zugleich zur Nachnutzung in anderen Einrichtungen zur Verfügung steht. Im vorliegenden Beitrag werden die Anforderungen kurz dargestellt, die im agilen Projektmanagement entwickelte Software beschrieben und Potentiale für eine Nach- und Weiternutzung aufgrund der ersten Betriebserfahrungen aufgezeigt.The corona pandemic not only led to massive changes in libraries with regard to digital services, but also in the public business, which has been reorganized by regulations for the reopening. On the one hand, ministerial guidelines for tracking potential contacts must be observed and, on the other hand, data protection issues have to be considered. Furthermore, an uncomplicated use and at the same time fast data registration play a high priority in the context of a low-contact but high-throughput operation. At the Magdeburg University Library, a solution was developed that covers many requirements without the need for additional resources and is also available for subsequent use in other institutions. In this paper, the requirements are briefly described, the software, developed in agile project management, is presented and potentials for a subsequent use based on the first operational experiences are shown
Ein Fallbeispiel zum Umgang mit Learning-Analytics-Forschungsdaten
Offene Wissenschaft in die Praxis umzusetzen, bringt für jede Fachwissenschaft und Wissenschaftler*innen Herausforderungen mit sich. Mit dem Aufkommen von Data Librarians hat sich ein neues Berufsbild etabliert, mit dem wissenschaftliche Bibliotheken die Prozesse im Forschungsdatenmanagement umsetzen können. In diesem Beitrag werden die grundsätzlichen Rollen und Aufgaben von Data Librarians erläutert und ihr spezifischer Einsatz im Rahmen des BMBF-Forschungsprojekts DiP-iT aufgezeigt. Ausgehend von einer gemeinsamen Verständigungsebene in Form eines Dateninterviews wurden fachspezifische Konzepte für die Learning Analytics in den Bereichen Datendokumentation, -kuration und -organisation entwickelt. Ergebnisse sind ein Datentransfermodell, das die Speicherung der Daten in verschiedenen Domänen unter Einbezug datenschutzrechtlicher Rahmenbedingungen ermöglicht, und die detaillierte und fachspezifische Dokumentation der Daten anhand eines Learning Analytics Metadatenmodells
Towards real-time data integration and analysis for embedded devices
In complex systems, e.g., in logistic hubs, cars or factories, there is a need for real time decision support. In present approaches the transfer and storage process and subsequent analysis of data in real time is not possible. One reason is that data sources can fail and thus the information flow is interrupted. Furthermore there is a large divergence of the data amount generated by data streams coming from different data sources, e.g. sensors, relational databases and mobile devices. We offer an architecture to eliminate these problems. Therefore we introduce a classification of the data sources that enables an appropriate handling of the specific data source's properties
Methodik und Bewertung
Long term business success highly depends to how fast a company reacts on
changes in the market situation. Those who want to be successful need
relevant, up-to-date, and accurate information. Business or economic decisions
rely on indicators. One facet of data quality is the integrity of data. Most
of the main business and economic indicators suffer from statistical
discrepancies. These indicators are based on non-linear equation systems and
are normally not crisp, but random due to measurement errors. Consequently,
computation of the corresponding probability distributions is usually not
trivial. Handling uncertainty within indicator systems is a major challenge
for improved decision making. Different approaches exist for dealing with
uncertainty, e. g., Fuzzy set theory and the probabilistic method. The
shortcomings of both approaches can be reduced by the use of simulation. As
the Gaussian distribution is not closed under all four arithmetic operations,
there is the need for Markov Chain Monte Carlo (MCMC) simulation to determine
the probability distributions. A combination of data, generated by MCMC
simulation, which is based on prior knowledge about a fully specified non-
linear, stochastic balance equation system with noisy measurements, is
proposed for handling uncertainty within indicator systems. The Metropolis
Hastings algorithm enables the use of any computable target probability
function. SamPro is the algorithm that implements the MCMC simulation approach
for indicator systems. The estimation of unobservable quantities of such
models is improved by SamPro and data inconsistencies to the equation system
are revealed. MoSi is proposed as a software tool for the modelling of
indicator systems as well as their simulation. The implementation of the
SamPro algorithm is consequently included in MoSi, as well. MoSi can be used
efficiently in the processes of planning, decision making, and controlling.Langfristiger Unternehmenserfolg hängt sehr stark davon ab, wie das
Unternehmen auf Marktänderungen reagiert. Erfolgreiche Manager benötigen
relevante, aktuelle und korrekte Informationen. Betriebs- und
volkswirtschaftliche Entscheidungen werden anhand von Kennzahlen getroffen.
Ein Gesichtspunkt der Datenqualität ist die Datenintegrität. Die meisten
Kennzahlen unterliegen jedoch statistischen Unstimmigkeiten. Diese Kennzahlen
werden ĂĽber nichtlineare Gleichungen mit Messfehlern ermittelt. Deshalb ist
die Bestimmung der zugehörigen Wahrscheinlichkeitsfunktion nicht trivial. Der
Umgang mit Unsicherheit in Kennzahlensystemen ist eine groĂźe Herausforderung
für eine verbesserte Entscheidungsfindung. Es gibt unterschiedliche Ansätze
fĂĽr den Umgang mit Unsicherheit, wie z.B. Fuzzy Set Theorie und
Wahrscheinlichkeitstheorie. Die Unzulänglichkeiten beider Ansätze können durch
Simulation verringert werden. Da die Normalverteilung unter den vier
arithmetischen Operationen nicht geschlossen ist, muss die Markov Chain Monte
Carlo (MCMC) Simulation zur Bestimmung der Wahrscheinlichkeitsfunktionen
herangezogen werden. Zum Umgang von Kennzahlensystemen mit Unsicherheit werden
Daten, die mit MCMC Simulation generiert werden, kombiniert mit einem
vollspezifizierten stochastischen Kennzahlensystem mit Messfehlern. Der hier
entwickelte SamPro Algorithmus ist der MCMC-Simulationsansatz fĂĽr
Kennzahlensysteme. Die Schätzung nicht beobachtbarer Kennzahlen wird durch
SamPro verbessert und Inkonsistenzen von Daten zum Kennzahlensystem werden
aufgedeckt. MoSi ist ein Softwaretool fĂĽr die Modellierung und Simulation von
Kennzahlensystemen. Die Implementierung des SamPro Algorithmus ist folglich in
MoSi enthalten. MoSi kann effizient in den Prozessen der Planung, der
Entscheidungsfindung und der Unternehmenssteuerung eingesetzt werden
Warenkorbanalyse fĂĽr Empfehlungssysteme in wissenschaftlichen Bibliotheken
Bibliotheken als Informationsdienstleister müssen im Datenzeitalter adäquate Wege nutzen. Mit der Durchdringung des Digitalen bei Nutzern werden Anforderungen an die Informationsbereitstellung gesetzt, die durch den täglichen Umgang mit konkurrierenden Angeboten vorgelebt werden. So werden heutzutage im kommerziellen Bereich nicht nur eine Vielzahl von Daten erhoben, sondern diese werden analysiert und die Ergebnisse entsprechend verwendet. Auch in Bibliotheken fallen eine Vielzahl von Daten an, die jedoch nicht genutzt werden. Schranken, wie der Datenschutz, werden häufig genannt, obwohl diese keine wirkliche Barriere für die Datennutzung darstellen. Die Analyse von anonymisierten Daten zur Ausleihe mittels Association-Rule-Mining ermöglicht Zusammenhänge in den Buchausleihen zu identifizieren. Die Ergebnisse können in den Recherche-Webangeboten den Nutzern zur Verfügung gestellt werden. So wird ein Empfehlungssystem basierend auf dem Nutzerverhalten bereitgestellt. Die technische Realisierung des Empfehlungssystems betrachtet die Datenerhebung, die Datenverarbeitung, insbesondere hinsichtlich der Data Privacy, die Datenanalyse und die Ergebnispräsentation. Neben der technischen Realisierung des Empfehlungssystems wird anhand einer in der Universitätsbibliothek der Otto-von-Guericke-Universität Magdeburg durchgeführten Fallstudie die Parametrisierung im Kontext der Data Privacy und für den Data Mining Algorithmus diskutiert. Damit liegt ein datengetriebenes Empfehlungssystem für die Ausleihe in Bibliotheken vor
Warenkorbanalyse fĂĽr Empfehlungssysteme in wissenschaftlichen Bibliotheken
Bibliotheken als Informationsdienstleister müssen im Datenzeitalter adäquate Wege nutzen. Mit der Durchdringung des Digitalen bei Nutzern werden Anforderungen an die Informationsbereitstellung gesetzt, die durch den täglichen Umgang mit konkurrierenden Angeboten vorgelebt werden. So werden heutzutage im kommerziellen Bereich nicht nur eine Vielzahl von Daten erhoben, sondern diese werden analysiert und die Ergebnisse entsprechend verwendet. Auch in Bibliotheken fallen eine Vielzahl von Daten an, die jedoch nicht genutzt werden. Schranken, wie der Datenschutz, werden häufig genannt, obwohl diese keine wirkliche Barriere für die Datennutzung darstellen. Die Analyse von anonymisierten Daten zur Ausleihe mittels Association-Rule-Mining ermöglicht Zusammenhänge in den Buchausleihen zu identifizieren. Die Ergebnisse können in den Recherche-Webangeboten den Nutzern zur Verfügung gestellt werden. So wird ein Empfehlungssystem basierend auf dem Nutzerverhalten bereitgestellt. Die technische Realisierung des Empfehlungssystems betrachtet die Datenerhebung, die Datenverarbeitung, insbesondere hinsichtlich der Data Privacy, die Datenanalyse und die Ergebnispräsentation. Neben der technischen Realisierung des Empfehlungssystems wird anhand einer in der Universitätsbibliothek der Otto-von-Guericke-Universität Magdeburg durchgeführten Fallstudie die Parametrisierung im Kontext der Data Privacy und für den Data Mining Algorithmus diskutiert. Damit liegt ein datengetriebenes Empfehlungssystem für die Ausleihe in Bibliotheken vor
ManagementunterstĂĽtzung zur Besuchersteuerung in Bibliotheken: Reportingprozesse im Coronakontext
Mit der notwendigen Besuchersteuerung im Kontext der COVID-19-Pandemie ergaben sich für Bibliotheksleitungen eine Vielzahl von Entscheidungen in einem unbekannten, dynamischen Umfeld. Neue Werkzeuge können dabei nicht nur unmittelbar das operative Tagesgeschäft erleichtern, sondern als zusätzliche Informationsquellen für die nächsten Entscheidungsschritte dienen. Kennzahlen quantifizieren und verdichten Informationen und können für Steuerungsprozesse eingesetzt werden. An der Universitätsbibliothek Magdeburg wurde eine leichtgewichtige Reportinglösung für die Bibliotheksleitung entworfen, die es ermöglicht, kurzfristig und gleichzeitig adäquat auf die Anforderungen und Rahmenbedingungen einzugehen.With the necessary visitor management in the context of the COVID-19 pandemic, library managers had to make numerous decisions in an unknown, very dynamic environment. New tools should not only directly facilitate the operative daily business, but also serve as additional sources of information for the next decisions. Key indicators quantify and condense information and can be used for control processes. At Magdeburg University Library, a lightweight reporting solution was designed for the library director, which enables responding to requirement changes and general conditions at short notice adequately.Peer Reviewe
Improving Information Ranking by Respecting the Multidimensionality and Uncertainty of User Preferences
Rankings and ratings are popular methods for structuring large information sets in search engines, e-Commerce, e-Learning, etc. But do they produce the right rankings for their users? In this paper, we give an overview of major evaluation approaches for rankings as well as major challenges facing the use and usability of rankings. We point out the importance of an interdisciplinary perspective for a truly user-centric evaluation of rankings. We then focus on two central problems: the multidimensionality of the criteria that influence both users ’ and systems ’ rankings, and the randomness inherent in users ’ preferences. We propose multi-criteria decision analysis and the integration of randomness into rankings as solution approaches to these problems. We close with an outlook on new challenges arising for ranking when systems address not only individuals, but also groups