Data Quality of Digital Process Data: A Generalized Framework and Simulation/Post-Hoc Identification Strategy

Abstract

Digital process data are becoming increasingly important for social science research, but their quality has been gravely neglected so far. In this article, we adopt a process perspective and argue that data extracted from socio-technical systems are, in principle, subject to the same error-inducing mechanisms as traditional forms of social science data, namely biases that arise before their acquisition (observational design), during their acquisition (data generation), and after their acquisition (data processing). As the lack of access and insight into the actual processes of data production renders key traditional mechanisms of quality assurance largely impossible, it is essential to identify data quality problems in the data available—that is, to focus on the possibilities post-hoc quality assessment offers to us. We advance a post-hoc strategy of data quality assurance, integrating simulation and explorative identification techniques. As a use case, we illustrate this approach with the example of bot activity and the effects this phenomenon can have on digital process data. First, we employ agent-based modelling to simulate datasets containing these data problems. Subsequently, we demonstrate the possibilities and challenges of post-hoc control by mobilizing geometric data analysis, an exemplary technique for identifying data quality issues.Digitale Prozessdaten werden für die sozialwissenschaftliche Forschung immer wichtiger, doch ihre Qualität wurde in der Diskussion bisher stark vernachlässigt. In diesem Beitrag nehmen wir eine Prozessperspektive ein und argumentieren, dass Daten, die aus soziotechnischen Systemen extrahiert werden, im Prinzip denselben fehlerverursachenden Mechanismen unterliegen wie traditionelle Formen sozialwissenschaftlicher Daten, nämlich Verzerrungen, die vor ihrer Erfassung (Beobachtungsdesign), während ihrer Erfassung (Datengenerierung) und nach ihrer Erfassung (Datenverarbeitung) entstehen. Da der fehlende Zugang und Einblick in die eigentlichen Prozesse der Datenproduktion wichtige Mechanismen der traditionellen Qualitätssicherung weitgehend unmöglich machen, ist es unerlässlich, Datenqualitätsprobleme in den zur Verfügung stehenden Daten zu identifizieren – das heißt, sich auf die Möglichkeiten zu konzentrieren, die uns die post-hoc Qualitätsprüfung bietet. Wir entwickeln eine Post-hoc-Strategie der Datenqualitätssicherung, die Simulation und explorative Identifizierungstechniken integriert. Als Anwendungsfall illustrieren wir diesen Ansatz am Beispiel von Bot-Aktivitäten und den Auswirkungen, die dieses Phänomen auf digitale Prozessdaten haben kann. Dazu setzen wir zunächst eine agentenbasierte Modellierung ein, um Datensätze mit derartigen Datenproblemen zu simulieren. Anschließend demonstrieren wir die Möglichkeiten und Herausforderungen der Post-hoc-Kontrolle, indem wir die geometrische Datenanalyse einsetzen, eine exemplarische Technik zur Identifizierung von Datenqualitätsproblemen

    Similar works