research

Evaluating Supervised Machine Learning by Coding Armed Conflict

Abstract

The internet promises ad hoc availability of any kind of information. Conflict researchers seem to be bound only by the effort needed to find and extract the necessary information from international news sources. This begs the question of whether the sheer number of accessible news sources and the speed of the news cycle dictate an automated coding approach in order to keep up. Will the initial costs of implementing such a system outweigh the possible loss of information on violent conflict? We answer these questions in relation to the Event Data on Armed Conflict and Security project (EDACS) where we carry out both human and machine-assisted coding to generate spatiotemporal conflict event data. We use spatiotemporal comparability measures for quantitative and qualitative comparison of the two datasets. While the quality of human-coding exceeds a purely automated approach, a compromise between efficiency and quality results in a supervised, semi-automated machine learning approach. We conclude by critically reflecting on the possible discrepancies in the analysis of these resulting datasets.Das Internet verspricht ad hoc Verfügbarkeit jedweder Information. Konfliktforscher müssen daher dem Anschein nach nur noch die gewünschten Informationen finden und extrahieren. Dies wirft die Frage auf, ob die schiere Zahl verfügbarer Nachrichtenquellen und die Geschwindigkeit des Informationsflusses eine Maschinenkodierung zwingend notwendig machen? Und wiegen die initialen Kosten der Implementierung eines solchen Systems die Kosten des möglichen Informationsverlustes auf? Wir haben diese Fragen für das Event Data on Armed Conflict and Security Projekt (EDACS) beantwortet und im Zuge dessen, sowohl manuell als auch semiautomatisch, raumzeitlich desaggregierte Ereignisdaten eines bewaffneten Konflikts kodiert. In diesem Papier stellen wir beide Ansätze quantitativ und qualitativ mit Hilfe raumzeitlicher Vergleichsmaße einander gegenüber. Während die Qualität manuell kodierter Daten die maschinell erstellter Daten übertrifft, bietet die semi- automatische Variante einer überwachten Maschinenkodierung einen Kompromiss zwischen Effizienz und Qualität. Wir schließen mit einer kritischen Aufarbeitung möglicher Diskrepanzen in Analysen basierend auf den beiden Datensätzen

    Similar works