System for extracting information from criminalistic texts

Abstract

Práce se zabývá zpracováním nestrukturovaných dokumentů a následným zpracováním extrahovaných dat. Největší pozornost je věnována extrakci jmen osob, ze kterých je následně vytvářena sociální (kriminální) síť. Dále je ukázán způsob, jakým tuto síť efektivně destabilizovat. V práci jsou ukázány možnosti detekce komunit, které se spolu často v textech vyskytují, prostorové a časové analýzy. Systém by mohl usnadnit práci např. investigativním reportérům nebo policii, která má k dispozici velké množství textových dokumentů. Jejich ruční zpracování, zejména pokud jsou hledána vodítka napříč několika dokumenty, může být obtížné. Jelikož tyto záznamy mohou obsahovat osobní údaje, je zde představen anonymizátor, který tyto údaje dokáže anonymizovat a následně deanonymizovat. Funkčnost systému byla ověřena na testovací sérii článků, které se věnují teroristickým útokům v Paříži a Bruselu.ObhájenoThe aim of this diploma thesis is processing of unstructured documents and further data processing of extracted information. The main attention was devoted to extraction of personal names. From obtained personal names was created a social (criminal) network. An effective destabilization of this network is shown. Also the detection of communities, which occur frequently together is demonstrated and the example of spatial and the temporal analysis is presented. Our system could facilitate the work of investigative reporters or police, which has an available large set of unstructured documents. Manual processing of these documents may be difficult. Mainly, if they look for clues between multiple documents. However, these documents may contain some personal data. Therefore the anonymizator was created similarly as the deanonymizer. The function of this system is demonstrated. Used test data was created from articles on terrorist attacks in Paris and Brussels

    Similar works