Deep Vacuity : detecção e classificação automática de padrões com risco de conluio em dados públicos de licitações de obras

Abstract

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.A identificação de fraudes e conluios em licitações de obras públicas é uma tarefa man- ual dispendiosa dependente tanto de experiência profissional quanto de profundo conheci- mento técnico e legal. As bases de dados públicas, aliadas a dados de licitações e contratos previamente analisados por peritos criminais altamente capacitados, formaram a base de dados passível de ser analisada para a identificação de atos ilícitos. Neste trabalho é pro- posta uma metodologia para realizar a detecção e classificação automática de padrões de conluio em licitações públicas, utilizando como fontes os dados disponíveis nos principais repositórios oficiais públicos, agregando a utilização de técnicas de reconhecimento de padrões para a realização deste objetivo proposto. Em uma abordagem inicial, obteve-se com sucesso para a formação da base de dados do trabalho um total de 15.132.968 pub- licações da Seção 3 do Diário Oficial da União em formato de texto e 1.907 documentos como referência de indicativo de atividades de conluio (estes disponibilizados por institu- ição parceira) que indicavam risco no processo licitatório. Foram testados modelos lineares clássicos, redes neurais profundas, bottleneck, Bi-LSTM e multicanal com vetorização do texto com TF-IDF e DOC2VEC, e dados estruturados extraídos do texto. O melhor F1- score foi obtido com o modelo passive-aggressive com 93,4% e o modelo bottleneck obteve 93,0% com melhor precisão.Identifying fraud and collusion in public bids is an expensive manual task and de- pendent on professional experience using in-depth technical and legal knowledge. Public databases, allied to bidding and contract data previously analyzed by highly trained crim- inal experts, form the database that can be analyzed for irregularities identification. This work proposes a methodology for automatic detection and classification of collusion pat- terns in public bids text, using data sources available on main public official repositories and adding pattern recognition techniques to achieve a model that detects and classifies this pattern. In an initial approach, a total of 15, 132, 968 publications of the Diario Oficial da União news, Section 3, in text format and 1, 907 documents as a reference for collusion activities were successfully obtained for the formation of the central work database (pro- vided by a partner institution) that indicated risk in the bidding process. Classic linear models, deep neural networks, bottleneck, Bi-LSTM, and multichannel were tested with text vectorization with TF-IDF and DOC2VEC, and structured data extracted from the text. The best F1-score was obtained with a passive-aggressive model with 93.4%, but the bottleneck model obtained 93.0% with better precision

    Similar works