Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.A identificação de fraudes e conluios em licitações de obras públicas é uma tarefa man-
ual dispendiosa dependente tanto de experiência profissional quanto de profundo conheci-
mento técnico e legal. As bases de dados públicas, aliadas a dados de licitações e contratos
previamente analisados por peritos criminais altamente capacitados, formaram a base de
dados passível de ser analisada para a identificação de atos ilícitos. Neste trabalho é pro-
posta uma metodologia para realizar a detecção e classificação automática de padrões de
conluio em licitações públicas, utilizando como fontes os dados disponíveis nos principais
repositórios oficiais públicos, agregando a utilização de técnicas de reconhecimento de
padrões para a realização deste objetivo proposto. Em uma abordagem inicial, obteve-se
com sucesso para a formação da base de dados do trabalho um total de 15.132.968 pub-
licações da Seção 3 do Diário Oficial da União em formato de texto e 1.907 documentos
como referência de indicativo de atividades de conluio (estes disponibilizados por institu-
ição parceira) que indicavam risco no processo licitatório. Foram testados modelos lineares
clássicos, redes neurais profundas, bottleneck, Bi-LSTM e multicanal com vetorização do
texto com TF-IDF e DOC2VEC, e dados estruturados extraídos do texto. O melhor F1-
score foi obtido com o modelo passive-aggressive com 93,4% e o modelo bottleneck obteve
93,0% com melhor precisão.Identifying fraud and collusion in public bids is an expensive manual task and de-
pendent on professional experience using in-depth technical and legal knowledge. Public
databases, allied to bidding and contract data previously analyzed by highly trained crim-
inal experts, form the database that can be analyzed for irregularities identification. This
work proposes a methodology for automatic detection and classification of collusion pat-
terns in public bids text, using data sources available on main public official repositories
and adding pattern recognition techniques to achieve a model that detects and classifies
this pattern. In an initial approach, a total of 15, 132, 968 publications of the Diario Oficial
da União news, Section 3, in text format and 1, 907 documents as a reference for collusion
activities were successfully obtained for the formation of the central work database (pro-
vided by a partner institution) that indicated risk in the bidding process. Classic linear
models, deep neural networks, bottleneck, Bi-LSTM, and multichannel were tested with
text vectorization with TF-IDF and DOC2VEC, and structured data extracted from the
text. The best F1-score was obtained with a passive-aggressive model with 93.4%, but
the bottleneck model obtained 93.0% with better precision