1 research outputs found
Métodos eficientes de deteção de plágio em grandes corpora
O crescente aumento da quantidade de informação publicada na Web, na forma de publicações
literárias, científicas e académicas, implica uma constante verificação da integridade de novos
documentos (suspeitos) em função dos documentos existentes (fonte). Surge, portanto, a necessidade
de aumentar: a eficiência na redução do espaço de procura em grandes conjuntos de
documentos fonte; a eficácia na deteção de plágios cada vez mais sofisticados. Nesta dissertação
descreve-se uma metodologia baseada em dois atos: (i) indexação do corpus fonte, com um
motor de pesquisa (código aberto), e extração de documentos fonte (candidatos), através de
pesquisa por palavras relevantes e caraterísticas textuais; (ii) localização de excertos de plágio
em documentos suspeitos, com uma métrica robusta, criada através da aplicação de programação
genética sobre as caraterísticas de dados plagiados. Os resultados experimentais obtidos
mostram uma redução significativa no tempo de processamento, devido à estratificação do corpus,
assim como a capacidade de detetar eficientemente excertos de plágio literal, modificado
e ofuscado.The increasing information volume published in the Web, either in terms of literary publications
or scientific and academic papers, requires a constant surveillance to verify the integrity of
daily entering new documents (suspicious), on the basis of the existing ones (sources). As a
consequence arises the need to improve the efficiency in reducing the search space for large
sets of documents source and the effectiveness in detecting increasingly sophisticated plagiarism
events. In this dissertation it is described a methodology based on two actions: (I) indexing the
source corpus, with a search engine (open-source), and the extraction of source documents
(candidates) by searching for key relevant words and textual features; (II) locating plagiarized
passages in suspicious documents with a hybrid metric created by applying genetic programming
on the characteristics of plagiarized data. The results show a significant reduction in processing
time due to the corpus stratification, as well as a high success rate in detecting plagiarism
passages, having none, low, and high obfuscation. The experimental results show a significant
reduction in processing time due to stratification of the corpus, as well as the ability to detect
plagiarism extracts of diffrent kind: literal, modified and obfuscated