6 research outputs found

    Atribuição de autoria em micro-mensagens

    Get PDF
    Orientadores: Ariadne Maria Brito Rizzoni Carvalho, Anderson de Rezende RochaDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação CientíficaResumo: Com o crescimento continuo do uso de midias sociais, a atribuição de autoria tem um papel imortante na prevenção dos crimes cibernéticos e na análise de rastros online deixados por assediadores, \textit{bullies}, ladrões de identidade entre outros. Nesta dissertação, nós propusemos um método para atribuição de autoria que é de cem a mil vezes mais rápido que o estado da arte. Nós também obtivemos uma acurácia 65\% na classificação de 50 autores. O método proposto se baseia numa representação de caracteristicas escalável utilizando os padrões das mensagens dos micro-blogs, e também nos utilizamos de um classificador de padrões customizado para lidar com grandes quantidades de dados e alta dimensionalidade. Por fim, nós discutimos a redução do espaço de busca na análise de centenas de suspeitos online e milões de micro mensagens online, o que torna essa abordagem valiosa para forense digital e aplicação das leisAbstract: With the ever-growing use of social media, authorship attribution plays an important role in avoiding cybercrime, and helping the analysis of online trails left behind by cyber pranks, stalkers, bullies, identity thieves and alike. In this dissertation, we propose a method for authorship attribution in micro blogs with efficiency one hundred to a thousand times faster than state-of-the-art counterparts. We also achieved a accuracy of 65% when classifying texts from 50 authors. The method relies on a powerful and scalable feature representation approach taking advantage of user patterns on micro-blog messages, and also on a custom-tailored pattern classifier adapted to deal with big data and high-dimensional data. Finally, we discuss search space reduction when analysing hundreds of online suspects and millions of online micro messages, which makes this approach invaluable for digital forensics and law enforcementMestradoCiência da ComputaçãoMestre em Ciência da Computaçã

    Identificação e verificação de escritores usando características texturais e dissimilaridade

    Get PDF
    Resumo: A verificação e identificação de escritores são atividades relacionadas a ciências forense, na qual possuem a função de auxiliar na identificação ou constatação de fraudes de documentos manuscritos. A tarefa de verificar ou identificar escritores através de sua escrita manuscrita disposta em papel torna-se árdua devido as semelhanças existentes entre a escrita de diferentes escritores e também devido a variabilidade da escrita de uma mesma pessoa. Inserido neste contexto, este trabalho discute o uso de descritores de textura para o processo de verificação e identificação de escritores. Três diferentes descritores de textura foram avaliados para elaboração desta tese, GLCM (Gray Level Co-occurrence Matrix), LBP (Local Binary Pattern) e LPQ Local Phase Quantization. Além disso, empregamos um esquema de classificação baseado na representação da dissimilaridade, o qual tem contribuído para o sucesso em problemas de verificação de escritores. Inicialmente tratamos de algumas questões, como o desempenho dos descritores e parâmetros do sistema escritor-independente. Observamos outras questões importantes relacionadas com a representação dissimilaridade, tais como o impacto do numero de referencias utilizadas para verificação e identificação de escritores, e o número de escritores empregados no conjunto de treinamento. A partir destes primeiros experimentos, foi possível verificar que o número de escritores no conjunto de treinamento impactava menos que se supunha no desempenho do sistema. Para verificar todos estes objetivos, realizamos experimentos com duas diferentes bases de dados: BFL (Brazilian Forensic Letter Database) e IAM (Institut fur Informatik und angewandte Mathematik), as quais são manuscritas em diferentes línguas e contendo números de escritores díspares. Em sequencia, comparamos a abordagem baseada na dissimilaridade com outras estratégias escritor-dependente. Em uma segunda etapa de experimentos avaliamos o impacto de diferentes estilos de escrita, assim como: texto-dependente, texto-independente, caixa alta e falsificação (escrita dissimulada). Para isso, utilizamos a base Firemaker a qual e a única base pública a possuir estes quatro diferentes estilos. Por fim avaliamos a abordagem de seleção de escritores a qual tem por finalidade selecionar escritores para geração de modelos robustos. Através de uma serie de experimentos, percebemos que ambos os descritores de textura LBP e LPQ são capazes de superar os resultados anteriores descritos na literatura para o problema de verificação por cerca de 5 pontos percentuais. Para o problema de identificação de escritores, o uso do descritor LPQ foi capaz de alcançar melhores taxas de acertos globais, 96,7 % e 99,2 % para as bases BFL e IAM, respectivamente. Com relação aos diferentes estilos de escrita, notamos que a abordagem apresenta-se robusta para diferentes estilos incluindo a falsificação, apresentando desempenho superior aos descritos em literatura. Por fim, utilizando a abordagem de seleção de escritores, foi possível alcançar desempenho igual ou superior utilizando cerca de 50% dos escritores disponíveis no conjunto de treinamento
    corecore