Document content mining for authors' identification task

Haręza, Marcin; Kaczor, Marcin; Łukasi, Szymon

Document content mining for authors' identification task

Authors: Marcin Haręza
Marcin Kaczor
Szymon Łukasi
Publication date: 28 April 2015
Publisher: Czasopismo Techniczne

Abstract

Przedmiotem niniejszego artykułu jest problem identyfikacji autora na podstawie analizy treści dokumentów. Podejście to opiera się na wyborze odpowiednich cech związanych ze specyficznym użyciem struktur gramatycznych, interpunkcji oraz słownika, a następnie – użycie wybranego algorytmu klasyfikacji. W artykule przedstawiono najpierw różne charakterystyki tekstu, które mogą być użyte w omawianym zagadnieniu, a następnie załączono wyniki eksperymentów obliczeniowych obejmujących wybór cech i badanie skuteczności klasyfikacji w problemie identyfikacji autorów. Artykuł podsumowano wnioskami oraz propozycjami dalszych prac w rozważanej tematyce badawczej

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Portal Czasopism Naukowych (E-Journals)

oai:ojs.www.ejournals.eu:artic...

Last time updated on 17/10/2019