Location of Repository

Automated Web Page Categorization Tool

By Radek Lat

Abstract

Tato diplomová práce popisuje návrh a implementaci nástroje pro automatickou kategorizaci webových stránek. Cílem nástroje je aby byl schopen se z ukázkových webových stránek naučit, jak každá kategorie vypadá. Poté by měl nástroj zvládnout přiřadit naučené kategorie k dříve nespatřeným webovým stránkám. Nástroj by měl podporovat více kategorií a jazyků. Pro vývoj nástroje byly použity pokročilé techniky strojového učení, detekce jazyků a dolování dat. Nástroj je založen na open source knihovnách a je napsán v jazyce Python 3.3

Topics: language detection; kategorizace; categorization; web; python; strojové učení; robot; machine learning; SVM; detekce jazyků; crawler
Publisher: Vysoké učení technické v Brně. Fakulta informačních technologií
Year: 2014
OAI identifier: oai:invenio.nusl.cz:236054
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • http://www.nusl.cz/ntk/nusl-23... (external link)
  • Suggested articles


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.