Automatic ontology learning from semi-structured data

Abstract

Používání ontologií pro zachycení znalostí není žádnou novinkou. Důkazem tomu jsou veřejně dostupné ontologie, například z iniciativy Schema.org, které se hojně používají pro anotování webové obsahu. Ovšem, tyto ontologie bývají příliš obecné. Proto je potřeba systémů, které by generovaly ontologie zaměřené na specifičtější domény typu Mobilní telefony. Takové ontologie by poté mohly sloužit k rozšiřování obecnějších ontologií, jako je právě Schema.org. Zde by mohla pomoci tato práce, která se zameřuje na vytváření ontologií z elementů obsažených ve webových stránkách. Implementovaný systém využívá metody pro klasifikaci typu tabulky, detekci hlavičky, porozumění vztahům mezi buňkami v tabulce a vytváření finální ontologie v RDF/OWL formátu. Výsledný přístup byl úspěšně aplikován na doménu mobilních telefonů. Jednotlivé ontologie byly vygenerovány z tabulek nalezených na stránkách \newline amazon.com, buymobiles.net, gadgets.ndtv.com a snapdeal.com. Kromě této domény se daný systém dá využít i na další domény jako např. kamery, firmy, auta, basketbalový hráči.Publicly available ontologies, such as Schema.org, tend to be quite general. Therefore, demand for systems automatically generating domain specific ontologies has arose. The generated ontologies could later extend the general ones, for example in Schema.org. This thesis focuses on building ontologies from elements found in WEB pages. Methods were implemented for table type classification, header location, table understanding and creating final ontologies in RDF/OWL. The implemented system has been successfully applied to mobile phones domain. Ontologies were generated from tables found on amazon.com, buymobiles.net, gadgets.ndtv.com and snapdeal.com. Moreover, the system is applicable to other domains, such as cameras, companies, cars and basketball players

Similar works

Full text

thumbnail-image

Digital Library of the Czech Technical University in Prague

Provided a free PDF

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.