ORION: an effective and robust approach for acquiring attribute values of real-world entities

Abstract

Página-entidade é uma página Web que publica dados que descrevem uma entidade de um tipo particular. Adquirir os valores dos atributos de entidades do mundo real publicados nessas páginas é uma tarefa estratégia para diversas empresas. Essa aquisição envolve as tarefas de encontrar as páginas-entidade nos sites e extrair os valores dos atributos publicados nessas páginas. Os trabalhos que discorrem sobre como realizar as tarefas de descoberta das páginasentidade e de extração dos dados de forma integrada possuem aplicação limitada porque são específicos para um domínio de aplicação ou porque requerem anotações a priori. Tendo em vista essa lacuna, esta Tese apresenta Orion, uma abordagem para aquisição de valores de atributos de entidades do mundo real a partir de páginas-entidade baseadas em template. Orion descobre as páginas-entidade nos sites e extrai os valores dos atributos publicados nessas páginas. A principal originalidade da abordagem Orion é realizar as tarefas de descoberta das páginas-entidade e de extração dos dados de forma integrada, independentemente de domínio de aplicação e de anotação a priori. A abordagem Orion inclui uma etapa de descoberta de páginas-entidade que combina características de HTML e URL sem a necessidade de intervenção do usuário para definição dos limiares de similaridade entre as páginas. A etapa de descoberta utiliza uma nova função de similaridade entre páginas baseada na URL que atribui diferentes pesos para os termos de URL de acordo com a capacidade de distinção de páginas-entidade das demais páginas. A abordagem Orion também inclui uma etapa de extração de valores de atributos a partir de consultas Cypher em um banco de dados orientado a grafos. Essa etapa infere as consultas automaticamente. A abordagem Orion é robusta porque inclui uma etapa adicional de reforço que realiza o tratamento de atributos com variação de template. Esse reforço é realizado por meio de uma combinação linear de diferentes funções de similaridade. A fim de avaliar a eficácia de cada etapa da abordagem isoladamente e da abordagem de forma integral, foram realizados experimentos exaustivos utilizando sites reais. Nesses experimentos, a abordagem Orion foi numérica e estatisticamente mais eficaz que os baselines.Entity-page is a Web page which publishes data that describe an entity of a specific type. Acquiring the attribute values of the real-world entities that are published in these pages is a strategic task for various companies. This acquisition involves the tasks of discovering the entitypages in the websites and extracting the attribute values that are published in them. However, the current approaches that carry out the tasks of discovering entity-pages and extracting data in an integrated way have limited applications because they are restricted to a particular application domain or require an a priori annotation. This thesis presents Orion, which is an approach to acquire the attribute values of real-world entities from template-based entity-pages. Orion discovers the entity-pages in the websites and extracts the attribute values that are published in them. What is original about the Orion approach is that it carries out the tasks of discovering entity-pages and extracting data in a way that is integrated, domain-independent, and independent of any a priori annotation. The Orion approach includes an entity-page discovery stage that combines the HTML and URL features without requiring the user to define the similarity threshold between the pages. The discovery stage employs a new URL-based similarity function that assigns different weights to the URL terms in accordance with their capacity to distinguish entity-pages from other pages. Orion also includes a stage during which the attribute values are extracted by means of Cypher queries in a graph database. This stage automatically induces the queries. It should be noted that the Orion approach is robust because it includes an additional reinforcement stage for handling attributes with template variations. This stage involves exploring a linear combination of different similarity functions. We carried out exhaustive experiments through real-world websites with the aim of evaluating the effectiveness of each stage of the approach both in isolation and in an integrated manner. It was found that the Orion approach was numerically and statistically more effective than the baselines

    Similar works