Dissertação de mestrado, Engenharia Eléctrica e Electrónica, Instituto Superior de Engenharia, Universidade do Algarve, 2016Eletronic commerce, know as e-commerce, is a system that consists in buying and selling
produtcs/services over the internet. The internet is used by millions of people,
making the management of the available information (e.g. competitor analysis market)
a very difficult task for those operationg an e-commerce business. So that the
managers can better position their companies against competitors, comes the need to
create automatic mechanisms to extract information from various web sources (websites).
The hotel business is a market where e-commerce is essential since the internet is
their biggest selling point, either through sales channels or through their own websites.
At the same time, these channels have important information, regarding the
reputation of the hotel and their competitors, for instance in the form of guest comments.
In this thesis a solution to some of those problems is presented, in which the main
focus is the automatic extraction of information from sales channels, such as Booking.
com. The extracted information is used to help the hoteliers in the analysis of the
prices and opinions of hotel’s guests. That information will be extracted using web
robots, able to analyze and interact with web pages, by simulating human behavior.
This behavior simulation takes advantage of the navigation patterns present on most
sales channels, so that users can easily follow the steps to the final purchase. Briefly describing the overall process, the web robot begins by filling the web site
search form with a set of configurable parameters. For each hotel that met the search
criteria the most relevant information is extracted, such as: prices, offers, comments
and location of the hotel. The collected data is grouped and stored in an intermediate
database. Once collected, the data is: (a) used by mathematical prediction models that
analyze the prices of the hotels in recent years and generate a forecast of prices that
hotels will practice in the future and, (b) used to check the hotel’s reputation taking
into account the comments of the guests.
This thesis presents a set of four papers resulting in past from the author’s work
in project "SRM: Smart Revenue Management" financed by QREN I&DT, no. 38962,
with promotor VISUALFORMA - Tecnologias de Informação, SA and co-promoter
University of the Algarve.A simplicidade do protocolo HTTP [19] e a extrema flexibilidade dos navegadores
web (clientes HTTP) potenciaram o crescimento do número de sites e por sua vez o
comércio eletrónico.
O comércio eletrónico, também conhecido como e-commerce, é um sistema que consiste
na compra e venda de produtos ou serviços através da internet [22]. Sendo a
internet um meio de comunicação utilizado por milhões de pessoas, a gestão da informação
que é disponibilizada e a análise do mercado concorrente torna-se uma tarefa
bastante árdua para quem gere um negócio de e-commerce. Para que os gestores se possam
posicionar melhor perante os concorrentes surge a necessidade de criar mecanismos
automáticos capazes de extrair informação das várias fontes web (websites).
A hotelaria é um mercado em que o e-commerce é imprescindível fazendo da internet
o seu maior ponto de venda, seja através de canais de venda ou através dos seus
próprios websites. Em simultâneo, os referidos canais apresentam informações importantes
sobre a forma de comentários dos hóspedes, relativamente à reputação do hotel
e seus concorrentes.
Existem dois métodos principais para a procura de informação na web [93], sendo
esses: (a) a extração manual através de cópia e colagem e a (b) extração automática
através de web robots.
Relativamente à extração manual, algumas empresas contratam pessoas para efetuar a extração manual dos dados. Este método consiste em procurar pela web e
copiar/colar ficheiros, reformatar texto, imagens, documentos, ficheiros multimédia
e outros dados. Este método de extração de dados torna-se dispendioso, pois exige
bastante tempo e mão de obra.
Por outro lado, para efetuar a extração de dados da web automaticamente, é necessário
um crawler (web robot) para visitar as várias páginas web existentes, partindo
de uma URL semente. À medida que estas URLs vão sendo visitadas pelo crawler,
extraiem-se os dados da página HTML correspondente. Posteriormente por norma
esses dados são armazenados numa base de dados, de forma a tornar o acesso aos
dados mais eficiente.
Nesta dissertação é apresentada uma solução para alguns problemas apresentados,
em que o principal foco é a extração automática de informação de quatro canais
de venda de reservas de alojamento, sendo esses Booking.com, Tripadvisor, Expedia e
Bestday. A informação que se pretende extrair tem como função auxiliar os gestores
hoteleiros a analisar a disponibilidade de quartos, os preços praticados e a opinião
dos hóspedes relativamente aos hotéis concorrentes. Essa informação será extraída
com recurso a web robots, capazes de analisar HTML e interagir com as páginas web
simulando o comportamento humano. Esta simulação de comportamento tira partido
dos canais de venda seguirem um padrão de navegação de modo a que o utilizador
siga facilmente os passos até efetuar a compra. Por cada um dos canais de venda que
se pretende extrair informação foi criado um web robot diferente, pois as páginas web
estão estruturadas de maneira diferente.
Descrevendo sucintamente o processo global, cada web robot começa por efetuar a
pesquisa no formulário do respetivo website com um conjunto de parâmetros que são
configuráveis. Após efetuar a pesquisa, são percorridos todos os hotéis que satisfizeram
os critérios previamente definidos e de seguida é extraída a informação presente
nos canais de venda, como sejam: os preços, as ofertas, os comentários e a localização
do hotel. Esses dados são agrupados e armazenados numa base de dados não relacional. Nesta fase os dados armazenados estão em bruto, i.e., sem qualquer tratamento.
Posteriormente, num processo independente (assíncrono), esses dados serão consolidados
através de algumas regras previamente definidas de modo a eliminar redundância
e a aumentar a consistência dos mesmos. Neste processo de consolidação
existem várias preocupações, sendo possivelmente a principal a associação dos dados
extraídos das diferentes páginas. Esta problemática surge devido à discrepância dos
nomes dos hotéis nos diferentes canais de vendas. Além disso existem muitas outras
discrepâncias entre os canais sendo as mais importantes: o número de estrelas das
unidades hoteleiras, o nome dos quartos e a escala de pontuação dos hóspedes. Após
concluído todo este processo de tratamento da informação, os dados são armazenados
numa base de dados final. Ao contrário da base de dados usada na primeira fase,
esta é uma base de dados relacional, o que significa que os dados estão devidamente
estruturados possibilitando assim o uso por vários tipos de aplicações.
Depois de recolhidos e consolidados, a finalidade dos dados é serem: (a) Utilizados
por modelos de previsão matemáticos que analisam os preços praticados pelos hotéis
nos últimos anos e geram uma previsão de preços que os hotéis irão praticar no futuro,
e (b) utilizados para verificar a reputação dos hotéis tendo em conta os comentários
dos hóspedes.
Este trabalho não só apresenta a implementação dos web robots e da construção
dos dados, como também uma vertente de análise da reputação dos hotéis através da
análise dos comentários e pontuação dos hóspedes. A análise desses comentários e
pontuações consiste em aplicar algumas regras de semântica e algumas métricas de
modo a entender quais são os índices de satisfação dos hóspedes dos hotéis. Através
destes indíces é possível verificar a importância de um hotel no mercado, pois num
negócio são os clientes que definem o seu sucesso.
Esta dissertação apresenta um conjunto de quatro artigos resultantes em parte do
trabalho desenvolvido pelo autor no projeto “SRM: Smart Revenue Management” financiado pelo QREN I&DT, n.º 38962, promotor VISUALFORMA - Tecnologias de
Informação, SA e co-promotor Universidade do Algarve. Abaixo segue-se a listagem
dos artigos que compoem este trabalho:
• Martins, D., Lam, R., Rodrigues, J.M.F., Cardoso, P.J.S., Serra, F. (2015) A Web
Crawler Framework for Revenue Management, In Proc. 14th Int. Conf. on Artificial
Intelligence, Knowledge Engineering and Data Bases (AIKED ’15), in Advances
in Electrical and Computer Engineering, Tenerife, Canary Islands, Spain,
10-12 Jan, pp. 88-97. ISBN: 978-1-61804-279-8.
• Ramos, C.M.Q., Correia, M.B., Rodrigues, J.M.F., Martins, D., Serra, F. (2015)
Big Data Warehouse Framework for Smart Revenue Management. In Proc.
3rd NAUN Int. Conf. on Management, Marketing, Tourism, Retail, Finance
and Computer Applications (MATREFC ’15), in Advances in Environmental Science
and Energy Planning, Tenerife, Canary Islands, Spain, 10-12 Jan., pp. 13-22.
ISBN: 978-1-61804-280-4.
• Martins, D., Ramos, C.M.Q, Rodrigues, J.M.F., Cardoso, P.J.S., Lam, R., Serra,
F. (2015) Challenges in Building a Big Data Warehouse Applied to the Hotel
Business Intelligence, In Proc. 6th Int. Conf. on Applied Informatics and Computing
Theory (AICT’15), in Recent Research in Applied Informatics, Salerno,
Italy, 27-29 June, pp. 110-117. ISBN: 978-1-61804-313-9.
• Choupina, R., Correia, M.B., Ramos, C.M.Q, Martins, D., Serra, F. (2015) Guest
Reputation Indexes to Analyze the Hotel’s Online Reputation Using Data Extracted
from OTAs, in Proc. 6th Int. Conf. on Applied Informatics and Computing
Theory (AICT’15), in Recent Research in Applied Informatics, Salerno, Italy,
27-29 June, pp. 50-59 ISBN: 978-1-61804-313-9