Airbnb is an online platform that provides listing and arrangement for short-term local home
renting services. Since its establishment in 2008, it has offered 7 million homes and rooms in
more than 81,000 cities throughout 191 countries. Airbnb price prediction is a valuable and
important task both for guests and hosts. Overall, for practical applications, these models can
give a host an optimal price they should charge for their new listing. On the consumer side, this
will help travellers determine whether the listing price they see is fair. Much research has been
done in this field; however, the longitude and latitude of Airbnb listings are often disregarded.
This project focuses on Airbnb price prediction using the most recent (Sep 2021) Airbnb data
in Lisbon. Using Google Maps API, the original dataset was enriched with information on the
number of ATMs, metro stations, bars and discos within a maximum radius of 1 km. Also,
using the geodesic distance, the distance to the airport and the nearest attraction were computed
for each listing. A Linear Regression and a Gradient Boosting algorithm were compared based
on the original Airbnb dataset and the extended dataset to examine the impact of new features
that have been identified. According to the results, all models perform better when the new
features are included. The best results are achieved with the Gradient Boosting with the
extended data, with an MAE of 0. 3102 and an adjusted R-squared of 0.4633.O Airbnb é uma plataforma online que fornece alojamento de curto prazo. Desde a sua criação
em 2008, já ofereceu 7 milhões de residências e quartos em mais de 81.000 cidades, em 191
países. A previsão de preços do Aibnb é uma tarefa valiosa tanto para hóspedes como para
anfitriões. No geral, estes modelos de previsão podem oferecer ao anfitrião o preço ideal que
deve ser cobrado pelo alojamento. Do lado do consumidor, ajudará os hóspedes a determinar
se o preço do anúncio é justo. Muitos estudos já abordaram este tema, no entanto, a longitude
e a latitude são frequentemente desconsideradas.
Este projeto foca-se na previsão de preços do Airbnb em Lisboa usando os dados mais recentes
(setembro de 2021). Usando a API do Google Maps, o conjunto de dados original foi ampliado
adicionando colunas com o número de ATMs, estações de metro, bares e discotecas num raio
máximo de 1 km. Além disso, usando a distância geodésica, a distância até o aeroporto e até à
atração mais próxima foram calculadas.
Os resultados de uma regressão linear e de um Gradient Boosting, com base no conjunto de
dados original do Airbnb e no conjunto de dados alargado são comparados para examinar o
impacto das novas variáveis. De acordo com os resultados, todos os modelos apresentam
melhor desempenho quando as novas variáveis são incluídas. Os melhores resultados são
obtidos com o Gradient Boosting com os dados alargados, com um MAE 0,3102 e um adjusted
R-squared de 0,4633