Predicting and explaining Airbnb prices in Lisbon : machine learning approach

Abstract

Airbnb is an online platform that provides listing and arrangement for short-term local home renting services. Since its establishment in 2008, it has offered 7 million homes and rooms in more than 81,000 cities throughout 191 countries. Airbnb price prediction is a valuable and important task both for guests and hosts. Overall, for practical applications, these models can give a host an optimal price they should charge for their new listing. On the consumer side, this will help travellers determine whether the listing price they see is fair. Much research has been done in this field; however, the longitude and latitude of Airbnb listings are often disregarded. This project focuses on Airbnb price prediction using the most recent (Sep 2021) Airbnb data in Lisbon. Using Google Maps API, the original dataset was enriched with information on the number of ATMs, metro stations, bars and discos within a maximum radius of 1 km. Also, using the geodesic distance, the distance to the airport and the nearest attraction were computed for each listing. A Linear Regression and a Gradient Boosting algorithm were compared based on the original Airbnb dataset and the extended dataset to examine the impact of new features that have been identified. According to the results, all models perform better when the new features are included. The best results are achieved with the Gradient Boosting with the extended data, with an MAE of 0. 3102 and an adjusted R-squared of 0.4633.O Airbnb é uma plataforma online que fornece alojamento de curto prazo. Desde a sua criação em 2008, já ofereceu 7 milhões de residências e quartos em mais de 81.000 cidades, em 191 países. A previsão de preços do Aibnb é uma tarefa valiosa tanto para hóspedes como para anfitriões. No geral, estes modelos de previsão podem oferecer ao anfitrião o preço ideal que deve ser cobrado pelo alojamento. Do lado do consumidor, ajudará os hóspedes a determinar se o preço do anúncio é justo. Muitos estudos já abordaram este tema, no entanto, a longitude e a latitude são frequentemente desconsideradas. Este projeto foca-se na previsão de preços do Airbnb em Lisboa usando os dados mais recentes (setembro de 2021). Usando a API do Google Maps, o conjunto de dados original foi ampliado adicionando colunas com o número de ATMs, estações de metro, bares e discotecas num raio máximo de 1 km. Além disso, usando a distância geodésica, a distância até o aeroporto e até à atração mais próxima foram calculadas. Os resultados de uma regressão linear e de um Gradient Boosting, com base no conjunto de dados original do Airbnb e no conjunto de dados alargado são comparados para examinar o impacto das novas variáveis. De acordo com os resultados, todos os modelos apresentam melhor desempenho quando as novas variáveis são incluídas. Os melhores resultados são obtidos com o Gradient Boosting com os dados alargados, com um MAE 0,3102 e um adjusted R-squared de 0,4633

    Similar works