Com o aumento do poder computacional e a ênfase na Inteligência Artificial (IA) a intensificar se em diversos setores, os modelos de Machine Learning (ML) tornaram-se cada vez mais
sofisticados. Considerando a notável progressão neste domínio, torna-se imperativo questionar:
Num cenário hipotético em que um modelo de ML possui acesso abrangente a todas as
variáveis que possam influenciar um ambiente complexo, seria o modelo de ML capaz de prever
o futuro com precisão? Num cenário em que é possível criar um sistema, enriquecido com
conhecimento completo de eventos passados e capacidade computacional para discernir
correlações e comportamentos subjacentes, será possível prever eventos futuros com precisão?
Caso seja possível, como devemos conceptualizar sorte, aleatoriedade e, em última instância,
o livre arbítrio? Numa busca para investigar estas questões, esta dissertação centra-se na
análise do futebol, visto ser um ambiente complexo famoso pela sua imprevisibilidade. O
futebol surge como um assunto particularmente aliciante devido às suas regras estabelecidas e
natureza relativamente fechada, onde a maioria das informações é conhecida antes do início
dos jogos. No futebol, apesar da presença de um vasto número de variáveis exógenas, a maioria
é quantificável. Dado que o futebol detém a distinção de ser o desporto mais assistido a nível
global, diversas empresas capturam e disponibilizam estes dados.
Ao longo desta dissertação, foi realizada uma extensa feature engineering, juntamente com
uma análise detalhada do impacto de cada feature nos modelos respetivos. Foram empregues
diversas metodologias de previsão, desde a Regressão Logística, previsão de séries temporais
usando Autoregressive Integrated Moving Average (ARIMA) e a aplicação de Random Forests.
Embora os modelos desenvolvidos nesta dissertação não tenham demonstrado
conclusivamente a natureza determinística do futebol, presumivelmente devido à ausência de
um conjunto de dados holístico, estes modelos superaram as previsões das casas de apostas
com um rendimento de 18% para os jogos de 2021/2022 e um rendimento de 24% quando
excluindo jogos com maior incerteza.
Enquanto os resultados obtidos nesta dissertação não provam conclusivamente a natureza
determinística do futebol, superar as casas de apostas com um rendimento satisfatório é um
fator encorajador que incentiva uma melhoria futura na recolha e agregação de mais dados
para possibilitar previsões ainda mais precisas.As the rise of computational power and emphasis on Artificial Intelligence (AI) intensify across
diverse industries, Machine Learning (ML) models have evolved to become increasingly
sophisticated. Considering the remarkable progression in this domain, it becomes imperative
to pose the question: In a hypothetical scenario where a ML model possesses comprehensive
access to all variables that might influence a complex environment, would the ML model be
able to predict the future with precision? In a scenario wherein a system, enriched with
complete knowledge of past events and the computational capacity to discern correlations and
underlying behaviors, can it predict future events precisely? How should we conceptualize luck,
randomness, and ultimately, free will? In a pursuit to investigate these questions, this
dissertation focuses on the examination of soccer, a complex environment renowned for its
unpredictability. Soccer emerges as a particularly compelling subject due to its established rules
and relatively controlled nature, where most information is known before matches start. In
soccer, despite the presence of a vast number of exogenous variables, the majority are
quantifiable. Given that soccer holds the distinction of being the most-watched sport globally,
numerous companies capture and make this data available extensively.
Throughout the course of this dissertation, extensive feature engineering was undertaken,
coupled with a detailed analysis of the impact of each feature on respective models. A diverse
array of forecasting methodologies was employed, ranging from Logistic Regression, time series
forecasting using Autoregressive Integrated Moving Average (ARIMA) and the application of
Random Forests. Although the models developed in this dissertation did not conclusively
demonstrate soccer's deterministic nature, presumably due to the absence of a holistic dataset,
these models outperformed bookmakers with a 18% yield for 2021/2022 matches, and a 24%
yield when excluding matches with higher uncertainty.
While the results obtained during this dissertation do not conclusively prove the deterministic
nature of soccer, surpassing the bookmakers with a satisfactory yield, is an encouraging factor
that incentivizes a future improvement of the collection and aggregation of more data to enable
even more accurate forecasts
Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.