Search CORE

115 research outputs found

Programação genética e combinação de preditores para previsão de séries temporais

Author: Souza Luzia Vidal de, 1967-
Publication venue
Publication date: 21/01/2013
Field of study

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositório Digital Institucional da UFPR

Universidade Federal do Paraná

Aplicação de programação genética e modelos Arima para previsão de índices do mercado financeiro

Author: Garcez José Eduardo
Publication venue
Publication date: 07/07/2012
Field of study

TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Curso de Tecnologias da Informação e Comunicação.Este documento descreve um estudo comparativo entre dois paradigmas aplicados para previsão de valores futuros em séries temporais. Um deles baseado no desenvolvimento de Programação Genética, parte integrante das técnicas de Inteligência Artificial, e que consiste em criar programas para gerar possíveis soluções para problemas propostos, utilizando para isso, uma analogia à teoria da evolução de Darwin onde os mais aptos sobrevivem. O outro método baseia-se no modelo que foi sistematizado em 1976 pelos estatísticos George Box e Gwilym Jenkins, conhecido como ARMA ou ARIMA ou até mesmo por SARIMA, sendo que, a nomeclatura dependeria do conjunto de fatores relevantes na especificação do modelo. Para verificar- se a validade dos dois modelos, utilizou-se um estudo comparativo com dados de séries temporais captadas do mercado financeiro mundial, quais sejam o Índice Bovespa, o Índice Nasdaq composit e o Índice Dow Jones. Encontrou-se resultados favoráveis às técnicas de Programação Genética para a primeira previsões ex-post, quando comparando-se com as previsões fornecidas por modelos Arima.This document describes a comparative study between two paradigms applied to forecast future values in time series. One based on the development of Genetic Programming, part of Artificial Intelligence techniques, and that is to create programs to generate possible solutions to problems proposed, using for this, an analogy to Darwin's theory of evolution where the fittest survive. The other method is based on statistical models, that has been systematized in 1976 by George Gwilym Box and Jenkins, known as ARMA or ARIMA or SARIMA, the nomenclature depends on the number of important factors in the specification of the model. To verify the validity of two models, was used a comparative study with time series data captured from the global financial market, namely the Bovespa Index, the Nasdaq Index and the Dow Jones Index. It was found favorable results to the techniques of genetic programming for the first expost forecasts, when compared with the predictions provided by Arima models

Repositório Institucional da UFSC

RCAAP - Repositório Científico de Acesso Aberto de Portugal

Previsão da taxa de crescimento do PIB do Brasil : Uma comparação entre machine learning e modelo sarima

Author: Sager Frederico Tannous
Publication venue
Publication date: 01/01/2023
Field of study

O PIB vem sendo utilizado comumente na análise econômica, sendo uma variável importante para policy makers nas tomadas dedecisão. Este trabalho tem como objetivo a utilização de algoritmos de machine learning, tais como Random Forest, Gradient Tree Boosting e LASSO para predição da taxa de crescimento do PIB do Brasil. Para construir os algoritmos, foram utilizados 26 regressores de diferentes temas macroeconômicos, como Indústria, Energia, Serviços e Comércio, Índice Geral de Preços, Base Monetária e Meios de Pagamento. Para testar a validade dos modelos, foi utilizado o benchmark ARIMA. Os resultados indicaram uma superioridade do modelo Random Forest, que apresentou os menores erros em 67% dos resultados. Para testar a acurácia dos nossos modelos, foi utilizado o teste Diebold-Mariano. Dos doze testes realizados, cinco modelos concorrentes apresentaram performance preditiva superior ao benchmark para nível de significância de 5%. O trabalho concluiu que o modelo Random Forest pode ser útil em exercícios de predição, principalmente em horizontes de curto prazo, mas que o modelo ARIMA não deve ser descartado como ferramental em análises de forecasting, uma vez que também apresentou menores erros em horizontes temporais mais longos.GDP has been commonly used in economic analysis, being an important variable for policy makers indecision-making. This work aims to use machine learning algorithms, suchas Random Forest, Gradient Tree Boosting and LASSO to predictthe GDP growth ratein Brazil. To build the algorithms, 26 regressors of different macroeconomic themes were used, suchas Industry, Energy, Services and Commerce, General Price Index, Monetary Base and Means of Payment. To test the validity of the models, the ARIMA benchmark was used. The results indicated a superiority of the Random Forest model, which presented thes mallest errors in 67% of the results. To test the accuracy of our models, the Diebold-Mariano test was used. Of the twelve tests performed, five competing models showed predictive performance superior to the benchmark at a significance level of 5%. The work concluded that the Random Forest model can be useful in a prediction exercise, mainly in short-term horizons, but that the ARIMA model should not be discarded as a tool in forecasting analysis, since it also presented smaller errors in longer time horizons

Lume 5.8

Support Vector Regression aplicado à previsão de taxas de câmbio

Author: Yaohao Peng
Publication venue: 'Biblioteca Central da UNB'
Publication date: 17/11/2016
Field of study

Dissertação (mestrado) — Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Gestão Pública, Programa de Pós-Graduação em Administração, 2016.O presente estudo realizou a previsão da taxa spot de 15 pares de câmbio mediante a aplicação de um algoritmo de aprendizado de máquinas – Support Vector Regression – com base em um modelo fundamentalista composto por 13 variáveis explicativas. Para a estimação das previsões, foram consideradas 9 funções Kernel extraídas da literatura científica, totalizando assim 135 modelos verificados. As previsões foram comparadas com o benchmark Random Walke avaliadas em relação à taxa de acerto direcional do câmbio e às métricas de erro RMSE (raiz quadrada do erro quadrático médio) e MAE (erro absoluto médio). A significância estatística do incremento de poder explicativo dos modelos SVR em relação ao Random Walk foi verificada mediante a aplicação do Reality Check Test de White (2000). Os resultados mostram que os modelos SVR obtiveram desempenho preditivo satisfatório em relação ao benchmark, com vários dos modelos propostos apresentando forte significância estatística de superioridade preditiva.Por outro lado, observou-se que várias funções Kernel comumente utilizadas na literatura científica não lograram êxito em superar o Random Walk, apontando para uma possível lacuna no estado da arte de aprendizado de máquinas aplicada à previsão de taxas de câmbio. Por fim, discutiu-se acerca das implicações dos resultados obtidos para o desenvolvimento futuro da agenda de pesquisa correlata.This paper aims to forecast the spot exchange rate of 15 currency pairs by applying a machinelearning algorithm – Support Vector Regression – based on a fundamentalist model composedof 13 explanatory variables. The predictions’ estimation were obtained by applying 9different Kernel functions extracted from the scientific literature, resulting in a total of 135 modelsverified. The predictions were compared to the Random Walk benchmark and evaluated for directionalaccuracy rate of exchange pradictions and error performance indices RMSE (root meansquare error) and MAE (mean absolute error). The statistical significance of the explanatorypower gain via SVR models with respect to the Random Walk was checked by applying White(2000)’s Reality Check Test. The results show that SVR models achieved satisfactory predictiveperformance relative to the benchmark, with several of the proposed models showing strong statisticalsignificance of predictive superiority. Furthermore, the results showed that mainstreamKernel functions commonly used in the scientific literature failed to outperform the RandomWalk,indicating a possible gap in the state of art of machine learning methods applications to exchangerates forecasting. Finally, the paper presents a discussion about the implications of the obtainedresults for the future development of related research agendas

Repositório Institucional da Universidade de Brasília

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Programação genética aplicada à identificação de acidentes de uma usina nuclear PWR

Author: Pinheiro Victor Henrique Cabral
Publication venue: 'Programa de Pos-graduacao em Ciencias Contabeis da UFRJ'
Publication date: 01/02/2018
Field of study

This work presentes the results of the study that evaluated the efficiency of the evolutionary computation algorithm genetic programming as a technique for the optimization and feature generation at a pattern recognition system for the diagnostic of accidents in a pressurized water reactor nuclear power plant. The foundations of a typical pattern recognition system, the state of the art of genetic programming and of similar accident/transient diagnosis systems at nuclear power plants are also presented. Considering the set of the time evolution of seventeen operational variables for the three accident scenarios approached, plus normal condition, the task of genetic programming was to evolve non-linear regressors with combination of those variables that would provide the most discriminatory information for each of the events. After exhaustive tests with plenty of variable associations, genetic programming was proven to be a methodology capable of attaining success rates of, or very close to, 100%, with quite simple parametrization of the algorithm and at very reasonable time, putting itself in levels of performance similar or even superior as other similar systems available in the scientific literature, while also having the additional advantage of requiring very little pretreatment (sometimes none at all) of the dataNeste trabalho são apresentados os resultados do estudo que avaliou a performance do algoritmo de computação evolucionária programação genética como ferramenta de otimização e geração de atributos em um sistema de reconhecimento de padrões para identificação e diagnóstico de acidentes de uma usina nuclear com reator de água pressurizada. São apresentados ainda as bases de um sistema de reconhecimento de padrões, o estado da arte da programação genética e de sistemas similares de diagnóstico de acidentes e transientes de usinas nucleares. Dentro do conjunto da evolução temporal de 17 variáveis operacionais dos três acidentes/transientes considerado, além da condição normal, a função da programação genética foi evoluir regressores não lineares de combinações dessas variáveis que fornecessem o máximo de informação discriminatória para cada um dos eventos. Após testes exaustivos com diversas associações de variáveis, a programação genética se mostrou uma metodologia capaz de fornecer taxas de acerto de, ou muito próximas de, 100%, com parametrizações do algoritmo relativamente simples e em tempo de treinamento bastante razoável, mostrando ser capaz de fornecer resultados compatíveis e até superiores a outros sistemas disponíveis na literatura, com a vantagem adicional de requerer pouco (e muitas vezes nenhum) pré-tratamento nos dados

Pantheon

Estimativa de demanda de energia elétrica em uma instituição de ensino superior.

Author: Garcia Altemir Tomaz de Carvalho
Publication venue: 'Portal de Periodicos UFPB'
Publication date: 28/08/2015
Field of study

In recent years, several studies where published regarding to the estimation of variables related to the use of electricity, where the most varied methodologies are used to perform modeling and estimation of demand for energy of countries, States, companies in general and educational systems. In this dissertation where chosen this last category and the focus is on Higher Education Institutions (HEIs). Looking for drawing up an estimate of Wing Maxim Demand (WMD), monthly of electrical energy power, for the (HEIs), from the amount of students and, if necessary, from other causal variables, which can contribute to managerial way for the renegotiation of contracts with concessionaires that lead to annual cost savings and still contribute to a better control of the levels of maxim demand of electricity. To achieve this objective, it was realized a review of the literature regarding to the variables that could introduce correlation with the dependent variable WMD. This review indicated several methodologies that could contribute to the solution of the problem proposed: Markov Chain, Support vector Regression methodology, Genetic Programming Model and Artificial Neural Networks. It was adopted the methodology of Multiple Linear Regression (MLR) because it is less complex and a methodology directed at large companies. It was selected an IES and were carried out interviews with some engineers and technician of his electrical engineering division, seeking to better understand energy use and the behavior of the variable WMD in this IES being made available the reports of power energy monitoring where the WMD data of January-December 2008 of 2014 were contained. So on the basis of these data and documental research of the independent variables, and, through the methodologies of Multiple Linear Regression (MLR), it was developed a model from the data of 72 months which had their waste evaluated, showing a coefficient of determination R ^ 2 equal to 0.883. Independent variables that remained in the model, from the use of the backward method, were 4 (four) Dummy variables associated with the years, six variables of this type associated with the months and a variable which is the product of school days for graduates and the quantity of graduate students registered. This model was able to identify seasonality presents in the behavior of the WMD of this HIE. It would allow the hiring of WMD per month, that would make savings of 57% compared to the traditional contracting mode (WMD fixed for the entire period), considering the period from July to December, before the period left for validation. In conclusion, a forecast for the period of January to May 2015 and the adoption of the proposed model was able to provide a savings of 45% in relation to the scheme currently used by this HEI.Nos últimos anos, diversos trabalhos foram publicados em relação à estimativa de variáveis relacionadas ao uso da energia elétrica, onde as mais variadas metodologias são utilizadas para realizar a modelagem e estimação da demanda por energia de países, Estados, empresas em geral e dos sistemas de ensino. Nesta dissertação foi escolhida esta última categoria e o foco consiste nas Instituições de Ensino Superior (IES). Procurando elaborar uma estimativa de Demanda Máxima de Ponta (DMP), mensal de potência de energia elétrica adequada às IESS, a partir da quantidade de alunos, e, se necessário, a partir de outras variáveis causais, que possam contribuir de maneira gerencial para a renegociação de contratos com concessionárias que levem à redução de custos anuais e que ainda podem contribuir para um melhor controle dos níveis de demanda máxima de energia elétrica. Para alcançar tal objetivo, foi realizada uma revisão da literatura a respeito de variáveis que poderiam apresentar correlação com a variável dependente DMP. Esta revisão indicou várias metodologias que poderiam contribuir para a solução do problema proposto: a Cadeia de Markov, a Metodologia de Regressão do vetor de Suporte, o Modelo de Programação Genética e as Redes Neurais Artificiais. Por ser uma metodologia menos complexa e direcionada a empresas de grande porte, adotou-se a Metodologia de Regressão Linear Múltipla (RLM). Foi selecionada uma IES e foram realizadas entrevistas com alguns engenheiros e técnico da sua divisão de engenharia elétrica, procurando entender melhor o uso da energia e o comportamento da variável DMP nesta IES, sendo disponibilizados os relatórios de energia do sistema de monitoração de energia onde os dados de DMP de janeiro de 2008 a dezembro de 2014 estavam contidos. Então, com base nestes dados e em pesquisa documental das candidatas a variáveis independentes, e, através da Metodologia (RLM), foi desenvolvido um modelo a partir dos dados de 72 meses, que teve seus resíduos avaliados, apresentando um coeficiente de determinação 2 igual a 0,883 .As variáveis independentes que permaneceram no modelo, a partir da utilização do método backward, foram 4(quatro) variáveis Dummy associadas a anos, seis variáveis deste tipo associadas a meses e uma variável fruto do produto entre dias letivos de graduação e quantidade de alunos da graduação matriculados. O modelo foi capaz de identificar a sazonalidade presente no comportamento da DMP da IES em estudo. Ele possibilitaria a contratação de DMP por mês, o que daria uma economia de 57% em relação ao modo de contratação tradicional (DMP fixo para todo o período), considerando o período de julho a dezembro, antes do período deixado para validação. Concluindo, foi realizada uma previsão para o período de janeiro a maio de 2015 e a adoção do modelo proposto foi capaz de proporcionar uma economia de 45% em relação ao esquema utilizado atualmente pela IES

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositório Institucional da UFPB

Modelos Para Previsão em Séries Temporais: A Metodologia Box e Jenkins na Prática

Author: Sieben Evelim
Publication venue
Publication date: 01/01/2017
Field of study

Trabalho de Conclusão de Curso submetido ao Departamento de Matemática e Estatística da Fundação Universidade Federal de Rondônia, Campus de Ji-Paraná, como parte dos requisitos para obtenção do título de Bacharel em Estatística, sob a orientação da Profª. Grª. Luana Lúcia Alves de Azevêdo.Tanto na Economia, quanto na Engenharia e nas Ciências da Natureza, ocorrem fenômenos que dependem da observação de dados em intervalos de tempo durante determinado período. Tratam-se das Séries Temporais. A sua análise tem grande relevância prática, uma vez que, pode revelar através de um modelo adequado, algumas características importantes, as quais auxiliam na previsão de seus valores futuros ou simplesmente descrevem o seu comportamento. A literatura ampara diversos modelos de previsão de séries temporais. Neste trabalho, procura-se reunir os principais aspectos metodológicos de alguns destes modelos, com enfoque nos modelos ARIMA propostos por Box e Jenkins (1970), considerada a metodologia mais importante (SOUZA, L. V., 2006; FIGUEREDO, 2008) e largamente utilizada na análise de séries temporais. Em seguida, a fim de demonstrar uma aplicação prática da Metodologia Box e Jenkins, o estudo ajusta modelos SARIMA à série mensal de dados correspondente ao Índice de Preços ao Consumidor Amplo (IPCA), compreendida no período de janeiro de 2007 a dezembro de 2016. Para tanto a análise esteve pautada no ciclo iterativo proposto por tal metodologia, a saber, nas fases da identificação, estimação, verificação e, finalmente, previsão. Analisando os resultados obtidos, sugeriu-se, em termos de capacidade preditiva, o modelo �� , ��, �� , ��, �� como modelo mais adequado para os dados deste estudo. Porém, por se tratar de modelos univariados, os modelos SARIMA excluem efeitos de outras variáveis ou eventuais choques que podem ocorrer sobre a inflação mensal. Neste contexto, sugere-se para trabalhos futuros um estudo mais aprofundado sobre a dinâmica do IPCA, a fim de identificar variáveis intrínsecas ao processo, as quais poderão ser incorporadas à modelagem, através do uso de modelos SARIMAX, tornando a previsão mais acurada

DSpace UNIR

Application of Knowledge Discovery in Databases in Evapotranspiration Estimation: an Experiment in the State of Rio de Janeiro

Author: Revoredo Kate Cerqueira
Tanaka Asterio Kiyoshi
Xavier Fernando
Publication venue: AIS Electronic Library (AISeL)
Publication date: 01/05/2015
Field of study

With the growing volume of data in various areas such as Hydrology, there is a need for using information systems to aid in handling such data. This article is a report of an experiment that used knowledge discovery techniques to estimate an important component of the hydrological cycle: evapotranspiration. The experiment reported in this article was done with weather data and showed that some algorithms, such as M5P, present good results when compared to historical data of the estimated evapotranspiration

AIS Electronic Library (AISeL)

Sistemas dinâmicos não lineares em doença mental

Author: Ribeiro João G
Publication venue
Publication date: 01/01/2015
Field of study

Tese de doutoramento, Ciências Cognitivas, Universidade de Lisboa, Faculdades de Ciências, Faculdade de Letras, Faculdade de Medicina e Faculdade de Psicologia, 2016A mente humana é uma estrutura dinâmica complexa e o seu adoecer deverá ser estudado como o são processos em outras estruturas dinâmicas complexas. Os processos de mudança que operam na mente manifestam-se tipicamente por transições qualitativas e súbitas, sensibilidades específicas a certas influências, e também por resiliência perante a adversidade. Todas estas são manifestações de sistemas não lineares. O propósito desta investigação foi entender as mudanças que operam na mente e que conduzem à doença mental, e concretamente à emergência de perturbações do humor. Os indivíduos com perturbações de humor mostram perdas de complexidade da sua variação de humor, ou seja, maior rigidez, regularidade e previsibilidade. A hipótese central desta investigação é que, face à adversidade, os indivíduos resilientes recrutam estratégias de regulação emocional flexíveis e diversas que aumentam a complexidade do seu humor – a resposta de complexidade. Os indivíduos não-resilientes não são tão hábeis nesta resposta porque empregam estratégias rígidas e menos diversas, fazendo emergir perturbações do humor. Procurou-se evidência deste mecanismo tanto em séries temporais do humor reais, como em simulações de um novo modelo dinâmico do humor. Foram recrutados pacientes com perturbações do humor (N=17) e controlos (N=10) que auto-registaram diariamente o seu humor durante uma média de 233 dias, e foram calculadas a complexidade (sample entropy) e a carga de adversidade a partir das séries temporais. Os resultados mostraram que, tanto nos controlos como nos pacientes a complexidade aumentou com a adversidade, mas os pacientes mostraram disrupções substanciais e significativas dessa resposta, com perdas de até 29% da complexidade esperada nos controlos para a mesma carga de adversidade. Foi proposto um novo modelo dinâmico do humor baseado em equações diferenciais não lineares – o modelo SPLIT-CORE. Este modelo implementa mecanismos de regulação emocional como inércia emocional, ruminação depressiva, estratégias ativadoras e clivagem ou alternância entre modos dinâmicos do self. A afinação destes mecanismos permitiu simular diversas características dinâmicas do humor, entre as quais a resposta de complexidade e a sua disrupção em indivíduos que fazem uso rígido de estratégias de regulação emocional. Crucialmente, a alternância de modos dinâmicos do self foi essencial a uma resposta de complexidade saudável, indicando que esta resposta resiliente é o resultado de meta-flexibilidade do self. Esta investigação mostra, no caso concreto das perturbações do humor, como a afinação singular de um mesmo processo humano global não linear pode originar os padrões dinâmicos de sofrimento e incapacidade que compõem as doenças mentais. Isto permitirá dar conta de como as diferenças individuais interagem entre si e com o ambiente, e ser traduzido em monitorização de risco clínico, diagnóstico de mecanismos de doença e intervenções dirigidas e atempadas sobre indivíduos e circunstâncias concretas. Na dinâmica do humor, a resposta de complexidade individual perante a adversidade pode ser promovida pela diversificação de estratégias de regulação emocional. Resiliência requer humor complexo para vidas complicadas.The human mind is a complex dynamical structure and its falling ill should be studied as are processes in other complex dynamical structures. The processes of change that act in the mind typically manifest as sudden and qualitative transitions, specific sensitivities to certain influences, and also as resilience in the face of adversity. All of these are manifestations of nonlinear dynamical systems. The purpose of this research was to understand the changes that act in the mind which lead to mental illness, and specifically to the emergence of mood disorders. Individuals with affective disorders show losses in the complexity of their mood variation, which appears more rigid, regular and predictable. The central hypothesis of this research is that, in the face of adversity, resilient individuals recruit flexible and diverse emotion regulation strategies that increase the complexity of their mood variation – the complexity response. Non-resilient individuals are not as skilled in this response because they employ rigid and less diverse strategies, giving rise to mood disorders. We searched evidence for this mechanism in both real time series of mood and in simulations of a newly developed dynamical model of mood. We recruited patients with mood disorders (N=17) and controls (N=10) who selfrecorded their daily mood over a mean duration of 233 days, and calculated the complexity (sample entropy) and the load of adversity from the time series. Results showed that, in both controls and patients, complexity increased with adversity but patients displayed significant and substantial disruptions in this response, with losses of up to 29% of the expected complexity of controls for the same load of adversity. We proposed a new dynamical model of mood based on nonlinear differential equations – the SPLIT-CORE model. This model implements emotion regulation mechanisms such as emotional inertia, depressive rumination, activating strategies and splitting or alternation of dynamical modes of the self. The tuning of these mechanisms allowed the simulation of several dynamical features of mood, including the complexity response and its disruption in individuals who rigidly use emotion regulation strategies. Crucially, the alternation of dynamical modes of the self was essential for a healthy complexity response, indicative that this resilient response is the outcome of meta-flexibility of the self. This research shows, in the particular case of mood disorders, how the unique tuning of a same global nonlinear human process may give rise to the dynamical patterns of suffering and disability that comprise mental illnesses. This will allow accounting for how individual differences interact with each other and the environment, and be translated into monitoring clinical risk, diagnosing mechanisms of illness and directing timely interventions to specific individuals and circumstances. Concerning the dynamics of mood, an individual’s complexity response in the face of adversity may be promoted through the diversification of emotion regulation strategies. Resilience requires complex mood for complicated lives

Universidade de Lisboa: Repositório.UL

Desenvolvimento de um Sistema de Previsão de Insolvência das Sociedades Seguradoras no Brasil

Author: Vieira Bruno de Lima
Publication venue
Publication date: 27/01/2023
Field of study

Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data ScienceO mercado segurador vem adquirindo participação cada vez mais relevante no cenário econômico do país, com a participação no PIB crescendo significativamente nos últimos anos, e a Superintendência de Seguros Privados (Susep), órgão responsável pelo controle e fiscalização de todo o mercado, tem por objetivo zelar pela solvência das companhias seguradoras e garantir o interesse dos segurados. Neste contexto, prever com antecedência a ocorrência de problemas financeiros é fundamental para evitar a quebra de uma companhia e permitir que os consumidores de seguro tenham preservado seu direito a receber as indenizações ou a poupança acumulada por anos. O presente trabalho propõe a utilização de modelos preditivos, mais especificamente a classe de algoritmos baseados em Machine Learning (ML), para sinalização antecipada de situações de insuficiência de capital em sociedades seguradoras e resseguradoras. O caso foi transformado em um problema de classificação binária, cujas variáveis explicativas foram indicadores financeiros e macroeconômicos e outros indicadores que refletem o porte da empresa, pertencimento a conglomerados financeiros, atuação em determinados ramos de seguro e problemas relacionados a controles internos. Na modelagem, foram utilizados diversos algoritmos de aprendizagem supervisionada, desde mais simples, como Naive Bayes, a mais complexos, como Gradient Boosting. Os classificadores foram treinados e avaliados, sendo conduzida uma comparação das performances em diferentes abordagens, para a Recall, Precision e F1-Measure. O modelo de melhor performance foi capaz de atingir uma Recall de 92%, conseguindo prever 11 dos 12 casos de insuficiência no test set.The Insurance market in Brazil has been taking an even more relevant in the economic outlook, with its GDP participation growing significantly in the last years, and Susep, the entity responsible for monitoring and overseeing the whole market, has the objective of protecting the solvency of insurance companies e ensure the policyholders’ concerns. In this context, it is crucial to predict in advance the occurrence of financial difficulties in order to avoid the bankruptcy of a company and to permit the consumers to receive their claims or their savings accumulated over the years. This thesis aims to study the use of predictive models, more specifically the class of algorithms based on Machine Learning (ML), to create an early warning system for situations of violation of capital requirements in insurance and reinsurance companies. The case was designed to be a binary classification problem, whose independent variables were financial and macroeconomic indicators as well as further indicators that reflect the size of the company, participation in financial conglomerates, insurance lines of action, and internal control issues. In the modeling, a range of supervised learning algorithms was used, from the simplistic ones, like Naive Bayes, to the more complex ones, like Gradient Boosting. The classifiers were implemented and evaluated, by conducting a performance comparison for different approaches, using Recall, Precision, and F1-Measure metrics. The best model was able to reach a Recall of 92%, managing to predict 11 out of 12 instances of the positive class on the test set

Repositório da Universidade Nova de Lisboa