Search CORE

4 research outputs found

Machine learning no processo de risco de crédito das instituições bancárias

Author: Monteiro André Luiz
Publication venue
Publication date: 13/12/2019
Field of study

Uma vez que o sistema económico mundial se encontra em constante mudança, o estudo do risco de crédito tem uma grande importância para as instituições bancárias. Por estar associado a possíveis perdas que impactam o mercado financeiro, o processo de análise de crédito deve ser contínuo e progressivo. O atraso nos pagamentos de negócios tornou-se uma tendência, especialmente após as recentes crises financeiras. Desse modo, os bancos devem minimizar dívidas, analisar individualmente os créditos, agir com rapidez e se proteger de não pagamentos. Na mesma conjuntura, machine learning é uma tecnologia emergente para a construção de modelos analíticos, faz com que as máquinas aprendam com os dados. Com isso, efetuem análises preditivas de maneira mais rápida e eficiente. Fazer análises preditivas é muito importante e possui uma ampla gama de atuação para os bancos. Como, por exemplo: • Identificação dos melhores fatores de risco a serem utilizados na antecipação de crédito a clientes; • Obediência dos dispositivos legais; • Qualidade de dados; • Deteção de fraudes. Na criação de uma pontuação de risco de crédito bancário, automatizada, robusta e eficaz, machine learning vai ajudar na previsão da capacidade de crédito do cliente com mais precisão. O objetivo é analisar as diferentes abordagens de gestão de risco de crédito. Para tal, recorre-se a revisão de literatura de tópicos importantes, em destaque a machine learning, e ao uso de questionários. Os principais resultados mostraram que o uso de machine learning no risco de crédito bancário, ainda está em fase inicial. A maioria dos bancos já reconhece os valores que esta tecnologia pode proporcionar. Com base nesses resultados, os bancos que são tão sensíveis a mudanças, têm que sair do âmbito da teoria e investir em pequenos projetos. Só assim esta tecnologia provará a sua capacidade de melhoria, e transmitir a confiança necessária para este sector.As the global economic system is constantly changing, the study of credit risk is of great importance to banking institutions. Because it is associated with possible losses that impact the financial market, the process of credit analysis should be continuous and progressive. Late business payments have become a trend, especially after the recent financial crises. Thus, banks should minimize debt, analyze individual credits, act quickly and protect themselves from non-payment. At the same time, machine learning is an emerging technology for building analytical models, making machines learn from data. As a result, they carry out predictive analyses more quickly and efficiently. Predictive analysis is very important and has a wide range of activities for banks. For example: • Identification of the best risk factors to be used in anticipating credit to customers; • Compliance with legal provisions; • Obedience of legal provisions; • Data quality; • Fraud detection. In creating an automated, robust and effective bank credit risk score, machine learning will help predict the customer's creditworthiness more accurately. The goal is to analyze the different approaches to credit risk management. To this end, a literature review of important topics is used, especially machine learning and the use of questionnaires. The main results showed that the use of machine learning in bank credit risk is still at an early stage. Most banks already recognize the values that this technology can provide. Based on these results, banks that are so sensitive to change have to go beyond the scope of theory and invest in small projects. Only in this way will this technology prove its ability to improve and transmit the necessary confidence to this sector

Repositório Institucional do ISCTE-IUL

Técnicas de predicción escalables para big data temporales

Author: Galicia de Castro Antonio
Publication venue
Publication date: 01/01/2019
Field of study

Programa de Doctorado en Biotecnología, Ingeniería y Tecnología QuímicaLínea de Investigación: Ingeniería InformáticaClave Programa: DBICódigo Línea: 19En esta Tesis se presenta una metodología para pronosticar series temporales de gran longitud basada en el framework de computación distribuida Apache Spark y su librería MLlib para Machine Learning. La predicción de los h valores futuros se realiza dividiendo el problema de predicción en h subproblemas de predicción, uno para cada valor del horizonte. Esto nos permite resolver en paralelo todos los subproblemas, asegurando la escalabilidad de la metodología. Además, se propone un ensemble que nos permite predecir h valores futuros, mediante la combinación de los resultados de k modelos generados en base a distintos algoritmos. De forma concreta, se han utilizado las implementaciones de los algoritmos Decision Tree, Gradient-Boosted Trees y Random Forest que ofrece la librería MLlib de Spark. Se consideran dos estrategias, un modelo de ensemble estático y un modelo dinámico que actualiza los pesos para mejorar el modelo de predicción. Los pesos del ensemble se calculan con el método de mínimos cuadrados ponderados, y las predicciones para cada modelo que forma el ensemble se obtienen de forma distribuida. El comportamiento de los modelos se evalúa con dos casos de uso: el consumo eléctrico en España, en el que se genera un modelo para predecir las siguientes 4 horas de la serie temporal, partiendo de un histórico de 10 años de registros con una frecuencia de 10 minutos; y datos de producción de energía solar fotovoltaica de Australia, recogidos por la Universidad de Queensland durante dos años, con una frecuencia de 30 minutos entre las mediciones. Los resultados han mostrado que tanto los ensemble dinámicos como los estáticos se comportaron bien, mejorando los resultados de cualquiera de los algoritmos que componen el ensemble. El ensemble dinámico fue el modelo más preciso cometiendo un error relativo medio del 2% en la predicción de la demanda de energía eléctrica de España, resultado muy prometedor para esta serie temporal. Los resultados obtenidos para la predicción de producción de energía solar fotovoltaica se han comparado, además, con redes neurales artificiales, el algoritmo PSF el cual está basado en secuencia de patrones y con Deep Learning, obteniendo las mejores predicciones en esta serie temporal.Universidad Pablo de Olavide de Sevilla. Departamento de Deporte e InformáticaPostprin

Repositorio Institucional Olavide

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Técnicas avanzadas de predicción para big data en el contexto de smart cities

Author: Talavera Llames Ricardo Leon
Publication venue
Publication date: 01/01/2019
Field of study

Programa de Doctorado en Biotecnología, Ingeniería y Tecnología QuímicaLínea de Investigación: Ingeniería InformáticaClave Programa: DBICódigo Línea: 19Cada día se recoge más y más información de cualquier ámbito de nuestra vida. Número de pasos por minuto, contaminación en las principales ciudades del mundo o el consumo eléctrico medido cada cierto tiempo son sólo algunos ejemplos. Es en este ámbito donde surgen las Smart Cities, o ciudades conectadas, donde se recaba toda la información posible de diferentes dispositivos IoT repartidos por la misma con la esperanza de descubrir conocimiento en dichos datos e, incluso, predecir ciertos comportamientos futuros. Pero estas nuevas series temporales que se están creando comienzan a exceder los tamaños hasta ahora tenidos en cuenta, empezando a considerarse por tanto Big Data. Las técnicas de machine learning y minería de datos que hasta ahora ofrecían buenos resultados, no podían gestionar tal cantidad de información. Es por ello que necesitaban ser revisadas. Así, surge este trabajo de investigación, donde se propone un algoritmo de predicción basado en vecinos cercanos, para predecir series temporales Big Data. Para ello, apoyándose en nuevos frameworks de análisis de datos como Apache Spark con la computación distribuida como bandera, se proponen dos algoritmos: uno basado en el kWNN para análisis y predicción de series temporales univariante y el MV-kWNN en su versión multivariante. Se detalla en este trabajo los pasos realizados para adaptarlo a la computación distribuida y los resultados obtenidos tras llevar a cabo la predicción sobre los datos de consumo eléctrico de 3 edificios de una universidad pública. Se muestra, así mismo, las mejoras introducidas al algoritmo para seleccionar de forma óptima los parámetros requeridos por el mismo, estos son: el número de valores pasados que hay que usar (w) para predecir los h valores siguientes y el número de vecinos cercanos k a considerar para la predicción. También se valoran diferentes tamaños de horizontes de predicción h como dato de entrada al algoritmo. Se comprueba la validez de dichas mejoras realizando la predicción sobre una serie temporal el doble de grande que la considerada en primer término, en este caso la demanda eléctrica en España recogida durante 9 años. Las baja tasa de error obtenida demuestra la idoneidad del algoritmo, y su comparación con otros métodos como deep learning o árboles de regresión, así lo reafirman. Distintas pruebas sobre la escalabilidad del algoritmo en un clúster con diferentes configuraciones muestran lo importante que es escoger adecuadamente parámetros como el número de cores a utilizar por máquina, el número de particiones en que dividir el conjunto de datos así como el número de máquinas en un clúster. Para finalizar, se propone un nuevo algoritmo para tener en cuenta no sólo una variable, sino varias series exógenas que pudieran mejorar la predicción final. Llevando a cabo diferentes análisis basados en correlación, se define el grado mínimo que deben cumplir las series para mejorar dicha predicción. Experimentaciones sobre dos series reales, de demanda eléctrica en España y del precio de la electricidad durante el mismo periodo, son llevadas a cabo, alcanzando de nuevo bajas tasas de error. La comparación con otros métodos multivariantes, como los de redes neuronales o random forests, sitúan al método propuesto en el primer lugar por delante de estos. Una última experimentación para confirmar la adecuación del algoritmo a series temporales Big Data es realizada, mostrando los tiempos de ejecución multiplicando hasta por 200 el tamaño original de las series.Universidad Pablo de Olavide de Sevilla. Departamento de Deporte e InformáticaPostprin

Repositorio Institucional Olavide

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas