5 research outputs found

    Analysis of the impact of behavioral and sector-specific variables in credit risk measurement for the agribusiness

    Get PDF
    El sector agrícola contribuye con un 6,1% del PIB mundial total. China, India y EE.UU. son los mayores participantes con un 34,58% del PIB agrícola total (The World Factbook, 2015). Los empresarios del sector agrícola tienen características específicas relacionadas con los préstamos, debido a los ciclos agrícolas y los riesgos morales. Dado que no es posible conocer el rendimiento y la consecuente ganancia de los cultivos, es importante que con la información disponible se trate de predecir el comportamiento del cliente al momento del vencimiento del préstamo. Este documento presenta un estudio del impacto de los principales factores relevantes para este segmento, relacionados con el riesgo de crédito, proporcionando una visión sobre el enfoque que los prestamistas del agronegocio deben tomar para proporcionar mejores servicios financieros al sector. Los datos utilizados provienen de una empresa chilena que otorga crédito a agricultores para el suministro de insumos, y corresponden a 6.658 clientes que fueron aprobados entre enero de 2007 y diciembre de 2013. El análisis del riesgo de crédito en el agronegocio se realiza considerando tres factores simultáneamente: el tipo de cliente (personas, empresas y holdings), la técnica de modelización (Random Forests, Redes Neuronales y Regresión Logística), y la información disponible (sociodemográfica, de comportamiento de pago, de agronegocio y del crédito). Los resultados muestran que los patrones son estructuralmente diferentes entre los segmentos de clientes, con variables que tienen una gran relevancia; Sin embargo, la precisión predictiva de un modelo combinado está en línea con un modelo diferenciado. Por otro lado, incluir las variables de comportamiento aumenta el AUC entre 5% y 20%, en el caso de las variables de agronegocio el incremento es entre 5%-10%. Random Forests fue el mejor modelo en general, sin embargo la Regresión Logística tiene un buen desempeño y ofrece a los prestamistas agrícolas una manera fácil para medir los riesgos de crédito, teniendo en cuenta variables especializadas en el proceso de modelado. Como trabajo futuro se podría incluir factores adicionales en el análisis, tales como el impacto de las variables macroeconómicas sobre la estabilidad de los modelos de puntuación para el sector agrícola. Otro desarrollo futuro podría ser mejorar las estimaciones de los ingresos agrícolas y los costos para obtener estimaciones más cercanas a los valores reales y medir el impacto de estas estimaciones en el desempeño del modelo./ABSTRACT. The agricultural sector contributes with a 6.1% of total world GDP. China, India and the US are the best contributors with a 34.58% of the total agricultural GDP (The World Factbook, 2015). Entrepreneurs of the agricultural sector have specific features related to lending, because the agricultural cycles and the moral risks. Since it is not possible to know the performance and subsequent gain of the crops, it is important that with the information available try to predict customer behavior at maturity. This paper presents a study of the impact of the main factors relevant to this segment providing insights on the focus that agribusiness-oriented lenders have to take in order to provide better financial services to the sector. The data used comes from a Chilean company that provides credit to farmers for the supply of inputs, it contains 6,658 customers who were approved between January 2007 and December 2013. The analysis of credit risk in agribusiness is performed considering three different factors simultaneously: company size (persons, companies and holding companies), modeling technique (Random Forests, Neural Networks and Logistic Regression), and available information (sociodemographic, repayment behavior, agribusiness-specific and credit-related). The results clearly show how the patterns are structurally different among the customer segments, with variables that have distinctly relevance; however, the predictive accuracy of a combined model is in line with a differentiated one. On another hand, including behavioral variables increases AUC by between 5%-20%, in case of agribusiness variables the increment is by between 5%-10%. Random Forests was the best model overall, nevertheless Logistic Regression has good performance and deliver an easy way for agricultural lenders to measure credit risks, considering specialized variables in modeling process. Future work could include additional factors in the analysis, such as the impact of macroeconomic variables on the stability of the scoring models for the agribusiness sector. Another future development could be to improve the estimates of the agricultural incomes and costs to obtain estimates closer to actual values and to measure the impact of these estimates on the performance of the model.41 p

    A profit measure with deterministic and stochastic effects for data mining models

    Get PDF
    21 P.En la actualidad los entornos de negocios se están volviendo más competitivos, solo aquellos que toman decisiones informadas se mantienen exitosos, por lo tanto es imperativo tomar siempre decisiones bien informadas con el objetivo de lograr el fin último de los negocios, alcanzar la utilidad más alta posible. Business Analytics es un área que incluye el uso de modelos de Data Mining para tomar decisiones de negocios de manera informada, pero a pesar de que existe una amplia variedad de modelos, existen pocas medidas para estos modelos que consideren los costos y beneficios asociados a las decisiones conducidas por éstos. En este contexto nosotros tratamos de enriquecer el estado del arte de la toma de decisiones a través de una mejora a una medida de utilidad, para lo cual identificamos una medida de utilidad y extendimos su dominio esperando modelar la variabilidad de los costos y beneficios en los ambientes de negocios con alta variabilidad, proporcionando una medida capaz de modelar un número más amplio de contextos de negocios. Este nuevo enfoque consiste en la adición de choques aleatorios a las distribuciones de costo y beneficio de una medida conocida como Expected Maximum Profit, la nueva medida es llamada R-EMP. La investigación puso en marcha un experimento sintético y otro empírico en un contexto de credit scoring. El experimento sintético fue desarrollado simulando un conjunto de datos, y el caso empírico fue basado en un conjunto de datos de una empresa financiera de Chile. Para ambos experimentos se utilizó Regresión Logística para clasificar si un cliente cometió default o no, utilizando como criterio de selección nuestra medida (R-EMP), una medida frecuentemente usada conocida como AUC, una media de perdidas conocida como H-measure y nuestra medida primaria EMP. Luego seleccionamos nuestros choques aleatorios como información aleatoria normalmente distribuida, replicamos 5.000 veces y simultáneamente muestreando de forma estratificada las dos clases desbalanceadas, teniendo como resultado de ambos experimentos un acuerdo sobre la mejora en la utilidad cuando la medida R-EMP fue utilizada como criterio de selección. Como conclusión validamos la incorporación de choques aleatorios para mejorar una herramienta para la toma de decisiones como lo es la medida EMP, entonces nosotros recomendamos el uso de la medida R-EMP como criterio de selección en ambientes de negocios muy variables. Para investigaciones futuras sería interesante incorporar choques aleatorios en otras aplicaciones de negocios como la fuga de clientes, además de probar otras variedades de choques y además capturar choques asociados a contextos reales para incorporarlos como entrada a la medida R-EMP. / ABSTRACT: Nowadays business environments are becoming more competitive, just those who take informed decisions remain successful, so it is imperative to take informed decisions to reach the businesses ultimate goal, achieve a profit as high as possible. Business Analytics is an area which includes the use of Data Mining models to take informed business decisions. There is a wide variety of models, but there are few measures for those models that takes in consideration the costs and benefits associated to the decisions driven by them. In this context we aim to enrich the state-of-art on decision making tools by generating a new profit-driven measure. We identify a profit-driven measure and extent its domain aiming to model the variability of costs and benefits for highly-variable business environments, providing a measure able to model a wider number of business contexts. This new approach consist into adding random shocks to the cost-benefit distributions of a measure known as Expected Maximum Profit, the new measure is called R-EMP. The research established a synthetic and empirical experiment in a context of credit scoring. The synthetic case was developed simulating a credit scoring data set, and the empirical case was based on Chilean financial institution dataset. For both experiments we used the Logistic Regression model to classify if a client fall in default or not, using as selecting criterion of attributes our measure (R-EMP), a commonly used measure known as AUC, a measure of losses known as H-measure and our primary measure known as EMP. Then, we selected our random shocks as random normally distributed information, replicating 5,000 times and simultaneously applied stratified sampling accordingly to the two imbalanced classes. The results of both experiments agrees that using R-EMP measure as selection criterion drives to the improvement of the total profit for the company. As conclusion we validate the incorporation of random shocks to improve a decision making tool EMP measure. We recommended the use of R-EMP measure as selection criteria on highly-variable business environments. For future research it would be interesting to incorporate random shocks to another business applications like churn prediction, also trying to test another variety of shocks, and also to capture a real business shock and incorporate this as input for the R-EMP measure

    Metodología para detección del cambio en modelos de regresión logística aplicado al problema de Credit Scoring

    Get PDF
    110 p.En industrias altamente competitivas, como la industria financiera, es necesario contar con modelos de Credit Scoring que sean eficientes y objetivos para evaluar el mérito del postulante para recibir un crédito. Dentro de las limitaciones de estos modelos se puede mencionar que son estáticos, y no considera que los patrones que definen la relación entre la variable objetivo y las variables explicativas cambien a través del tiempo (Concept Drift), debido a que la distribución asumida en la construcción del modelo es estacionaria. Esto tendrá como consecuencia que el modelo pierda su poder discriminador en las nuevas observaciones y deba ser constantemente re-calibrado.El objetivo de esta tesis tiene por finalidad proponer una metodología que permita detectar de manera temprana si las variables involucradas en la calibración de los modelos de regresión logística aplicados al problema de Credit Scoring, sufrieron un cambio estadísticamente significativo a medida que trascurre el tiempo.En primer lugar se desarrolló un modelo de Credit Scoring bajo la metodología de descubrimiento de conocimiento en bases de datos (KDD) utilizando información de una institución financiera real. La técnica estadística utilizada fue la regresión logística, ya que posee buen desempeño en la tarea de clasificación, facilidad de aplicación e interpretación y por calcular directamente las probabilidades de no pago. Se aplicó la metodología de detección del cambio propuesta en esta tesis sobre una muestra de 5.207 observaciones que busca detectar los cuatro posibles tipos de cambio, siendo éstos: cambio en la estabilidad de parámetros, en la capacidad discriminante de las variables, distribución de las variables y un cambio global en el modelo.Se determinó que hubo cambio estadísticamente significativo en las variables del modelo, corroborando que existe una consistencia importante entre el test de estabilidad de parámetros, los test no paramétricos Chi-cuadrado de Pearson y Kolmogorov – Smirnov y la divergencia de Kullback – Leibler, los cuales coinciden en la determinación de las variables más críticas. La capacidad predictiva del modelo disminuyó a un 68,7% en referencia al 84,7% de acierto global que tenía el modelo original al momento de ser calibrado.Para determinar si un modelo deber ser re-calibrado, las Instituciones Financieras deben definir el apetito de riesgo con el objeto de delimitar de forma sintética y explícita, los niveles y tipologías de riesgo que la entidad está dispuesta a asumir en el desarrollo de su actividad

    Metodología dinámica de análisis de supervivencia aplicada a credit scoring

    Get PDF
    136 p.Esta investigación busca confeccionar una metodología que permita detectar y modelar cambios sufridos a lo largo del tiempo en los patrones que definen una clasificación en modelos de Análisis de Supervivencia. La Metodología Dinámica de Análisis de Supervivencia (MDAS) propuesta utiliza tres diferentes algoritmos de detección de cambios en los datos, con los cuales se entrenan modelos de Riesgos Proporcionales de Cox de manera independiente para luego seleccionar como modelo final aquel que minimice el error sobre un conjunto de prueba. La MDAS fue aplicada a un caso real de Credit Scoring con tres instancias de tiempo, y los resultados obtenidos fueron contrastados con los alcanzados por la metodología estática correspondiente con el fin de ilustrar la verdadera utilidad del método desarrollado. La metodología propuesta alcanzó una efectividad en promedio superior al modelo estático, lo cual fue estadísticamente comprobado. Por lo tanto, se logró desarrollar una metodología capaz de utilizar los datos más relevantes para el modelamiento del concepto objetivo de estudio. Adicionalmente, el Modelo de Riesgos Proporcionales de Cox ofrece una favorable interpretación de resultados que permitió analizar variables y aspectos relevantes en el riesgo de no pago. Palabras claves: Análisis de Supervivencia, Modelo de Riesgos Proporcionales de Cox, Metodología Dinámica, Credit Scoring. Abstract This research aims to make a methodology able to detect and model changes occurred along the time to the patterns which define a classification in Survival Analysis models. The called Dynamic Survival Analysis Methodology (MDAS) uses three different data change detection algorithms, which train Cox’s proportional hazards models independently and then selects as final model that one minimizes the global risk on a test set. The MDAS was applied over a real data of Credit Scoring with three time instances, and the outcomes achieved were contrasted versus the static methodology one, in order to show the real usefulness of the developed method. The proposed methodology achieved a higher average effectiveness than the static model, which was statistically proven. Therefore, it was possible to develop a methodology able to use the most relevant data to model the target. Moreover, the Cox’s proportional hazards model gives a useful interpretation of outcomes what allowed analyze characteristic variables and relevant issues in the default risk. Key words: Survival Analysis, Cox’s proportional hazards model, Dynamic Methodology, Credit Scoring

    Herramientas de minería de datos para el modelamiento de la Pérdida dado el Default

    Get PDF
    162 p.Esta tesis aborda el problema de la Pérdida dado el Default (LGD, por sus siglas en inglés), utilizando diferentes herramientas de minería de datos para su medición. El problema nace de las dificultades que se encuentran en la estimación de las provisiones para las entidades financieras, ya que dependen de parámetros como la EAD o Exposición al Default que corresponde al monto total que el cliente le debe a la compañía financiera, por lo cual es un valor conocido, otro parámetro importante es la PD o Probabilidad de Default que corresponde a la posibilidad de que un cliente devuelva lo solicitado, medición realizado principalmente por modelos de scoring, y por último se tiene a la LGD o Pérdida dado el Default que corresponde a la pérdida esperada para la entidad financiera en caso de que ocurra el default, la cual posee poca incursión en el modelamiento. Es necesario utilizar minería de datos para abordar este problema, ya que se pueden establecer predicciones en base al análisis de grandes bases de datos, considerando variables sobre características crediticias históricas del cliente y de indicadores macroeconómicos del país, al momento de que un cliente caiga en default. Para lo anterior se utilizó la metodología de descubrimiento de conocimiento en base de datos (KDD) para la construcción tanto de los modelos propuestos como de los modelos a comparar. Los métodos implementados corresponden a modelos no lineales, como lo son Support Vector Regression (SVR), Ensembles y SVR con programación de Kernels, estos modelos son comparados con la literatura actual, en donde destacan modelos de Redes Neuronales, Árboles de Regresión y Regresión con respuesta fraccional. Se realiza una comparación mediante una aplicación a un caso real, en donde las propuestas entorno a la metodología ensemble son consideradas como las más competentes, ya que a lo menos igualan los mejores resultados actuales obtenidos por las Redes Neuronales, siendo el Random Forest una atractiva idea de modelar la Pérdida dado el Default. Palabras claves: Riesgo Crediticio, Pérdida dado el Default, SVR,ensemble./ABSTRACT:This thesis addresses the problem of Loss given Default (LGD, for its acronym in English), using different data mining tools for measurement.The problem stems from the difficulties encountered in estimating provisions for financial institutions, as they depend on parameters like EAD or Exposure to the Default corresponding to the total amount that the customer owes the finance company, so is a known value, another important parameter is the PD or default probability corresponding to the likelihood that a customer returns the requested measurement performed mainly by scoring models, and finally has LGD or Loss Given Default that corresponds to the expected loss for the lender in the event of default, which has little foray into modeling. You need to use data mining to address this problem, since they can make predictions based on the analysis of large databases, considering variables on historical customer credit characteristics and macroeconomic indicators of the country, when a customer falls in default. For the above, the methodology of knowledge discovery in databases (KDD) for construction of the models proposed so as to compare models. The methods are implemented to nonlinear models, such as Support Vector Regression (SVR), and SVR Ensembles Kernels with programming, these models are compared with the current literature, where models stand Neural Networks, Regression and Regression Trees with fractional response. A comparison is made by an application to a real case, where the methodology proposed ensemble environment are considered the most relevant, since at least match the best current results obtained by neural networks, with the Random Forest an attractive idea of modeling the Loss given Default.Keywords: Credit Risk, Loss given Default, SVR ensembles
    corecore