2,242 research outputs found

    A literature review on the application of evolutionary computing to credit scoring

    Get PDF
    The last years have seen the development of many credit scoring models for assessing the creditworthiness of loan applicants. Traditional credit scoring methodology has involved the use of statistical and mathematical programming techniques such as discriminant analysis, linear and logistic regression, linear and quadratic programming, or decision trees. However, the importance of credit grant decisions for financial institutions has caused growing interest in using a variety of computational intelligence techniques. This paper concentrates on evolutionary computing, which is viewed as one of the most promising paradigms of computational intelligence. Taking into account the synergistic relationship between the communities of Economics and Computer Science, the aim of this paper is to summarize the most recent developments in the application of evolutionary algorithms to credit scoring by means of a thorough review of scientific articles published during the period 2000–2012.This work has partially been supported by the Spanish Ministry of Education and Science under grant TIN2009-14205 and the Generalitat Valenciana under grant PROMETEO/2010/028

    Using neural networks and support vector machines for default prediction in South Africa

    Get PDF
    A thesis submitted to the Faculty of Computer Science and Applied Mathematics, University of Witwatersrand, in fulfillment of the requirements for the Master of Science (MSc) Johannesburg Feb 2017This is a thesis on credit risk and in particular bankruptcy prediction. It investigates the application of machine learning techniques such as support vector machines and neural networks for this purpose. This is not a thesis on support vector machines and neural networks, it simply looks at using these functions as tools to preform the analysis. Neural networks are a type of machine learning algorithm. They are nonlinear mod- els inspired from biological network of neurons found in the human central nervous system. They involve a cascade of simple nonlinear computations that when aggre- gated can implement robust and complex nonlinear functions. Neural networks can approximate most nonlinear functions, making them a quite powerful class of models. Support vector machines (SVM) are the most recent development from the machine learning community. In machine learning, support vector machines (SVMs) are su- pervised learning algorithms that analyze data and recognize patterns, used for clas- si cation and regression analysis. SVM takes a set of input data and predicts, for each given input, which of two possible classes comprises the input, making the SVM a non-probabilistic binary linear classi er. A support vector machine constructs a hyperplane or set of hyperplanes in a high or in nite dimensional space, which can be used for classi cation into the two di erent data classes. Traditional bankruptcy prediction medelling has been criticised as it makes certain underlying assumptions on the underlying data. For instance, a frequent requirement for multivarate analysis is a joint normal distribution and independence of variables. Support vector machines (and neural networks) are a useful tool for default analysis because they make far fewer assumptions on the underlying data. In this framework support vector machines are used as a classi er to discriminate defaulting and non defaulting companies in a South African context. The input data required is a set of nancial ratios constructed from the company's historic nancial statements. The data is then Divided into the two groups: a company that has defaulted and a company that is healthy (non default). The nal data sample used for this thesis consists of 23 nancial ratios from 67 companies listed on the jse. Furthermore for each company the company's probability of default is predicted. The results are benchmarked against more classical methods that are commonly used for bankruptcy prediction such as linear discriminate analysis and logistic regression. Then the results of the support vector machines, neural networks, linear discriminate analysis and logistic regression are assessed via their receiver operator curves and pro tability ratios to gure out which model is more successful at predicting default.MT 201

    A neural network architecture for data editing in the Bank of ItalyÂ’s business surveys

    Get PDF
    This paper presents an application of neural network models to predictive classification for data quality control. Our aim is to identify data affected by measurement error in the Bank of ItalyÂ’s business surveys. We build an architecture consisting of three feed-forward networks for variables related to employment, sales and investment respectively: the networks are trained on input matrices extracted from the error-free final survey database for the 2003 wave, and subjected to stochastic transformations reproducing known error patterns. A binary indicator of unit perturbation is used as the output variable. The networks are trained with the Resilient Propagation learning algorithm. On the training and validation sets, correct predictions occur in about 90 per cent of the records for employment, 94 per cent for sales, and 75 per cent for investment. On independent test sets, the respective quotas average 92, 80 and 70 per cent. On our data, neural networks perform much better as classifiers than logistic regression, one of the most popular competing methods, on our data. They appear to provide a valid means of improving the efficiency of the quality control process and, ultimately, the reliability of survey data.data quality, data editing, binary classification, neural networks, measurement error

    Prostate lesion segmentation with convolutional neural networks

    Get PDF
    Tese de mestrado integrado em Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), Universidade de Lisboa, Faculdade de Ciências, 2020O cancro da próstata é o segundo tipo de cancro não cutâneo com maior incidência nos homens em todo o mundo, a seguir ao cancro do pulmão. Em Portugal, de acordo com a Associação Portuguesa de Urologia, esta doença representa, aproximadamente, 3,5% de todas as mortes nacionais, assim como 10% das mortes relacionadas com cancro. Para além destes dados, o Global Cancer Observatory, estima que a probabilidade de um homem ocidental ser diagnosticado ao longo da sua vida com cancro da próstata é de 8,1%. As causas diretas que levam ao aparecimento deste tipo de cancro ainda não estão totalmente clarificadas, no entanto, os hábitos alimentares, o estilo de vida e o ambiente em redor desempenham um fator preponderante no desencadeamento desta patologia. A deteção inicial deste cancro ocorre, normalmente, através de exames retais de rotina, ou através de alterações significativas do antigénio prostático específico detetáveis em análises ao sangue. De seguida, para confirmação e localização do possível tumor, podem ser adotados três procedimentos: ecografia transrectal, colheita de uma biópsia local ou análise de imagem prostática através de ressonância magnética. Por ser o procedimento menos invasivo, a ressonância magnética é a ferramenta mais utilizada para deteção e localização de lesões na próstata. No Hospital da Luz de Lisboa, a análise de imagens provenientes de ressonância magnética multi-paramétrica é o procedimento padrão para a localização de lesões prostáticas. Neste exame, geralmente, são adquiridas três sequências em T2, uma em cada um dos planos axial, coronal e sagital, duas sequências com difusão e uma sequência emT1. Cada exame demora, aproximadamente, 45minutos a ser analisado corretamente pelo radiologista. Após a análise, é atribuída uma classificação ao estado do paciente, de T1 a T4, sendo que até T2 o tumor ainda se encontra exclusivamente no interior da próstata e em T4 apresenta os maiores índices de disseminação em redor da próstata. Esta classificação é preponderante para o planeamento da cirurgia de remoção do tumor. Nesta avaliação, é normalmente identificada a lesão ”índex” da próstata, que corresponde à lesão com maior índice cancerígenae, por isso, a mais visível. No entanto, podem em certos casos existir lesões de menor dimensão ou de menor relevância, lesões ”não-índex”, que em determinadas circunstâncias levam à alteração da classificação do estado do paciente. Este tipo de lesões, por vezes, não é facilmente localizado e o procedimento cirúrgico resultante acaba por não ser o mais indicado e gerar, no futuro, reincidências. Até T2, a prostatectomia deve ser realizada com o intuito de remover apenas a lesão ou a próstata por completo, no entanto, em T3 e em T4, a abordagem deve ser um pouco mais severa, sendo necessário também remover camadas celulares fora da próstata como margem de segurança para evitar uma reincidência. A introdução de algoritmos de inteligência artificial no ramo da medicina, com o propósito de realizar tarefas como segmentação, classificação e deteção de artefactos em imagens digitais, tem sido cada vez mais preponderante na evolução tecnológica da saúde. No panorama geral da medicina, os métodos de avaliação automatizada permitem executar tarefas com maior rapidez, precisão e assertividade face à capacidade humana, sendo possível explorar numa imagem, por exemplo, texturas, formas, estruturas e até mesmo orientações nucleares de certos artefactos. Relativamente ao cancro da próstata, para além de algoritmos que visam auxiliar as avaliações promovidas pela anatomia patológica, o grande foco centra-se em melhorar os métodos de análise de imagem de ressonância, por forma a tornar os diagnósticos mais precisos. Assim sendo, a criação de algoritmos que permitam a segmentação das lesões prostáticas, assim como respetiva ponderação da classificação do estado do paciente, revela-se como a tarefa principal na evolução do diagnóstico do cancro da próstata. Desta forma, como objetivo de otimizar a deteção e localização das lesões prostáticas, esta dissertação apresenta um conjunto de algoritmos que visam a segmentação de lesões da próstata em imagens de ressonância magnética. O projeto foi desenvolvido no centro de formação e investigação LearningHealth, no Hospital da Luz de Lisboa, e apresenta duas etapas principais: a criação do modelo de segmentação da próstata e a elaboração do modelo de segmentação das lesões prostáticas. Na fase inicial desta dissertação, a criação de um modelo que segmentasse a zona da próstata, por forma a aumentar, posteriormente, a área de deteção das lesões, foi identificado como o primeiro passo. Com base em modelos de deep learning, mais especificamente através de convolutional neuralnetworks, foi desenvolvida uma arquitetura para o propósito anteriormente descrito. Esta arquitetura, baseada numa rede já previamente construída, a U-Net, apresenta características específicas que permitem a entrada de imagens de ressonância magnética da próstata, slice a slice, a gestão da informação que essas imagens apresentam e, por fim, a criação de máscaras binárias da zona da próstata consoante a slice de entrada. Com as máscaras da zona prostática, foi possível delinear um contorno e promover uma sub-seleção dessa zona na imagem original, criando volumes onde a área de deteção das lesões da próstata é isolada. Na segunda fase deste projeto, foi criado um modelo para segmentar diretamente as lesões da próstata. Para tal, foram utilizadas as imagens adquiridas após a primeira parte do projeto, assim como a rede identificada para localizar a próstata. Contudo, esta arquitetura sofreu alterações estruturais, por forma a otimizar o rendimento do modelo. Ao contrário da rede anterior, esta arquitetura permite a entrada de duas imagens na mesma instância, a original T2 e a respetiva original ADC. No final, o output é, igualmente, uma máscara binária, desta vez localizando as lesões da próstata em imagens de ressonância. Em ambos os modelos, foram utilizadas como imagens de input, casos de ressonância magnética adquiridos no Hospital da Luz de Lisboa. Para este processo final, foi necessário segmentar manualmente tanto a próstata, como as respetivas lesões, nas imagens do hospital. Para tal, utilizou-se um software hospitalar, o Multi-Parametric Analysis, que permite o registo das imagens originais e a elaboração das máscaras manualmente. Este processo de identificação e elaboração manual das máscaras da próstata e das lesões foi realizado por uma radiologista do Hospital da Luz de Lisboa, a Dra. Adalgisa Guerra. O modelo desenvolvido na primeira etapa, para a segmentação da próstata, apresentou um valor de Dice Similarity Coefficient, a principal métrica de avaliação em projetos de segmentação, de 0,88. Este valor é semelhante aos valores de referência destacados no state oftheart. Após a conclusão desta etapa, criaram-se cinco modelos para segmentar as lesões da próstata, sendo que o modelo que apresentou melhores resultados foi o que tinha como input as imagens ampliadas da próstata em T2 e ADC e as respetivas máscaras das lesões criadas em imagensT2. O resultado final deste modelo em termos de Dice Similarity Coefficient foi de 0,76, Hausdorff Distance de 20,2mm e Mean Square Distance de 2,1 mm. Este resultado realça o impacto que a informação combinada de duas sequências consegue ter no processo de segmentação de lesões da próstata. Concluindo, a medicina, em consonância com as restantes áreas da sociedade, está a evoluir e a inteligência artificial terá um papel preponderante nessa transição. Neste caso, esta dissertação pretende otimizar a metodologia utilizada num hospital local, conferindo aos profissionais de saúde cada vez mais e melhores condições para realizarem as suas tarefas

    An academic review: applications of data mining techniques in finance industry

    Get PDF
    With the development of Internet techniques, data volumes are doubling every two years, faster than predicted by Moore’s Law. Big Data Analytics becomes particularly important for enterprise business. Modern computational technologies will provide effective tools to help understand hugely accumulated data and leverage this information to get insights into the finance industry. In order to get actionable insights into the business, data has become most valuable asset of financial organisations, as there are no physical products in finance industry to manufacture. This is where data mining techniques come to their rescue by allowing access to the right information at the right time. These techniques are used by the finance industry in various areas such as fraud detection, intelligent forecasting, credit rating, loan management, customer profiling, money laundering, marketing and prediction of price movements to name a few. This work aims to survey the research on data mining techniques applied to the finance industry from 2010 to 2015.The review finds that Stock prediction and Credit rating have received most attention of researchers, compared to Loan prediction, Money Laundering and Time Series prediction. Due to the dynamics, uncertainty and variety of data, nonlinear mapping techniques have been deeply studied than linear techniques. Also it has been proved that hybrid methods are more accurate in prediction, closely followed by Neural Network technique. This survey could provide a clue of applications of data mining techniques for finance industry, and a summary of methodologies for researchers in this area. Especially, it could provide a good vision of Data Mining Techniques in computational finance for beginners who want to work in the field of computational finance
    corecore