357 research outputs found

    Prediction of Banks Financial Distress

    Get PDF
    In this research we conduct a comprehensive review on the existing literature of prediction techniques that have been used to assist on prediction of the bank distress. We categorized the review results on the groups depending on the prediction techniques method, our categorization started by firstly using time factors of the founded literature, so we mark the literature founded in the period (1990-2010) as history of prediction techniques, and after this period until 2013 as recent prediction techniques and then presented the strengths and weaknesses of both. We came out by the fact that there was no specific type fit with all bank distress issue although we found that intelligent hybrid techniques considered the most candidates methods in term of accuracy and reputatio

    Multi-class Classification with Machine Learning and Fusion

    Get PDF
    Treball realitzat a TELECOM ParisTech i EADS FranceMulti-class classification is the core issue of many pattern recognition tasks. Several applications require high-end machine learning solutions to provide satisfying results in operational contexts. However, most efficient ones, like SVM or Boosting, are generally mono-class, which introduces the problem of translating a global multi-class problem is several binary problems, while still being able to provide at the end an answer to the original multi-class issue. Present work aims at providing a solution to this multi-class problematic, by introducing a complete framework with a strong probabilistic and structured basis. It includes the study of error correcting output codes correlated with the definition of an optimal subdivision of the multi-class issue in several binary problems, in a complete automatic way. Machine learning algorithms are studied and benchmarked to facilitate and justify the final selection. Coupling of automatically calibrated classifiers output is obtained by applying iterative constrained regularisations, and a logical temporal fusion is applied on temporal-redundant data (like tracked vehicles) to enhance performances. Finally, ranking scores are computed to optimize precision and recall is ranking-based systems. Each step of the previously described system has been analysed from a theoretical an empirical point of view and new contributions are introduced, so as to obtain a complete mathematically coherent framework which is both generic and easy-to-use, as the learning procedure is almost completely automatic. On top of that, quantitative evaluations on two completely different datasets have assessed both the exactitude of previous assertions and the improvements that were achieved compared to previous methods

    Credit scoring with advanced analytics: applying machine learning methods for credit risk assessment at the Frankfurter sparkasse

    Get PDF
    Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Information Systems and Technologies ManagementThe need for controlling and managing credit risk obliges financial institutions to constantly reconsider their credit scoring methods. In the recent years, machine learning has shown improvement over the common traditional methods for the application of credit scoring. Even small improvements in prediction quality are of great interest for the financial institutions. In this thesis classification methods are applied to the credit data of the Frankfurter Sparkasse to score their credits. Since recent research has shown that ensemble methods deliver outstanding prediction quality for credit scoring, the focus of the model investigation and application is set on such methods. Additionally, the typical imbalanced class distribution of credit scoring datasets makes us consider sampling techniques, which compensate the imbalances for the training dataset. We evaluate and compare different types of models and techniques according to defined metrics. Besides delivering a high prediction quality, the model’s outcome should be interpretable as default probabilities. Hence, calibration techniques are considered to improve the interpretation of the model’s scores. We find ensemble methods to deliver better results than the best single model. Specifically, the method of the Random Forest delivers the best performance on the given data set. When compared to the traditional credit scoring methods of the Frankfurter Sparkasse, the Random Forest shows significant improvement when predicting a borrower’s default within a 12-month period. The Logistic Regression is used as a benchmark to validate the performance of the model

    Subseasonal tropical cyclone activity over the North Atlantic: A systematic comparison of different forecast approaches

    Get PDF
    Die zerstörerischen Winde, sintflutartigen Regenfälle und Sturmfluten, die mit tropischen Wirbelstürmen (TCs) einhergehen, fordern häufig zahlreiche Todesopfer und verursachen großflächige und kostenintensive Schäden. Die Planung von Evakuierungen und Vorsichtsmaßnahmen erfordert genaue Vorhersagen der TC-Aktivität mit einer möglichst großen Vorlaufzeit. Vergangene Bemühungen haben zumeist darauf abgezielt entweder einzelne TCs mit einer Vorlaufzeit von mehreren Tagen oder die Aktivität einer ganzen Saison vorherzusagen. Diese Trennung ist in erster Linie auf die subsaisonale Vorhersagbarkeitslücke (mehr als 2 Wochen aber weniger als 3 Monate) zurückzuführen, und spiegelt sich auch in der Tatsache wider, dass für jeden der beiden Vorhersagebereiche vorwiegend unterschiedliche Modellierungsansätze zur Anwendung kommen. Mittelfristige Vorhersagen (bis zu 2 Wochen) basieren in hohem Maße auf numerischen Wettervorhersagemodellen (NWP-Modell; auch als \u27dynamisches Modell\u27 bezeichnet), während statistische Modelle in der Regel für saisonale Vorhersagen (3-6 Monate) trainiert werden. Während frühere Forschung zur sub-saisonalen TC-Aktivität sich überweigend entweder auf die Validierung von NWP-Modellen oder auf die Entwicklung statistischer Modelle, trainiert auf vergangenen Daten, konzentriert hat, kombiniert die vorliegende Arbeit beide Ansätze zu einem statistisch-dynamischen (oder hybriden) Modell für probabilistische Vorhersagen im nordatlantischen Ozean. Diese Dissertation zielt darauf ab, NWP-basierte Prädiktoren, die für die Vorhersage subsaisonaler TC-Aktivität relevant sind, zu identifizieren und zu bewerten, ein statistisch-dynamisches Vorhersagemodell zu entwickeln und zu validieren und dessen Vorhersageleistung systematisch mit einer Vielzahl von unterschiedlichen Vorhersageansätzen zu vergleichen. Obwohl es modernen NWP-Modellen nachweislich an der Fähigkeit zur Vorhersage subsaisonaler, wöchentlicher TC-Aktivität mangelt, könnten sie in der Lage sein die Umgebungsbedingungen ausreichend gut vorherzusagen, um daraus Prädiktoren für ein statistisches Modell zu erzeugen. Daher wird auf Grundlage einer Literaturrecherche und physikalischen Überlegungen ein umfangreicher Satz and Prädiktoren generiert, welcher Prädiktorgruppen umfasst, die klimatologische und saisonale Informationen, ozeanische und tropische Bedingungen, tropische Wellenmoden sowie außertropische Einflüsse repräsentieren. Die Annahme, dass diese Prädiktoren für subsaisonale Vorlaufzeiten nutzbare Vorhersagefähigkeiten aufweisen, wird als zutreffend erachtet, da für jeden Prädiktor der Vorhersagewoche vier signifikante Korrelationen mit dem Auftreten von TCs zwischen 0.1 und 0.5 zu finden sind. Ein statistisch-dynamisches (oder Hybrid-) Modell wird für die Vorhersage der Auftretenswahrscheinlichkeit von TCs sowie für die Accumulated Cyclone Energy (ACE) mit Vorlaufzeiten bis zur Woche fünf entwickelt, wobei eine logistische Regression bzw. ein zweiteiliges Modell verwendet wird. Um Unterschiede zwischen den Teilregionen vergleichen zu können, werden separate Modelle für den Golf von Mexiko bzw. die zentrale Main Development Region (MDR) trainiert und validiert. Für jede Vorhersagewoche und Teilregion wählt ein automatisiertes Verfahren lediglich die relevanten Prädiktoren aus dem Prädiktorenpool aus, bevor die statistische Modellkomponente im Vorhersagemodus auf jeden einzelnen Gitterpunkt separat angewendet wird. Obwohl eine Regularisierung vorgenommen wird, um eine Über- oder Unteranpassung des Modells zu verhindern, werden dennoch die meisten Prädiktoren während dieses Verfahrens ausgewählt, was deren Nützlichkeit für den hybriden Ansatz belegt. Eine Vielfalt an originären und weiterverbesserten Modellen, darunter klimatologische Modelle, rein dynamische Modelle und rein statistische Modelle, bieten eine umfassende Auswahl an Benchmarks. Neben dem Zweck, einen starken und somit fairen Wettbewerb während der Modellvalidierung zu ermöglichen, erlaubt dies auch die Bewertung der Vorhersageleistung einer Hierarchie an Modellierungsansätzen. Diese Vielfalt an Modellen wird systematisch für Vorhersagen in den Teilregionen Golf von Mexiko bzw. zentrale MDR über den Zeitraum 1979–2018 kreuzvalidiert. Die Verifikation der probabilistischen Vorhersagen kombiniert etablierte Methoden mit neu entwickelten Techniken, um die Kalibrierung der Modelle und ihre potenzielle und tatsächliche Vorhersagefähigkeit auszuwerten, sowie die langfristig zu erwartenden Kosten für einen Nutzer abzuschätzen, der auf Grundlage des jeweiligen Modelles Maßnahmen ergreifen würde. Es zeigt sich, dass die klimatologischen und NWP-basierten Modelle beide Zielvariablen systematisch unterschätzen, was im letzteren Fall an Modelltyp durch statistisches Postprocessing korrigiert werden kann. Im Gegensatz dazu liefern die rein statistischen und die statistisch-dynamischen Modelle insgesamt gut kalibrierte Vorhersagen. Die NWP-Modelle schneiden in der ersten Woche am besten ab, verlieren aber innerhalb der ersten zwei Wochen schnell ihre Vorhersagefähigkeit, da die chaotische Natur der Atmosphäre die in den Anfangsbedingungen enthaltenen wertvollen Informationen unscharf werden lässt. Selbst im Falle einer Rekalibrierung werden die NWP-Modelle von den klimatologischen Modellen für subsaisonale Vorlaufzeiten übertroffen. Saisonale Schwankungen, die sich in einem klimatologischen Modell widerspiegeln, sind besonders in der zentralen MDR nützlich, die einem ausgeprägteren saisonalen Zyklus unterliegt. Im Gegensatz dazu scheint sich eine Optimierung, wie viele Informationen von benachbarten Tagen im Jahr verwendet werden, um eine probabilistische klimatologische Verteilung zu erstellen, im Golf von Mexiko am meisten auszuzahlen, da mehr Instanzen erforderlich sind, um eine robuste Verteilung zu erhalten. Die rein statistischen Modelle erhöhen die Vorhersagefähigkeit gegenüber den klimatologischen Modellen nur geringfügig, was darauf hindeutet, dass Informationen aus der Vergangenheit nicht viel an nutzbarer Vorhersagefähigkeit enthalten. Der statistisch-dynamische Ansatz erzielt erhebliche Verbesserungen bei der Vorhersage des Auftretens von TCs bis zur Woche fünf für beide Teilregionen. Der überwiegende Teil der zusätzlichen subsaisonalen Fähigkeit des Hybridmodells im Vergleich zum klimatologischen Modell kann den tropischen Bedingungen im Golf von Mexiko bzw. den ozeanischen Bedinungen in der zentralen MDR zugeschrieben werden. Die Vorhersageverbesserungen für die Verteilung von ACE sind qualitativ ähnlich, verschwinden aber nach der dritten Woche im Golf von Mexiko. Das Training des ACE-Modells unter Zurückhaltung des klimatologischen Basisprädiktors zeigt, dass der Auftretensfaktor von wesentlich größerer Bedeutung ist als der Intensitätsfaktor. Die Anwendung eines Kosten-Verlust-Entscheidungsmodells auf die Vorhersagen des Auftretens von TCs deutet weitgehend darauf hin, dass, zur Senkung der wirtschaftlichen Gesamtkosten, die wertvollsten Informationen das NWP-Modell für den mittelfristigen und das statistisch-dynamische Modell für den subsaisonalen Bereich liefert

    Operational research IO 2021—analytics for a better world. XXI Congress of APDIO, Figueira da Foz, Portugal, November 7–8, 2021

    Get PDF
    This book provides the current status of research on the application of OR methods to solve emerging and relevant operations management problems. Each chapter is a selected contribution of the IO2021 - XXI Congress of APDIO, the Portuguese Association of Operational Research, held in Figueira da Foz from 7 to 8 November 2021. Under the theme of analytics for a better world, the book presents interesting results and applications of OR cutting-edge methods and techniques to various real-world problems. Of particular importance are works applying nonlinear, multi-objective optimization, hybrid heuristics, multicriteria decision analysis, data envelopment analysis, simulation, clustering techniques and decision support systems, in different areas such as supply chain management, production planning and scheduling, logistics, energy, telecommunications, finance and health. All chapters were carefully reviewed by the members of the scientific program committee.info:eu-repo/semantics/publishedVersio

    A systematic literature review on meta-heuristic based feature selection techniques for text classification

    Get PDF
    Feature selection (FS) is a critical step in many data science-based applications, especially in text classification, as it includes selecting relevant and important features from an original feature set. This process can improve learning accuracy, streamline learning duration, and simplify outcomes. In text classification, there are often many excessive and unrelated features that impact performance of the applied classifiers, and various techniques have been suggested to tackle this problem, categorized as traditional techniques and meta-heuristic (MH) techniques. In order to discover the optimal subset of features, FS processes require a search strategy, and MH techniques use various strategies to strike a balance between exploration and exploitation. The goal of this research article is to systematically analyze the MH techniques used for FS between 2015 and 2022, focusing on 108 primary studies from three different databases such as Scopus, Science Direct, and Google Scholar to identify the techniques used, as well as their strengths and weaknesses. The findings indicate that MH techniques are efficient and outperform traditional techniques, with the potential for further exploration of MH techniques such as Ringed Seal Search (RSS) to improve FS in several applications

    Ultrasonography for the prediction of musculoskeletal function

    Get PDF
    Ultrasound (US) imaging is a well-recognised technique for studying in vivo characteristics of a range of biological tissues due to its portability, low cost and ease of use; with recent technological advances that increased the range of choices regarding acquisition and analysis of ultrasound data available for studying dynamic behaviour of different tissues. This thesis focuses on the development and validation of methods to exploit the capabilities of ultrasound technology to investigate dynamic properties of skeletal muscles in vivo exclusively using ultrasound data. The overarching aim was to evaluate the influence of US data properties and the potential of inference algorithms for prediction of net ankle joint torques. A fully synchronised experimental setup was designed and implemented enabling collection of US, Electromyography (EMG) and dynamometer data from the Gastrocnemius medialis muscle and ankle joint of healthy adult volunteers. Participants performed three increasing complexity muscle movement tasks: passive joint rotations, isometric and isotonic contractions. Two frame rates (32 and 1000 fps) and two data precisions (8 and 16-bits) were obtained enabling analysis of the impact of US data temporal resolution and precision on joint torque predictions. Predictions of net joint torque were calculated using five data inference algorithms ranging from simple regression through to Artificial Neural Networks. Results indicated that accurate predictions of net joint torque can be obtained from the analysis of ultrasound data of one muscle. Significantly improved predictions were observed using the faster frame rate during active tasks, with 16-bit data precision and ANN further improving results in isotonic movements. The speed of muscle activation and complexity of fluctuations of the resulting net joint torques were key factors underpinning the prediction errors recorded. The properties of collected US data in combination with the movement tasks to be assessed should therefore be a key consideration in the development of experimental protocols for in vivo assessment of skeletal muscles
    • …
    corecore