Search CORE

324 research outputs found

Machine Learning dans l’évaluation du risque crédit : revue systématique

Author: Mousaab ELKHAIR GHOUJDAM
Rachid CHAABITA
Salwa IDAMIA
Publication venue: IJAME
Publication date: 25/06/2024
Field of study

Résumé : L'article entreprend une revue systématique des diverses approches de l'apprentissage automatique dans l'analyse du risque de crédit, basée sur l'examen de 20 articles spécifiquement sélectionnés. Les résultats mettent en évidence une diversité d'approches de machine learning, telles que les arbres de décision, les réseaux de neurones et la classification K-plus proche voisin (KPV). Une analyse approfondie révèle que certaines méthodes, notamment les réseaux de neurones et les arbres de décision, affichent une précision supérieure et des performances remarquables comparées aux approches classiques telles que la régression logistique et l'analyse discriminante. Cependant, ces méthodes présentent également des limitations, comme la sensibilité au bruit des données et la complexité des modèles. Cette étude souligne un intérêt crucial pour les praticiens et les décideurs financiers dans le but d'améliorer les pratiques de gestion du risque de crédit. Elle met en exergue l'importance croissante de l'apprentissage automatique dans ce domaine, tout en soulignant la nécessité de futures recherches empiriques pour valider ces résultats et surmonter les défis inhérents à ces approches. Cela permettrait d'optimiser encore davantage les performances et l'applicabilité de ces méthodes innovantes. Mots clés : MACHINE LEARNING , ANALYSE CREDIT ,ARBRE DE DECISION , RESEAU NEURONE ARTIFICIEL, K-PLUS PROCHE VOISIN (KPV)   Abstract The article undertakes a systematic review of various machine learning approaches in credit risk analysis, based on the examination of 20 specifically selected articles. The results highlight a diversity of machine learning approaches, such as decision trees, neural networks, and K-nearest neighbor (KNN) classification. An in-depth analysis reveals that some methods, particularly neural networks and decision trees, demonstrate superior accuracy and remarkable performance compared to classical approaches such as logistic regression and discriminant analysis. However, these methods also exhibit limitations, such as sensitivity to data noise and model complexity. This study emphasizes a crucial interest for practitioners and financial decision-makers aiming to enhance credit risk management practices. It underscores the increasing importance of machine learning in this domain while emphasizing the need for future empirical research to validate these findings and overcome the inherent challenges of these approaches. This would further optimize the performance and applicability of these innovative methods. Keywords: Machine learning, credit analysis, decision tree, artificial neural network, and K-nearest neighbor (KNN) classificationRésumé : L'article entreprend une revue systématique des diverses approches de l'apprentissage automatique dans l'analyse du risque de crédit, basée sur l'examen de 20 articles spécifiquement sélectionnés. Les résultats mettent en évidence une diversité d'approches de machine learning, telles que les arbres de décision, les réseaux de neurones et la classification K-plus proche voisin (KPV). Une analyse approfondie révèle que certaines méthodes, notamment les réseaux de neurones et les arbres de décision, affichent une précision supérieure et des performances remarquables comparées aux approches classiques telles que la régression logistique et l'analyse discriminante. Cependant, ces méthodes présentent également des limitations, comme la sensibilité au bruit des données et la complexité des modèles. Cette étude souligne un intérêt crucial pour les praticiens et les décideurs financiers dans le but d'améliorer les pratiques de gestion du risque de crédit. Elle met en exergue l'importance croissante de l'apprentissage automatique dans ce domaine, tout en soulignant la nécessité de futures recherches empiriques pour valider ces résultats et surmonter les défis inhérents à ces approches. Cela permettrait d'optimiser encore davantage les performances et l'applicabilité de ces méthodes innovantes. Mots clés : MACHINE LEARNING , ANALYSE CREDIT ,ARBRE DE DECISION , RESEAU NEURONE ARTIFICIEL, K-PLUS PROCHE VOISIN (KPV)   Abstract The article undertakes a systematic review of various machine learning approaches in credit risk analysis, based on the examination of 20 specifically selected articles. The results highlight a diversity of machine learning approaches, such as decision trees, neural networks, and K-nearest neighbor (KNN) classification. An in-depth analysis reveals that some methods, particularly neural networks and decision trees, demonstrate superior accuracy and remarkable performance compared to classical approaches such as logistic regression and discriminant analysis. However, these methods also exhibit limitations, such as sensitivity to data noise and model complexity. This study emphasizes a crucial interest for practitioners and financial decision-makers aiming to enhance credit risk management practices. It underscores the increasing importance of machine learning in this domain while emphasizing the need for future empirical research to validate these findings and overcome the inherent challenges of these approaches. This would further optimize the performance and applicability of these innovative methods. Keywords: Machine learning, credit analysis, decision tree, artificial neural network, and K-nearest neighbor (KNN) classificatio

International Journal Of Applied Management And Economics

Une exploration de l'architecture des réseaux de neurones pour la modélisation de la compositionnalité sémantique

Author: Cimpello Chloé
Publication venue: HAL CCSD
Publication date: 10/09/2015
Field of study

This dissertation presents an evaluation of a neural network model called autoencoder in order to capture the meaning of adjective-noun couples in English. This model works on the representation of words meaning by a vector countaining the index of the words' context lemmas. These indexes are assigned to lemmas according to their frenquency in our Wikipedia-extracted corpus. Our model is evaluated on similarity task between two adjective-noun couples, and then on a task of recomposition of adjective-noun couples vector from their separated components context vectors. These two task results were eventually compared to the following already existing models : the vectors sum (additive model), the weighted additive with a stronger rating on the noun vector, the baseline model where only the nouns vector is taken, and the multiplicative model (multiplication of vectors).Ce mémoire présente une évaluation du modèle de réseau de neurones, appelé autoencodeur, qui permet de capturer le sens de couples adjectif-nom en anglais. Ce modèle fonctionne sur la base de la représentation du sens des mots par un vecteur contenant les indices des lemmes constituant le contexte des mots en question. Ces indices sont attribués aux lemmes en fonction de leur fréquence dans notre corpus issu de Wikipédia. Notre modèle est évalué sur un test de similarité entre deux couples adjectif-nom puis sur un test de recomposition des vecteurs de contexte du couple adjectif-nom à partir des vecteurs de contexte de ses composants pris séparément. Les résultats de ces deux tâches est ensuite comparé aux modèles déjà existants suivants : l'addition de vecteurs (modèle additif), le modèle additif pondéré avec un coefficient plus fort sur le vecteur du nom, le modèle basique où seul le vecteur contexte du nom est pris en compte, et la multiplication de vecteurs (modèle multiplicatif)

Scientific Publications of the University of Toulouse II Le Mirail

Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnels

Author: Grégoire Francis
Publication venue
Publication date: 01/12/2017
Field of study

Les corpus parallèles sont cruciaux pour le bon fonctionnement des applications multilingues du traitement automatique du langage naturel. Comme ils sont des ressources essentielles, le nombre limité de corpus parallèles, que nous trouvons pour un nombre relativement faible de paires de langues sur très peu de domaines spécifiques, est problématique pour le développement des applications de traitement automatique du langage naturel. L'extraction de phrases parallèles est une tâche qui s'attaque directement au problème de manque de données en extrayant des phrases parallèles depuis l'importante quantité d'articles multilingues retrouvés sur le Web. Dans ce mémoire, nous proposons un système d'extraction de phrases parallèles qui mesure la relation de traduction entre les phrases dans deux langues. Notre système est une approche basée sur des réseaux de neurones récurrents bidirectionnels qui peut apprendre les représentations des phrases dans un espace vectoriel conjoint en maximisant explicitement la similarité entre les phrases parallèles. Contrairement aux approches précédentes, en exploitant ces représentations vectorielles continues des phrases nous enlevons le besoin d'utiliser plusieurs modèles et toute ingénierie de traits spécifiques. Notre approche s'entraîne directement avec des paires de phrases et s'adapte facilement à une grande quantité de données. Des expériences sur des corpus parallèles bruités montrent que notre approche surpasse un système de référence à l'état de l'art. Pour justifier l'utilité de notre approche, nous ajoutons les paires de phrases extraites des articles de Wikipédia à un corpus parallèle pour entraîner des systèmes de traduction automatique et nous obtenons une amélioration de la performance de traduction. Nos résultats empiriques nous amènent à croire que notre système est un outil prometteur pour créer de nouvelles ressources multilingues alignées.Parallel corpora are a prerequisite for many multilingual natural language processing applications. As they are an invaluable resource, the limited amount of parallel data, which is only available for a relatively small number of language pairs on very few specific domains, is problematic for scaling natural language processing applications. Parallel sentence extraction is a task addressing the data sparsity problem by extracting parallel sentences from the increasing amount of content-related multilingual articles on the World Wide Web. In this thesis, we propose a parallel sentence extraction system to measure the translational equivalence between sentences in two languages. Our system is a bidirectional recurrent neural network based approach that can learn sentence representations in a shared vector space by explicitly maximizing the similarity between parallel sentences. In contrast to previous approaches, by leveraging these continuous vector representation of sentences we remove the need to rely on multiples models and any specific feature engineering. Our approach can be efficiently trained with raw sentence pairs and is scalable to large amount of data. Experiments on noisy parallel corpora show that our approach outperforms a state-of-the-art baseline. To justify the utility of our approach, we add the sentence pairs extracted from Wikipedia articles to a parallel corpus to train machine translation systems and show improvement in translation performance. Our experimental results lead us to believe that our system is a promising tool to create new aligned multilingual resources

Dépôt Institutionnel Numérique

Au-delà de la cooccurrence binaire… Poly-cooccurrences et trames de cooccurrence

Author: Martinez William
Publication venue: 'Korean Association of Corpus Linguistics'
Publication date: 27/06/2013
Field of study

Récurrente sous différentes formes dans le domaine de la lexicométrie, l’analyse cooccurrentielle vise à dévoiler les attractions lexicales qui opèrent dans un texte en restituant un état intermédiaire entre la séquence textuelle et l’inventaire lexical, état qui doit combiner l’explicitation syntagmatique de l’une avec la hiérarchisation statistique de l’autre. Pour dépasser les résultats des méthodes de cooccurrence classiques et identifier des systèmes cooccurrentiels plus complexes à l’oeuvre dans le texte, il s’avère nécessaire de substituer à l’approche analytique des associations lexicales une vue synthétique de ces attractions prééminentes en contexte.Beyond Binary Co-occurrence… Poly-Co-occurrences and Co-occurrence Threads. Recurring under various guises in the area of textual statistics, co-occurrential analysis aims to unveil lexical attractions which operate in text by rendering an intermediary state situated somewhere between textual sequence and lexical inventory. This state should combine the former’s explicit syntagmatic organizing and the latter’s statistical ranking. In order to transcend the results of classic methods of co-occurrence and identify more complex co-occurrential systems at work in text, it proves necessary to substitute the analytic approach of lexical associations with a synthetic view of these prominent attractions in context

OpenEdition

Advances and trends in automatic speech recognition

Author: MARIANI (J.)
Publication venue: GRETSI, Saint Martin d'Hères, France
Publication date: 01/01/1990
Field of study

This paper aimts at giving an overview of récent advances in the domain of Speech Recognition . The paper mainly focttses on Speech Recognition, but also mentions some progress in other areas of Speech Processing (spea er recognition, speech synthesis, speech analysis and coding) using similar methodologies. It first gives a view of what the problems related to aulomatic speech processing are, and then describes the initial approaches that have been followed in order to address Chose problems . It then introduces thé methodological novelties that allowed for progress along three axes : from isolated-word recognition to continuous speech, from spea er-dependent recognition to spea er-independent, and from small vocabularies to large rocabularies. Special emphasis centers on tlie improvements made possible by Mar ov Models . and, more recently, hy Connectionist Models, resulting in progress simultaneously obtained along the above différent axes, in improved performance for difficult vocabularies, or in more robust systems . Some specialised hardware is also described, as well as the efforts aimed ai assessing Speech Recognition systems.Le but de cet article est de donner un aperçu des progrès récents obtenus dans le domaine de la reconnaissance automatique de la parole . Il traite essentiellement de la reconnaissance vocale, mais mentionne également les progrès réalisés dans d'autres domaines du Traitement Automatique de la Parole (Reconnaissance du Locuteur, Synthèse de Parole . Analyse et Codage), qui utilisent des méthodes voisines. Ensuite, sont introduites les nouveautés méthodologiques qui ont permis des progrès suivant trois axes : des mots isolés vers la parole continue, de la reconnaissance monolocuteur vers la reconnaissance multilocuteur, et des petits vocabulaires vers les grands vocabulaires . Une mention spéciale est accordée aux améliorations qui ont été rendues possibles par les Modèles Mar oviens, et, plus récemment, par les Modèles Connexionnistes . Ces méthodes ont conduit à des progrès obtenus concurremment suivant plusieurs axes, à des performances meilleures sur les vocabulaires difficiles, ou à des systèmes plus robustes . Quelques matériels spécialisés sont également décrits, ainsi que les efforts qui ont été consentis dans le but d'évaluer la qualité des systèmes de reconnaissanc

I-Revues

Re-BERT OQA : un système de question-réponse dans le domaine ouvert

Author: Farvacque Dylan
Publication venue
Publication date: 01/08/2020
Field of study

RÉSUMÉ : Dans le présent mémoire, nous abordons la tâche de question-réponse dans le domaine ouvert, c’est-à-dire la tâche qui a pour but de répondre à une question en utilisant son corpus de connaissances (qu’il soit structuré ou non) comme seule ressource. Plus spécifiquement notre but est de proposer un système de question-réponse dans le domaine ouvert capable de répondre à des questions factuelles en utilisant Wikipédia comme corpus de connaissances. En général, ce genre de système se divise en deux modules. Le premier, responsable de la recherche d’information, permet de trouver des documents pertinents dans le corpus de connaissance. Le second, le module d’extraction de réponse, a pour objectif d’extraire des candidats de réponse provenant des documents précédemment sélectionnés puis de déterminer une réponse finale parmi les candidats. Dans les dernières années, les avancées dans le domaine de la compréhension de lecture automatique ont été une grande source d’inspiration pour le module d’extraction résultant en la création des systèmes de question-réponse dans le domaine ouvert les plus efficaces à ce jour.----------ABSTRACT : In this thesis, we tackle the Open Domain Question-Answering task, where the goal is to be able to answer a question using a knowledge source (either structured like DBpedia or unstructured such as Wikipedia). Specifically, our goal is to propose an open domain questionanswering system capable of answering factoid questions using Wikipedia as knowledge source. In general, these types of systems are divided in two sub-modules. The first one, responsible of the information retrieval step, enables the system to find relevant documents in its knowledge source. The second, the answer extraction module, extracts answer candidates from the previously selected documents and then determines the final answer within the candidates. In recent years, the progress achieved in the machine reading comprehension field has driven the development of improved answer extraction modules resulting in the creation of the best open domain question answering systems to date

PolyPublie

Les signatures neurobiologiques de la conscience

Author
Publication venue: 'EDP Sciences'
Publication date: 04/03/2022
Field of study

Dans le cadre de ses activités scientifiques, l’Académie Européenne Interdisciplinaire des Sciences a réuni durant la période 2016-2018, par l’intermédiaire de séminaires, conférences et colloque, divers spécialistes travaillant dans les domaines des neurosciences, de la psychologie cognitive, de l’intelligence artificielle, ou encore réfléchissant aux impacts sociétaux des avancées obtenues. Cet ouvrage est le fruit de toutes ces contributions et a pour ambition de présenter un certain nombre de résultats, de perspectives actuellement discernables, de points de vue concernant l’état des connaissances dans ces domaines avec un lien, parfois direct, parfois implicite, avec la question de la conscience. Une introduction générale, rédigée par le comité de lecture de l’AEIS, rappelle le contexte de l’émergence de ces résultats, perspectives et points de vue, dont le lecteur prendra connaissance dans le corps de l’ouvrage, qui comporte quatre parties : Travaux en neurosciences et psychologie expérimentale. Sciences cognitives et intelligence artificielle. Réflexions sur l’intelligence, la conscience et l’impact de l’IA sur les activités humaines. Synthèse des discussions de la table ronde tenue à l’issue du colloque de mars 2018. Un court épilogue rédigé par le comité de lecture met en avant des réflexions et questions qu’ont soulevé la lecture des différents chapitres de l’ouvrage et la prise de connaissance d’articles scientifiques foisonnants sur les travaux actuels pluridisciplinaires autour des interrogations liées à la conscience au sens large

Directory of Open Access Books (DOAB)

Vers une nouvelle approche basée sur l'apprentissage profond pour la classification des changements du code source par activités de maintenance

Author: Benjillali Marouane
Publication venue
Publication date: 01/07/2023
Field of study

« Le domaine du développement logiciel possède une vraie mine d'information qui est sous forme d'historique de changements appliqués aux logiciels pendant leur cycle de vie. En effet, cet historique dont une partie importante est publiquement accessible à partir des systèmes de contrôle de versions fait l'objet d'exploration et d'analyse scientifique à travers le domaine du forage des référentiels de logiciels (MSR pour Mining Software Repositories en anglais) dont le but est d'améliorer plusieurs aspects rencontrés par les parties prenantes pendant le développement d'un logiciel. Dans ce travail, nous nous sommes intéressés à la détermination des types d'activité de maintenance qui sont présents dans une modification du code source. Plusieurs études se sont intéressées à ce sujet, et l'ont traité en exploitant les informations fournies par un programmeur comme le message décrivant les changements effectués ainsi que le code modifié qui est sous forme d'ajout et suppression de lignes de code. Cependant, la majorité d'entre elles considèrent qu'un changement comprend un seul type d'activité de maintenance, ce qui n'est pas toujours vrai en pratique. Ensuite, dans leurs exploitations des données textuelles, ces études se limitent au message alors que ce dernier comprend souvent seulement une description du code modifié et non la raison du changement. Et puis, dans leurs approches, elles se limitent à étudier des projets utilisant le même langage de programmation. À travers cette étude, nous répondons à ces enjeux en proposant un modèle de classification par activités de maintenance basé sur des modèles en apprentissage profond, qui seront également responsables de l'extraction de caractéristiques, que ce soit à partir d'une information textuelle (le message et la proposition de changement) ou du code modifié, indépendamment de son langage de programmation. Nous proposons également un nouveau jeu de données pour cette tâche afin de répondre à un autre enjeu qui est la rareté des jeux de données disponibles. Ce jeu de données tient compte du fait qu'un changement peut appartenir à plusieurs classes de changements. L'architecture de notre modèle est composée d'un modèle préentrainé permettant la génération des représentations distribuées des données textuelles, en plus d'un classificateur sous forme d'un réseau de neurones qui prendra en entrée la sortie du modèle préentrainé en plus des caractéristiques qui concernent le code modifié. Notre approche, dont l'entraînement est basé sur un apprentissage par transfert, a donné des résultats encourageants non seulement sur notre jeu de données, mais aussi en ce qui concerne le support des jeux de données des travaux reliés.-- Mots-clés : Activités de maintenance, systèmes de contrôle de version, forage des référentiels de logiciels, apprentissage. »-- « Software development has a wealth of information in the form of a history of changes applied to software during its life cycle. Indeed, a part of this history, publicly accessible from version control systems, is the subject of exploration and scientific analysis through mining software repositories (MSR). MSR aims to facilitate and improve several aspects stakeholders encounter during software development. In this work, we are interested in determining the types of maintenance activity present in modifying the source code. Several studies have been interested in this subject and have dealt with it by exploiting the information provided by a programmer, like a message describing the changes made and the modified code in the form of added and removed lines of code. However, most consider that a change includes only one type of maintenance activity, which is not always accurate in practice. Also, in using textual data, these studies limit themselves to the message, which often includes only a description of the modified code and not the reason for the change. Additionally, their approaches limit themselves to studying projects that use the same programming language. Through this study, we respond to these challenges by proposing a classification model by maintenance activities based on deep learning models. It will also be responsible for feature extraction, whether from textual information (message and issue description) or modified code, regardless of its programming language. We also provide a new dataset for this task to address another issue: the scarcity of available datasets. This dataset takes into account the fact that a change can belong to several classes of changes. The architecture of our model is composed of a pre-trained model allowing the generation of distributed representations of textual data, in addition to a classifier in the form of a neural network. This network inputs are the output of the pre-trained model and the characteristics related to the modified code. Our approach, whose training is based on transfer learning, has given encouraging results not only on our dataset but also on the support of related work datasets.-- Keywords : Maintenance activities, version control systems, software repository mining, deep learning, transfer learning, distributed representation, classification. »-

Sémaphore

The Organizational Information System (OIS), object and medium of learning (In French)

Author: Sandrine DARAUT (GRES-LEREPS)
Publication venue
Publication date
Field of study

Is it possible to consider that the Organizational Information System (OIS) allows to articulate individual and organizational dynamics of learning ? Our aim is to answer the central question, in economics, of the cognitive transfers between the individual and the organization as a collective action build-up. From this point of view, the OIS considered as a collective artefact making it possible to store, communicate and treat the results of the learning processes is registered in a dialectics collective memory (stock) / individual memorization (communication, data processing). Therefore, within the framework of the interindividual coordination through the double relation ; with the technical implement and the community of practice we can show that technico-organizational trajectories can structure themselves. Such dynamics take their meaning around a selective appropriation of knowledge and technologies by the members of the organization and in the production and the reproduction of the social structures via a situated mobilization of the rules and resources, in action.perceptions, knowledge, competences, learning, OIS, coordination, trust

Research Papers in Economics