11 research outputs found

    Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : Applications en assurance et actuariat

    No full text
    The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter.Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernelsw.r.t.x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters. Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data.La thĂšse se compose de deux parties : une partie consacrĂ©e Ă  l'estimation des quantiles conditionnels et une autre Ă  l'apprentissage supervisĂ©. La partie "Estimation des quantiles conditionnels" est organisĂ©e en 3 chapitres : Le chapitre 1 est consacrĂ© Ă  une introduction sur la rĂ©gression linĂ©aire locale, prĂ©sentant les mĂ©thodes les plus utilisĂ©es, pour estimer le paramĂštre de lissage. Le chapitre 2 traite des mĂ©thodes existantes d’estimation nonparamĂ©triques du quantile conditionnel ; Ces mĂ©thodes sont comparĂ©es, au moyen d’expĂ©riences numĂ©riques sur des donnĂ©es simulĂ©es et des donnĂ©es rĂ©elles. Le chapitre 3 est consacrĂ© Ă  un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymĂ©trique en x. Sous certaines hypothĂšses, notre estimateur s'avĂšre plus performant que les estimateurs usuels. La partie "Apprentissage supervisĂ©" est, elle aussi, composĂ©e de 3 chapitres : Le chapitre 4 est une introduction Ă  l’apprentissage statistique et les notions de base utilisĂ©es, dans cette partie. Le chapitre 5 est une revue des mĂ©thodes conventionnelles de classification supervisĂ©e. Le chapitre 6 est consacrĂ© au transfert d'un modĂšle d'apprentissage semi-paramĂ©trique. La performance de cette mĂ©thode est montrĂ©e par des expĂ©riences numĂ©riques sur des donnĂ©es morphomĂ©triques et des donnĂ©es de credit-scoring

    Nonparametric estimation of conditional quantile and semi-parametric learning : applications on insurance and actuarial data

    No full text
    La thĂšse se compose de deux parties : une partie consacrĂ©e Ă  l'estimation des quantiles conditionnels et une autre Ă  l'apprentissage supervisĂ©. La partie "Estimation des quantiles conditionnels" est organisĂ©e en 3 chapitres : Le chapitre 1 est consacrĂ© Ă  une introduction sur la rĂ©gression linĂ©aire locale, prĂ©sentant les mĂ©thodes les plus utilisĂ©es, pour estimer le paramĂštre de lissage. Le chapitre 2 traite des mĂ©thodes existantes d’estimation nonparamĂ©triques du quantile conditionnel ; Ces mĂ©thodes sont comparĂ©es, au moyen d’expĂ©riences numĂ©riques sur des donnĂ©es simulĂ©es et des donnĂ©es rĂ©elles. Le chapitre 3 est consacrĂ© Ă  un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymĂ©trique en x. Sous certaines hypothĂšses, notre estimateur s'avĂšre plus performant que les estimateurs usuels. La partie "Apprentissage supervisĂ©" est, elle aussi, composĂ©e de 3 chapitres : Le chapitre 4 est une introduction Ă  l’apprentissage statistique et les notions de base utilisĂ©es, dans cette partie. Le chapitre 5 est une revue des mĂ©thodes conventionnelles de classification supervisĂ©e. Le chapitre 6 est consacrĂ© au transfert d'un modĂšle d'apprentissage semi-paramĂ©trique. La performance de cette mĂ©thode est montrĂ©e par des expĂ©riences numĂ©riques sur des donnĂ©es morphomĂ©triques et des donnĂ©es de credit-scoring.The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data

    Visualizing Linguistic Complexity and Proficiency in Learner English Writings

    No full text
    International audienceIn this article, we focus on the design of a second language (L2) formative feedback system that provides linguistic complexity graph reports on the writings of English for special purposes students at the university level. The system is evaluated in light of formative instruction features pointed out in the literature. The significance of complexity metrics is also evaluated. A learner corpus of English classified according to the Common European Framework of References for Languages (CEFR) was processed using a pipeline that computes 83 complexity metrics. By way of analysis of variance (ANOVA) testing, multinomial logistic regression, and clustering methods, we identified and validated a set of nine significant metrics in terms of proficiency levels. Validation with classification gave 67.51% (A level), 60.16% (B level), and 60.47% (C level) balanced accuracy. Clustering showed between 53.10% and 67.37% homogeneity, depending on the level. As a result, these metrics were used to create graphical reports about the linguistic complexity of learner writing. These reports are designed to help language teachers diagnose their students’ writings in comparison with prerecorded cohorts of different proficiencies

    Exploitation de mesures de complexitĂ© linguistique pour la visualisation de textes d’apprenants d’anglais

    No full text
    International audienceLes Ă©tudiants de LANgues pour SpĂ©cialistes d'Autres Disciplines (LANSAD) arrivent Ă  l’universitĂ© avec des niveaux trĂšs hĂ©tĂ©rogĂšnes. Ils sont inscrits dans des parcours d’étude spĂ©cialisĂ©s laissant peu de place Ă  l’apprentissage de leur langue Ă©trangĂšre. Dans ce contexte, des stratĂ©gies de regroupement par niveau sont mises en Ɠuvre par les centres de langues afin d’ajuster les contenus en fonction des profils d’étudiants. Cependant, si l'approche par groupe permet une adaptation par profils, elle ne permet pas une individualisation nĂ©cessaire des enseignements. Individualiser les enseignements implique notamment de mettre les apprenants en situation de production le plus frĂ©quemment possible. Cela permet aux enseignants de les renseigner sur leur progression et de leur fournir des recommandations. Or les volumes horaires et les effectifs ne permettent pas aux enseignants d’offrir des corrections individualisĂ©es rĂ©pĂ©titives et systĂ©matiques. Au cours de leurs semestres, les Ă©tudiants ne sont pas en mesure d’effectuer suffisamment d’expressions Ă©crites qui soient accompagnĂ©es de retours qualitatifs rapides et prĂ©cis (Li & Vuono, 2019; Shute, 2008). Les Ă©tudiants se trouvent projetĂ©s dans un systĂšme d’évaluations purement sommatives au dĂ©triment d’une Ă©valuation formative, pourtant davantage gage de motivation. Ils n’arrivent donc pas Ă  objectiver leur progression.Notre question de recherche porte donc sur l’exploitation de mesures textuelles permettant des comparaisons visuelles entre apprenants classĂ©s en fonction des niveaux du Cadre EuropĂ©en Commun de RĂ©fĂ©rence en Langues (CECR) (Conseil de l’Europe, 2018). A partir d’un corpus de 274 textes Ă©crits par des apprenants LANSAD et annotĂ©s en niveaux CECR, on constitue un jeu de donnĂ©es Ă©talon. Les donnĂ©es textuelles sont enrichies par annotation automatique (syntaxique et lexicale) (Manning et al., 2014) avant d’ĂȘtre formatĂ©es pour calculer des indicateurs de richesse linguistique (Benoit et al., 2018; Lu, 2010). A l’aide de mĂ©thodes statistiques (ANOVA et regression logistique), ces donnĂ©es sont modĂ©lisĂ©es en fonction des niveaux CECR. Le test de Fisher permet d’identifier les indicateurs les plus significatifs (p-value <0.05, n = 274). La classification des textes par regression logistique multinomiale sur trois classes A, B, C retourne une prĂ©cision globale de 59.88 % . Ces indicateurs et donnĂ©es servent ensuite de rĂ©fĂ©rence comparative avec de nouveaux textes d’apprenants ayant subi le mĂȘme traitement. Les Ă©tudiants sont alors en mesure de visualiser et comparer les profils linguistiques de leurs Ă©crits avec l’étalon constituĂ© (cf. Figure 1). La boĂźte Ă  moustache du haut Ă  droite montre que le texte de l’étudiant est parmi les plus riches, pour ce qui concerne le nombre de mots diffĂ©rents, comparĂ© Ă  la cohorte de textes de niveau B2. Bien que relativement limitĂ©, un tel systĂšme1 s’inscrit dans la dynamique des learning analytics en permettant des diagnostics rapides pour traiter de larges quantitĂ©s d’écrits

    Towards a Data Analytics Pipeline for the Visualisation of Complexity Metrics in L2 writings

    No full text
    International audienceWe present the design of a tool for the visualisation of linguistic complexity in second language (L2) learner writings. We show how metrics can be exploited to visualise complexity in L2 writings in relation to CEFR levels

    Using Quantile Regression for Reclaiming Unused Cloud Resources while achieving SLA

    Get PDF
    International audienceAlthough Cloud computing techniques have reduced the total cost of ownership thanks to virtualization, the average usage of resources (e.g., CPU, RAM, Network, I/O) remains low. To address such issue, one may sell unused resources. Such a solution requires the Cloud provider to determine the resources available and estimate their future use to provide availability guarantees. This paper proposes a technique that uses machine learning algorithms (Random Forest, Gradient Boosting Decision Tree, and Long Short Term Memory) to forecast 24-hour of available resources at the host level. Our technique relies on the use of quantile regression to provide a flexible trade-off between the potential amount of resources to reclaim and the risk of SLA violations. In addition, several metrics (e.g., CPU, RAM, disk, network) were predicted to provide exhaustive availability guarantees. Our methodology was evaluated by relying on four in production data center traces and our results show that quantile regression is relevant to reclaim unused resources. Our approach may increase the amount of savings up to 20% compared to traditional approaches

    Investigating Machine Learning Algorithms for Modeling SSD I/O Performance for Container-based Virtualization

    Get PDF
    International audienceOne of the cornerstones of the cloud provider business is to reduce hardware resources cost by maximizing their utilization. This is done through smartly sharing processor, memory, network and storage, while fully satisfying SLOs negotiated with customers. For the storage part, while SSDs are increasingly deployed in data centers mainly for their performance and energy efficiency, their internal mechanisms may cause a dramatic SLO violation. In effect, we measured that I/O interference may induce a 10x performance drop. We are building a framework based on autonomic computing which aims to achieve intelligent container placement on storage systems by preventing bad I/O interference scenarios. One prerequisite to such a framework is to design SSD performance models that take into account interactions between running processes/containers, the operating system and the SSD. These interactions are complex. In this paper, we investigate the use of machine learning for building such models in a container based Cloud environment. We have investigated five popular machine learning algorithms along with six different I/O intensive applications and benchmarks. We analyzed the prediction accuracy, the learning curve, the feature importance and the training time of the tested algorithms on four different SSD models. Beyond describing modeling component of our framework, this paper aims to provide insights for cloud providers to implement SLO compliant container placement algorithms on SSDs. Our machine learning-based framework succeeded in modeling I/O interference with a median Normalized Root-Mean-Square Error (NRMSE) of 2.5%

    Un systÚme de diagnostique linguistique chez les apprenants d'anglais pour favoriser l'engagement et l'égalité des chances des étudiants dans le supérieur ?

    No full text
    International audienceCréer les conditions qui favorisent l'engagement cognitif, la persévérance et la réussite des étudiantsdemeure un défi de l'enseignement supérieur (Miller et al., 1996 ; Pirot et De Ketele, 2000 ; Bowden etal., 2019). Le rÎle de l'enseignant consiste, entre autres, à aider l'étudiant à interagir avec le contenuet à créer ses propres connaissances.Nous nous intéressons au projet VisLinguistique, lauréat l'AMI 2018 DUNE-DESIR[1]. Il s'agit d'uneexpérimentation en cours à l'université de X avec des étudiants d'anglais non spécialistes. Du fait desressources limitées en encadrement dans les centres de langue, les étudiants se voient proposer unnombre limité de tùches écrites de type formatif. Cela induit un biais d'égalité au regard d'étudiantspouvant compenser ces lacunes sur ressources propres. Le projet propose un systÚme de diagnosticslinguistiques automatisés avec retour quasi-immédiat sur le niveau de performance. Au plan del'enseignement, il s'agit de « bénéficier de l'automatisation des procédures pour multiplier lesévaluations formatives et accompagner les étudiants dans l'analyse de leurs productions. Ce systÚmevise au développement d'une réflexivité sur les apprentissages » (Ballier, et al., 2019). En quoil'utilisation de ce dispositif et de ces ressources pédagogiques spécifiques peut-elle stimulerl'engagement cognitif de l'étudiant ? Cette utilisation, peut-elle suffire pour établir une égalité « deschances » qui entraßne idéalement une « égalité des places » (Dubet, 2011) ? Nous analysons leprocessus d'accompagnement via une approche qualitative (Yin, 2009). Notre travail sera étayé parune analyse de contenu (Bardin, 2013) fondée sur des données recueillies en séries temporelles(Kendal et Ord, 1993) et d'entretiens avec l'enseignant et les étudiants. Cela nous permettra decomprendre l'impact de ce dispositif sur l'engagement, la réussite et « l'égalité des places »

    Le Corpus d'Étude des Langues Vivantes AppliquĂ©es Ă  une SpĂ©cialitĂ© (CELVA.Sp) source de visualisations linguistiques

    No full text
    International audienceThis paper presents the design of a Language for Specific Pur-poses(LSP) Corpus and its exploitation as a source for real-time visuali-sation of linguistic complexity in learner writings. The corpus is provided with a Natural Language Processing (NLP) tool, called VizLing, used to compute and visualise complexity metrics. The resulting data set is made up of learner writings, metadata and complexity metrics.Les enseignements LANSAD Ă  l’universitĂ© varient qualitativement. Du fait de facteurs structurels—tels que de larges effectifs, des volumes horaires annuels minimalistes et la dĂ©pendance Ă  des statuts prĂ©caires—les Ă©quipes pĂ©dagogiques parfois peu pĂ©rennes sont difficilement en mesure d’organiser les Ă©tudiants en cohortes autour de programmes pluriannuels aux objectifs dĂ©taillĂ©s et cohĂ©rents. Ces difficultĂ©s se retrouvent notamment dans les objectifs linguistiques. Ceux-ci sont en gĂ©nĂ©ral dĂ©finis de maniĂšre individuelle et au regard de contenus propres Ă  chaque groupe. Cela favorise des approches adaptĂ©es aux groupes mais manquant de perspective globale concernant les Ă©tapes linguistiques Ă  franchir dans l’apprentissage d’une langue de spĂ©cialitĂ©. Il conviendrait d’élaborer des programmes incluant des objectifs linguistiques par niveau et domaine spĂ©cialisĂ© (Petit, 2010). Une mĂ©thode pourrait reposer sur l’exploitation de corpus d’apprenants (Granger, 1994).Cet article vise Ă  dĂ©crire un corpus LANSAD recueilli Ă  l’universitĂ© de X auprĂšs de publics scientifiques dans des domaines allant des sciences informatiques aux sciences de la santĂ©, en L2 anglais, espagnol et allemand. Il contient 398 textes Ă©crits descriptifs et argumentatifs (82 594 tokens) s’articulant autour d’une tĂąche unique. GrĂące Ă  une interface MOODLE, les mĂ©tadonnĂ©es recueillies comprennent notamment des donnĂ©es comportementales et le niveau CECRL obtenu au DIALANG (Alderson & Huhta, 2005). En outre, les textes anglais sont annotĂ©s en niveaux CECRL par deux experts. Un test d’accord inter-annotateur a rĂ©vĂ©lĂ© une homogĂ©nĂ©itĂ© satisfaisante (weighted Kappa = 0.71, n=50). Ce corpus permet l’analyse linguistique de la langue et la mise en Ă©vidence de traits linguistiques corrĂ©lĂ©s aux niveaux d’apprenants (Hawkins & Filipović, 2012). Dans le cadre du LANSAD, son usage permet d’établir une cartographie des traits en fonction des domaines spĂ©cialisĂ©s, et par la mĂȘme de formaliser des stades d’interlangue par domaine. De vĂ©ritables programmes linguistiques LANSAD pourraient voir le jour grĂące Ă  des approches ‘corpus driven’ (Boulton, 2017)
    corecore