Search CORE

11 research outputs found

Estimation non-paramétrique du quantile conditionnel et apprentissage semi-paramétrique : Applications en assurance et actuariat

Author: knefati Muhammad Anas
Publication venue: HAL CCSD
Publication date: 19/11/2015
Field of study

The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter.Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernelsw.r.t.x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters. Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data.La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring

Thèses en Ligne

Nonparametric estimation of conditional quantile and semi-parametric learning : applications on insurance and actuarial data

Author: Knefati Muhammad Anas
Publication venue
Publication date: 19/11/2015
Field of study

La thèse se compose de deux parties : une partie consacrée à l'estimation des quantiles conditionnels et une autre à l'apprentissage supervisé. La partie "Estimation des quantiles conditionnels" est organisée en 3 chapitres : Le chapitre 1 est consacré à une introduction sur la régression linéaire locale, présentant les méthodes les plus utilisées, pour estimer le paramètre de lissage. Le chapitre 2 traite des méthodes existantes d’estimation nonparamétriques du quantile conditionnel ; Ces méthodes sont comparées, au moyen d’expériences numériques sur des données simulées et des données réelles. Le chapitre 3 est consacré à un nouvel estimateur du quantile conditionnel et que nous proposons ; Cet estimateur repose sur l'utilisation d'un noyau asymétrique en x. Sous certaines hypothèses, notre estimateur s'avère plus performant que les estimateurs usuels. La partie "Apprentissage supervisé" est, elle aussi, composée de 3 chapitres : Le chapitre 4 est une introduction à l’apprentissage statistique et les notions de base utilisées, dans cette partie. Le chapitre 5 est une revue des méthodes conventionnelles de classification supervisée. Le chapitre 6 est consacré au transfert d'un modèle d'apprentissage semi-paramétrique. La performance de cette méthode est montrée par des expériences numériques sur des données morphométriques et des données de credit-scoring.The thesis consists of two parts: One part is about the estimation of conditional quantiles and the other is about supervised learning. The "conditional quantile estimate" part is organized into 3 chapters. Chapter 1 is devoted to an introduction to the local linear regression and then goes on to present the methods, the most used in the literature to estimate the smoothing parameter. Chapter 2 addresses the nonparametric estimation methods of conditional quantile and then gives numerical experiments on simulated data and real data. Chapter 3 is devoted to a new conditional quantile estimator, we propose. This estimator is based on the use of asymmetrical kernels w.r.t. x. We show, under some hypothesis, that this new estimator is more efficient than the other estimators already used. The "supervised learning" part is, too, with 3 chapters: Chapter 4 provides an introduction to statistical learning, remembering the basic concepts used in this part. Chapter 5 discusses the conventional methods of supervised classification. Chapter 6 is devoted to propose a method of transferring a semiparametric model. The performance of this method is shown by numerical experiments on morphometric data and credit-scoring data

Theses.fr

Visualizing Linguistic Complexity and Proficiency in Learner English Writings

Author: Gaillat Thomas
Knefati Anas
Lafontaine Antoine
Publication venue: Calico
Publication date: 25/05/2023
Field of study

International audienceIn this article, we focus on the design of a second language (L2) formative feedback system that provides linguistic complexity graph reports on the writings of English for special purposes students at the university level. The system is evaluated in light of formative instruction features pointed out in the literature. The significance of complexity metrics is also evaluated. A learner corpus of English classified according to the Common European Framework of References for Languages (CEFR) was processed using a pipeline that computes 83 complexity metrics. By way of analysis of variance (ANOVA) testing, multinomial logistic regression, and clustering methods, we identified and validated a set of nine significant metrics in terms of proficiency levels. Validation with classification gave 67.51% (A level), 60.16% (B level), and 60.47% (C level) balanced accuracy. Clustering showed between 53.10% and 67.37% homogeneity, depending on the level. As a result, these metrics were used to create graphical reports about the linguistic complexity of learner writing. These reports are designed to help language teachers diagnose their students’ writings in comparison with prerecorded cohorts of different proficiencies

HAL-Rennes 1

Exploitation de mesures de complexité linguistique pour la visualisation de textes d’apprenants d’anglais

Author: Gaillat Thomas
Knefati Anas
Lafontaine Antoine
Publication venue: HAL CCSD
Publication date: 23/04/2021
Field of study

International audienceLes étudiants de LANgues pour Spécialistes d'Autres Disciplines (LANSAD) arrivent à l’université avec des niveaux très hétérogènes. Ils sont inscrits dans des parcours d’étude spécialisés laissant peu de place à l’apprentissage de leur langue étrangère. Dans ce contexte, des stratégies de regroupement par niveau sont mises en œuvre par les centres de langues afin d’ajuster les contenus en fonction des profils d’étudiants. Cependant, si l'approche par groupe permet une adaptation par profils, elle ne permet pas une individualisation nécessaire des enseignements. Individualiser les enseignements implique notamment de mettre les apprenants en situation de production le plus fréquemment possible. Cela permet aux enseignants de les renseigner sur leur progression et de leur fournir des recommandations. Or les volumes horaires et les effectifs ne permettent pas aux enseignants d’offrir des corrections individualisées répétitives et systématiques. Au cours de leurs semestres, les étudiants ne sont pas en mesure d’effectuer suffisamment d’expressions écrites qui soient accompagnées de retours qualitatifs rapides et précis (Li & Vuono, 2019; Shute, 2008). Les étudiants se trouvent projetés dans un système d’évaluations purement sommatives au détriment d’une évaluation formative, pourtant davantage gage de motivation. Ils n’arrivent donc pas à objectiver leur progression.Notre question de recherche porte donc sur l’exploitation de mesures textuelles permettant des comparaisons visuelles entre apprenants classés en fonction des niveaux du Cadre Européen Commun de Référence en Langues (CECR) (Conseil de l’Europe, 2018). A partir d’un corpus de 274 textes écrits par des apprenants LANSAD et annotés en niveaux CECR, on constitue un jeu de données étalon. Les données textuelles sont enrichies par annotation automatique (syntaxique et lexicale) (Manning et al., 2014) avant d’être formatées pour calculer des indicateurs de richesse linguistique (Benoit et al., 2018; Lu, 2010). A l’aide de méthodes statistiques (ANOVA et regression logistique), ces données sont modélisées en fonction des niveaux CECR. Le test de Fisher permet d’identifier les indicateurs les plus significatifs (p-value <0.05, n = 274). La classification des textes par regression logistique multinomiale sur trois classes A, B, C retourne une précision globale de 59.88 % . Ces indicateurs et données servent ensuite de référence comparative avec de nouveaux textes d’apprenants ayant subi le même traitement. Les étudiants sont alors en mesure de visualiser et comparer les profils linguistiques de leurs écrits avec l’étalon constitué (cf. Figure 1). La boîte à moustache du haut à droite montre que le texte de l’étudiant est parmi les plus riches, pour ce qui concerne le nombre de mots différents, comparé à la cohorte de textes de niveau B2. Bien que relativement limité, un tel système1 s’inscrit dans la dynamique des learning analytics en permettant des diagnostics rapides pour traiter de larges quantités d’écrits

HAL Descartes

Hal-Diderot

HAL-Rennes 1

Towards a Data Analytics Pipeline for the Visualisation of Complexity Metrics in L2 writings

Author: Gaillat Thomas
Knefati Anas
Lafontaine Antoine
Publication venue: HAL CCSD
Publication date: 20/04/2021
Field of study

International audienceWe present the design of a tool for the visualisation of linguistic complexity in second language (L2) learner writings. We show how metrics can be exploited to visualise complexity in L2 writings in relation to CEFR levels

HAL Descartes

Hal-Diderot

HAL-Rennes 1

Using Quantile Regression for Reclaiming Unused Cloud Resources while achieving SLA

Author: Barais Olivier
Boukhobza Jalil
Dartois Jean-Emile
Knefati Anas
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 10/12/2018
Field of study

International audienceAlthough Cloud computing techniques have reduced the total cost of ownership thanks to virtualization, the average usage of resources (e.g., CPU, RAM, Network, I/O) remains low. To address such issue, one may sell unused resources. Such a solution requires the Cloud provider to determine the resources available and estimate their future use to provide availability guarantees. This paper proposes a technique that uses machine learning algorithms (Random Forest, Gradient Boosting Decision Tree, and Long Short Term Memory) to forecast 24-hour of available resources at the host level. Our technique relies on the use of quantile regression to provide a flexible trade-off between the potential amount of resources to reclaim and the risk of SLA violations. In addition, several metrics (e.g., CPU, RAM, disk, network) were predicted to provide exhaustive availability guarantees. Our methodology was evaluated by relying on four in production data center traces and our results show that quantile regression is relevant to reclaim unused resources. Our approach may increase the amount of savings up to 20% compared to traditional approaches

HAL-CentraleSupelec

Crossref

INRIA a CCSD electronic archive server

HAL-Université de Bretagne Occidentale

HAL-Rennes 1

Investigating Machine Learning Algorithms for Modeling SSD I/O Performance for Container-based Virtualization

Author: Barais Olivier
Boukhobza Jalil
Dartois Jean-Emile
Knefati Anas
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2019
Field of study

International audienceOne of the cornerstones of the cloud provider business is to reduce hardware resources cost by maximizing their utilization. This is done through smartly sharing processor, memory, network and storage, while fully satisfying SLOs negotiated with customers. For the storage part, while SSDs are increasingly deployed in data centers mainly for their performance and energy efficiency, their internal mechanisms may cause a dramatic SLO violation. In effect, we measured that I/O interference may induce a 10x performance drop. We are building a framework based on autonomic computing which aims to achieve intelligent container placement on storage systems by preventing bad I/O interference scenarios. One prerequisite to such a framework is to design SSD performance models that take into account interactions between running processes/containers, the operating system and the SSD. These interactions are complex. In this paper, we investigate the use of machine learning for building such models in a container based Cloud environment. We have investigated five popular machine learning algorithms along with six different I/O intensive applications and benchmarks. We analyzed the prediction accuracy, the learning curve, the feature importance and the training time of the tested algorithms on four different SSD models. Beyond describing modeling component of our framework, this paper aims to provide insights for cloud providers to implement SLO compliant container placement algorithms on SSDs. Our machine learning-based framework succeeded in modeling I/O interference with a median Normalized Root-Mean-Square Error (NRMSE) of 2.5%

HAL-CentraleSupelec

INRIA a CCSD electronic archive server

HAL-Université de Bretagne Occidentale

HAL-Rennes 1

Un système de diagnostique linguistique chez les apprenants d'anglais pour favoriser l'engagement et l'égalité des chances des étudiants dans le supérieur ?

Author: Challah Rana
Gaillat Thomas
Hamon Claude
Knefati Anas
Lafontaine Antoine
Publication venue: HAL CCSD
Publication date: 05/03/2020
Field of study

International audienceCréer les conditions qui favorisent l'engagement cognitif, la persévérance et la réussite des étudiantsdemeure un défi de l'enseignement supérieur (Miller et al., 1996 ; Pirot et De Ketele, 2000 ; Bowden etal., 2019). Le rôle de l'enseignant consiste, entre autres, à aider l'étudiant à interagir avec le contenuet à créer ses propres connaissances.Nous nous intéressons au projet VisLinguistique, lauréat l'AMI 2018 DUNE-DESIR[1]. Il s'agit d'uneexpérimentation en cours à l'université de X avec des étudiants d'anglais non spécialistes. Du fait desressources limitées en encadrement dans les centres de langue, les étudiants se voient proposer unnombre limité de tâches écrites de type formatif. Cela induit un biais d'égalité au regard d'étudiantspouvant compenser ces lacunes sur ressources propres. Le projet propose un système de diagnosticslinguistiques automatisés avec retour quasi-immédiat sur le niveau de performance. Au plan del'enseignement, il s'agit de « bénéficier de l'automatisation des procédures pour multiplier lesévaluations formatives et accompagner les étudiants dans l'analyse de leurs productions. Ce systèmevise au développement d'une réflexivité sur les apprentissages » (Ballier, et al., 2019). En quoil'utilisation de ce dispositif et de ces ressources pédagogiques spécifiques peut-elle stimulerl'engagement cognitif de l'étudiant ? Cette utilisation, peut-elle suffire pour établir une égalité « deschances » qui entraîne idéalement une « égalité des places » (Dubet, 2011) ? Nous analysons leprocessus d'accompagnement via une approche qualitative (Yin, 2009). Notre travail sera étayé parune analyse de contenu (Bardin, 2013) fondée sur des données recueillies en séries temporelles(Kendal et Ord, 1993) et d'entretiens avec l'enseignant et les étudiants. Cela nous permettra decomprendre l'impact de ce dispositif sur l'engagement, la réussite et « l'égalité des places »

HAL-Université de Bretagne Occidentale

HAL Descartes

Hal-Diderot

HAL-Rennes 1

Le Corpus d'Étude des Langues Vivantes Appliquées à une Spécialité (CELVA.Sp) source de visualisations linguistiques

Author: Challah Rana
Dumont Bénédicte
Gaillat Thomas
Hamon Claude
Janvier Pascale
Knefati Anas
Lafontaine Antoine
Publication venue: HAL CCSD
Publication date: 12/12/2019
Field of study

International audienceThis paper presents the design of a Language for Specific Pur-poses(LSP) Corpus and its exploitation as a source for real-time visuali-sation of linguistic complexity in learner writings. The corpus is provided with a Natural Language Processing (NLP) tool, called VizLing, used to compute and visualise complexity metrics. The resulting data set is made up of learner writings, metadata and complexity metrics.Les enseignements LANSAD à l’université varient qualitativement. Du fait de facteurs structurels—tels que de larges effectifs, des volumes horaires annuels minimalistes et la dépendance à des statuts précaires—les équipes pédagogiques parfois peu pérennes sont difficilement en mesure d’organiser les étudiants en cohortes autour de programmes pluriannuels aux objectifs détaillés et cohérents. Ces difficultés se retrouvent notamment dans les objectifs linguistiques. Ceux-ci sont en général définis de manière individuelle et au regard de contenus propres à chaque groupe. Cela favorise des approches adaptées aux groupes mais manquant de perspective globale concernant les étapes linguistiques à franchir dans l’apprentissage d’une langue de spécialité. Il conviendrait d’élaborer des programmes incluant des objectifs linguistiques par niveau et domaine spécialisé (Petit, 2010). Une méthode pourrait reposer sur l’exploitation de corpus d’apprenants (Granger, 1994).Cet article vise à décrire un corpus LANSAD recueilli à l’université de X auprès de publics scientifiques dans des domaines allant des sciences informatiques aux sciences de la santé, en L2 anglais, espagnol et allemand. Il contient 398 textes écrits descriptifs et argumentatifs (82 594 tokens) s’articulant autour d’une tâche unique. Grâce à une interface MOODLE, les métadonnées recueillies comprennent notamment des données comportementales et le niveau CECRL obtenu au DIALANG (Alderson & Huhta, 2005). En outre, les textes anglais sont annotés en niveaux CECRL par deux experts. Un test d’accord inter-annotateur a révélé une homogénéité satisfaisante (weighted Kappa = 0.71, n=50). Ce corpus permet l’analyse linguistique de la langue et la mise en évidence de traits linguistiques corrélés aux niveaux d’apprenants (Hawkins & Filipović, 2012). Dans le cadre du LANSAD, son usage permet d’établir une cartographie des traits en fonction des domaines spécialisés, et par la même de formaliser des stades d’interlangue par domaine. De véritables programmes linguistiques LANSAD pourraient voir le jour grâce à des approches ‘corpus driven’ (Boulton, 2017)

HAL Descartes

HAL-Rennes 1

Les technologies numériques et la transformation pédagogique

Author: Bouillard Noe
Caroff Charleyne
Challah Rana
Chusseau Elsa
Delalande Pascaline
Gaillat Thomas
Knefati Anas
Lafontaine Antoine
Leboucher Caroline
Melayers Lucie
Messina Virginie
Serreau Matthieu
Tardif Laurent
Wong Hee Kam Olivier
Publication venue: Presses des mines
Publication date: 23/06/2022
Field of study

International audienc

HAL Descartes