Mark my words ! On the automated prediction of lexical difficulty for foreign language readers

Abstract

The goal of this doctoral research is to automatically predict difficult words in a text for non-native speakers. This prediction is crucial because good text comprehension is strongly determined by vocabulary. If a text contains too high a percentage of unknown words, the reader is likely to struggle to understand it. In order to provide good support to the non-native reader, we must first be able to predict the number of difficult words. Usually, we do this manually based on expertise or prior vocabulary tests. However, such methods are not practical when we are reading in a computer-based environment such as a tablet or an online learning platform. In these cases, we need to properly automate the predictions. The thesis is divided into three parts. The first part contains a systematic review of the relevant scientific literature. The synthesis includes 50 years of research and 140 peer-reviewed publications on the statistical prediction of lexical competence in non-native readers. Among other things, the analyses show that the scientific scope is divided into two fields of research that have little connection with each other. On the one hand, there is a long tradition of experimental research in foreign language acquisition (SLA) and computer-assisted language learning (CALL). These experimental studies mainly test the effect of certain factors (e.g., repeating difficult words or adding electronic glosses) on learning unrecognized words during reading. On the other hand, recent studies in natural language processing (NLP) rely on artificial intelligence to automatically predict difficult words. Moreover, the literature review points out some limitations that were further studied in this doctoral research. The first limitation is the lack of contextualized measures and predictions. Although we know from research that the context in which a word occurs is an important factor, predictions are often made based on isolated vocabulary tests, among other things. The second limitation is the lack of personalized measures and predictions. Although research in foreign language acquisition has shown that there are many differences among non-native readers, recent studies in artificial intelligence make predictions based on aggregate data. The final limitation is that the majority of studies (74%) focus on English as a foreign language. Consequently, the goal of this doctoral research is a contextualized and personalized approach and a focus on Dutch and French as foreign languages. The second part looks at two measures of lexical difficulty for non-native readers. On the one hand, it investigates how words are introduced in didactic reading materials labeled with CEFR levels. This study introduces a new graded lexical database for Dutch, namely NT2Lex (Tack et al., 2018). The innovative feature of this database is that the frequency per difficulty level was calculated for the meaning of each word, disambiguated based on the sentence context. However, the results show that there are important inconsistencies in how etymologically related translations occur in the Dutch and French databases. Therefore, this difficulty measure does not yet seem valid as a basis for an automated system. On the other hand, it is investigated how non-native speakers themselves perceive difficult words during reading. The perception of difficulty is important to predict because the learner's attention is a determining factor in the learning process (Schmidt, 2001). The study introduces new data for readers of French. An important goal of these data is to make correct predictions for all words in the text, which contrasts with studies in foreign language acquisition that focus on a limited number (Mdn = 22) of target words in the text. Moreover, the analyses show that the data can be used to develop a personalized and contextualized system. The final section looks at two types of predictive models developed on the aforementioned data, namely mixed-effects models and artificial neural networks. The results validate the idea that perceptions of lexical difficulty can be predicted primarily on the basis of "word surprisal", a central concept in information theory. Furthermore, the analyses show that commonly used performance statistics (such as accuracy and F-score) are sensitive to individual differences in rates of difficulty. Because these are therefore not appropriate for comparing predictions for different learners, the D and Phi coefficients are used. Moreover, the results clearly show that a personalized model makes significantly better predictions than a non-personalized model. On the other hand, the results show that a contextualized model can better discriminate difficulty, although these improvements are not always significant for each learner.L'objectif de cette recherche doctorale est la prédiction automatique des mots difficiles dans un texte pour les locuteurs non natifs. Cette prédiction est cruciale car une bonne compréhension d'un texte est fortement déterminée par le vocabulaire. Si un texte contient un pourcentage élevé de mots inconnus, le lecteur aura probablement des difficultés à comprendre le texte. Afin de fournir un bon soutien au lecteur de langue étrangère, nous devons d'abord être en mesure de prédire le nombre de mots difficiles. En général, nous le faisons manuellement en nous basant sur notre expertise ou sur des tests de vocabulaire antérieurs. Cependant, ces méthodes ne sont pas pratiques lorsque nous lisons dans un environnement informatique tel qu'une tablette ou une plateforme d'apprentissage en ligne. Dans ces cas, nous devons automatiser correctement les prédictions. La thèse est divisée en trois parties. La première partie contient un examen systématique de la littérature scientifique pertinente. La synthèse comprend 50 ans de recherche et 140 publications évaluées par des pairs sur la prédiction statistique de la compétence lexicale chez les lecteurs non natifs. Les analyses montrent, entre autres, que le champ scientifique est divisé en deux domaines de recherche peu connectés. D'une part, il existe une longue tradition de recherche expérimentale en matière d'acquisition de langues étrangères (SLA) et d'apprentissage des langues assisté par ordinateur (CALL). Ces études expérimentales testent principalement l'effet de certains facteurs (par exemple, la répétition de mots difficiles ou l'ajout de glosses électroniques) sur l'apprentissage de mots non familiers pendant la lecture. D'autre part, des études récentes sur le traitement du langage naturel (NLP) s'appuient sur l'intelligence artificielle pour prédire automatiquement les mots difficiles. En outre, l'étude de la littérature met en évidence certaines limites qui ont été approfondies dans le cadre de cette recherche doctorale. La première limite est le manque de mesures et de prédictions contextualisées. Bien que la recherche nous ait appris que le contexte dans lequel un mot apparaît est un facteur important, les prédictions sont souvent faites sur la base de tests de vocabulaire isolés, entre autres. La deuxième limite est le manque de mesures et de prédictions personnalisées. Bien que la recherche sur l'acquisition des langues étrangères ait montré qu'il existe de nombreuses différences entre les lecteurs non natifs, des études récentes en intelligence artificielle font des prédictions basées sur des données agrégées. La dernière limite est que la majorité des études (74%) se concentrent sur l'anglais en tant que langue étrangère. L'objectif de cette recherche doctorale est donc une approche contextualisée et personnalisée et une focalisation sur le néerlandais et le français comme langues étrangères. La deuxième partie examine deux mesures de la difficulté lexicale pour les lecteurs non natifs. D'une part, elle étudie la manière dont les mots sont introduits dans les matériels de lecture didactique étiquetés avec les niveaux du CECR. Cette étude introduit une nouvelle base de données lexicale graduée pour le néerlandais, à savoir NT2Lex (Tack et al., 2018). La caractéristique innovante de cette base de données est que la fréquence par niveau de difficulté a été calculée pour le sens de chaque mot, désambiguïsé sur la base du contexte de la phrase. Cependant, les résultats montrent qu'il existe d'importantes incohérences dans la manière dont les traductions étymologiquement liées apparaissent dans les bases de données néerlandaise et française. Par conséquent, cette mesure de difficulté ne semble pas encore valable comme base pour un système automatisé. D'autre part, on étudie comment les locuteurs non natifs perçoivent les mots difficiles pendant la lecture. La perception de la difficulté est importante à prévoir car l'attention de l'apprenant est un facteur déterminant dans le processus d'apprentissage (Schmidt, 2001). L'étude introduit de nouvelles données pour les lecteurs du français. Un objectif important de ces données est de faire des prédictions correctes pour tous les mots du texte, ce qui contraste avec les études sur l'acquisition des langues étrangères qui se concentrent sur un nombre limité (Mdn = 22) de mots cibles dans le texte. De plus, les analyses montrent que les données peuvent être utilisées pour développer un système personnalisé et contextualisé. La dernière section examine deux types de modèles prédictifs développés sur les données susmentionnées, à savoir les modèles à effets mixtes et les réseaux neuronaux artificiels. Les résultats valident l'idée que la perception de la difficulté lexicale peut être prédite principalement sur la base de la "surprise des mots", un concept central de la théorie de l'information. En outre, les analyses montrent que les statistiques de performance couramment utilisées (telles que la précision et le F-score) sont sensibles aux différences individuelles dans les taux de difficulté. Comme ceux-ci ne sont donc pas appropriés pour comparer les prédictions pour différents apprenants, les coefficients D et Phi sont utilisés. De plus, les résultats montrent clairement qu'un modèle personnalisé fait des prédictions nettement meilleures qu'un modèle non personnalisé. D'autre part, les résultats montrent qu'un modèle contextualisé peut mieux discriminer la difficulté, bien que ces améliorations ne soient pas toujours significatives pour chaque apprenant.(LALE - Langues et lettres) -- UCL, 202

    Similar works

    Full text

    thumbnail-image

    Available Versions