Using the Web as a Linguistic Resource to Automatically Correct Lexico-Syntactic Errors

Abstract

This paper presents an algorithm for correcting language errors typical of second-language learners. We focus on preposition errors, which are very common among second-language learners but are not addressed well by current commercial grammar correctors and editing aids. The algorithm takes as input a sentence containing a preposition error (and possibly other errors as well), and outputs the correct preposition for that particular sentence context. We use a two-phase hybrid rule-based and statistical approach. In the first phase, rule-based processing is used to generate a short expression that captures the context of use of the preposition in the input sentence. In the second phase, Web searches are used to evaluate the frequency of this expression, when alternative prepositions are used instead of the original one. We tested this algorithm on a corpus of 133 French sentences written by intermediate second-language learners, and found that it could address 69.9% of those cases. In contrast, we found that the best French grammar and spell checker currently on the market,Antidote, addressed only 3% of those cases. We also showed that performance degrades gracefully when using a corpus of frequent n-grams to evaluate frequencies.Ce document pr\ue9sente un algorithme corrigeant les erreurs linguistiques repr\ue9sentatives des \ue9l\ue8ves en langues secondes. Nous nous concentrons sur les erreurs touchant les pr\ue9positions, tr\ue8s r\ue9pandues chez les personnes qui apprennent une langue seconde, mais dont les correcteurs grammaticaux commerciaux et les aides \ue0 l'\ue9dition actuels ne tiennent pas bien compte. Cet algorithme utilise comme intrant une phrase contenant une erreur de pr\ue9position (et peut-\ueatre d'autres erreurs) et il produit la pr\ue9position appropri\ue9e pour le contexte de cette phrase en particulier. Nous appliquons une m\ue9thode hybride en deux phases fond\ue9e sur des r\ue8gles et sur les statistiques. Au cours de la premi\ue8re phase, un traitement fond\ue9 sur des r\ue8gles est utilis\ue9 afin de g\ue9n\ue9rer une courte expression qui saisit le contexte d'utilisation de la pr\ue9position dans la phrase de d\ue9part. Au cours de la deuxi\ue8me phase, des recherches Web sont utlis\ue9es afin d'\ue9valuer la fr\ue9quence de cette expression, lorsque d'autres pr\ue9positions sont utlis\ue9es au lieu de la pr\ue9position initiale. Nous avons test\ue9 cet algorithme sur un corpus de 133 phrases en fran\ue7ais \ue9crites par des personnes apprenant une seconde langue au niveau interm\ue9diaire, et nous avons trouv\ue9 que ce processus peut r\ue9soudre 69,9 % de ces cas. Par comparaison, nous avons trouv\ue9 que le meilleur correcteur orthographique et grammatical sur le march\ue9 \ue0 l'heure actuelle, Antidote, ne r\ue9sout que 3 % de ces cas. Nous avons aussi montr\ue9 que le rendement se d\ue9grade progressivement lorsqu'on traite un corpus de n-grammes fr\ue9quents afin d'\ue9valuer les fr\ue9quences.NRC publication: Ye

    Similar works

    Full text

    thumbnail-image