199 research outputs found

    Getting rid of the Chi-square and Log-likelihood tests for analysing vocabulary differences between corpora

    Get PDF
    Log-likelihood and Chi-square tests are probably the most popular statistical tests used in corpus linguistics, especially when the research is aiming to describe the lexical variations between corpora. However, because this specific use of the Chi-square test is not valid, it produces far too many significant results. This paper explains the source of the problem (i.e., the non-independence of the observations), the reasons for which the usual solutions are not acceptable and which kinds of statistical test should be used instead. A corpus analysis conducted on the lexical differences between American and British English is then reported, in order to demonstrate the problem and to confirm the adequacy of the proposed solution. The last section presents the commands that can be used with WordSmith Tools, a very popular software for corpus processing, to obtain the necessary data for the adequate tests, as well as a very easy-to-use procedure in R, a free and easy to install statistical software, that performs these tests

    Représentation de l’espace et du temps dans le modèle situationnel construit par un lecteur

    Get PDF
    Depuis plus de vingt ans, un des défis majeurs de la psycholinguistique est de décrire la nature de la représentation mentale construite par un lecteur. Si cette question est à l’étude depuis tant d’années, c’est que, contrairement à d’autres processus comme l’accès lexical ou l’analyse syntaxique, la compréhension d’un texte est restée pendant longtemps un objet difficilement étudiable scientifiquement en raison du manque de rigueur dans sa définition et de l’absence de modèles suffisamment explicites. Tel n’est plus le cas aujourd’hui. Les chercheurs s’accordent, en effet, pourdéfinir la compréhension d’un texte comme la construction d’une représentation situationnelle qui combine les propositions extraites du texte à celles qui ont été réactivées en mémoire à long terme afin de constituer une représentation non du texte, mais de ce dont le texte parle. Parmi les multiples dimensions censées être représentées dans le modèle situationnel, l’espace et le temps sont certainement ceux qui ont retenu le plus d’attention. L’objet du présent travail est de confronter nos connaissances à propos du rôle de ceux-ci lors de la construction du modèle situationnel. Une telle analyse semble particulièrement fructueuse parce que le temps et l’espace ont été étudiés selon deux points de vues différents et pourtant complémentaires. L’étude du temps s’est focalisée principalement sur les moyens linguistiques permettant d’exprimer celui-ci dans les textes (p. ex. les adverbiaux temporels) et sur leur impact lors de la compréhension. Par contre, la manière dont les informations spatiales sont présentées dans un texte a retenu bien peu l’attention au profit de la question de savoir si et comment la multidimensionnalité de l’espace peut être reconstruite par le lecteur sur la base de la linéarité d’un texte. Un des objectifs spécifiques de ce travail est de proposer, sur la base de cette confrontation, de nouvelles hypothèses de recherches à propos du rôle des adverbiaux spatiaux lors de la construction du modèle situationnel. Un second objectif, tout aussi important, vise à déterminer comment les conclusions issues des recherches empiriques à propos de l’espace et du temps s’accordent avec les deux principales théories décrivant les processus cognitifs qui sous-tendent la compréhension : la conception constructiviste selon laquelle le lecteur cherche activement à construire un modèle situationnel et la conception mémorielle qui met l’accent sur les processus automatiques d’activation des connaissances à la source de ce même modèle.For more than twenty years, one of the major challenges faced by psycholinguistics has been to describe the nature of the mental representation a reader builds. This question has been studied for so many years because, contrary to other processes like lexical access or syntactic analysis, the comprehension of a text was long considered to be difficult to study scientifically as its definitions were not sufficiently rigorous. Today this is no longer the case. Researchers agree to define the comprehension of a text as the construction of a situation model which combines the propositions extracted from the text with those reactivated in long-term memory. This situation model is a representation of what the text is about, not of the text itself. Among the multiple dimensions supposedly represented in the situation model, space and time has aroused the most interest. The main objective of this paper is to confront our knowledge concerning the role of these two dimensions during the construction of the situation model in order to propose new hypotheses regarding the impact of spatial adverbials on this process. A second and equally important objective is determining how the conclusions resulting from empirical research about space and time fit in with the two main views describing the cognitive processes underlying comprehension: the constructivist and the memory-based views

    Recherche d’indices lexicosyntaxiques de segmentation et de liage par une analyse automatique de corpus

    Get PDF
    Cette étude emploie une technique automatique d’analyse de corpus pour tenter d’apporter un point de vue complémentaire à celui d’études plus qualitatives des indices de segmentation et de liage, tels que les expressions adverbiales, les connecteurs et les anaphores. L’étude vise tout particulièrement à déterminer s’il est possible de distinguer automatiquement dans des textes les phrases en situation de rupture de celles en situation de continuité et d’identifier les indices qui le permettent. L’identification des phrases en situation de (dis)continuité a été effectuée sur la base de la structuration configurationnelle des textes telle qu’elle est rendue « vi-lisible » par les sections et les paragraphes. Les indices potentiels analysés sont composés des n-grammes de lemmes et d’étiquettes morphosyntaxiques. Les analyses ont été effectuées sur trois collections de textes de genre différent : des entrées de Wikipédia, des articles de journaux et des romans. D’une manière générale, l’apprentissage supervisé s’est révélé relativement efficace, obtenant une exactitude allant de 64 % à 74 % alors que le hasard seul obtiendrait 50 %. Les indices les plus utiles pour la discrimination sont pour la plupart interprétables dans le cadre des travaux linguistiques sur les marques de segmentation et de liage. Si les performances de détection des paragraphes sont équivalentes dans les trois genres, on observe des différences importantes lorsqu’on compare les indices les plus utiles dans chaque genre. Après avoir discuté quelques-unes des limites de l’étude, la conclusion envisage la possibilité de prendre en compte d’une manière plus complète les indices liés à la coréférence, qui se sont révélés particulièrement utiles.This study uses an automated corpus analysis technique to try to provide a complementary point of view to that of more qualitative studies of segmentation and linking indices, such as adverbial expressions, connectors and anaphora. The study is specifically aimed at determining whether it is possible to automatically distinguish in texts sentences opening or not a discourse segment and to identify the indices that allow it. The identification of sentences in (dis)continuity situation was carried out on the basis of the segments made visible in the texts by means of the sections and paragraphs. The potential indices were n-grams of lemmas and part-of-speech tags. Analyses were conducted on three collections of texts of different genres: Wikipedia entries, newspaper articles and novels. In general, supervised learning has been relatively effective, with accuracy ranging from 64% to 74%, while chance alone would get 50%. The most useful indices for discrimination are for the most part interpretable in the context of the linguistic theory on segmentation and linking marks. While paragraph detection performance is equivalent in all three genres, there are significant differences when comparing the most useful indices in each genre. After discussing some of the limitations of the study, the conclusion considers the possibility of taking more fully into account the coreference indices, which have proved particularly useful

    Assessing EFL Speech: A Teacher-Focused Perspective

    Get PDF
    With the aim of better understanding the difficulties that non-native teachers of English as a foreign language (EFL) face when assessing oral skills, we conducted an educational training activity for in-service teachers, involving action research and reflective practice. In the first part, 27 non-native teachers were asked to use the scales of the Common European Framework of Reference for Languages (CEFR) to assess a number of authentic EFL speech samples taken from a learner corpus. Their assessment was examined quantitatively as well as qualitatively and compared to that of two native professional raters. While the analyses highlighted a good degree of agreement between the teachers as well as between the teachers and the experts, they also confirmed the often-observed tendency for non-native raters to be more severe in their evaluation of L2 performance than native raters. The results also indicated that teachers and native experts do not base their overall assessment on the same aspects of the spoken performance. For the second part of the study, we designed group activities and discussions to help the teachers reflect on their own practices and learn from those adopted by others. The analyses showed that the teachers did not feel well-equipped to assess speech and that they would benefit from appropriate training in this area

    Évaluation automatique de textes et cohésion lexicale

    Get PDF
    L’évaluation automatique de textes connaît actuellement un succès grandissant en raison de son importance dans le champ de l’éducation et, tout particulièrement, de l’apprentissage des langues étrangères. Si des systèmes efficaces ont été développés ces quinze dernières années, peu d’entre eux prennent en compte le niveau discursif. Récemment, quelques recherches ont proposé de remédier à cette lacune au moyen de mesures automatiques de la cohésion lexicale obtenues à partir d’une analyse sémantique latente, mais les résultats n’ont pas été conformes aux attentes. En s’inspirant d’un modèle bien connu de l’expertise rédactionnelle, la présente recherche propose d’employer un nouvel indice de cohésion dérivé des travaux en segmentation thématique de textes. L’efficacité de cet index est confirmée au travers de l’analyse d’un corpus de 223 textes d’apprenants de l’anglais comme langue étrangère. La conclusion discute les limitations principales de cette étude exploratoire et propose des pistes de développement.Automatic essay grading is currently experiencing a growing popularity because of its importance in the field of education and, particularly, in foreign language learning. While several efficient systems have been developed over the last fifteen years, almost none of them take the discourse level into account. Recently, a few studies proposed to fill this gap by means of automatic indexes of lexical cohesion obtained from Latent Semantic Analysis, but the results were disappointing. Based on a well-known model of writing expertise, the present study proposes a new index of cohesion derived from work on the thematic segmentation of texts. The efficiency of this index is supported through the analysis of a corpus of 223 essays of learners of English as a foreign language. The conclusion discusses the main limitations of this exploratory study and proposes further avenues for development

    Checking and bootstrapping lexical norms by means of word similarity indexes

    Full text link
    In psychology, lexical norms related to the se- mantic properties of words, such as concreteness and va- lence, are important research resources. Collecting such norms by asking judges to rate the words is very time consuming, which strongly limits the number of words that compose them. In the present article, we present a technique for estimating lexical norms based on the latent semantic analysis of a corpus. The analyses conducted emphasize the technique’s effectiveness for several semantic dimensions. In addition to the extension of norms, this technique can be used to check human ratings to identify words for which the rating is very different from the corpus-based estimate

    Simplification et normalisation en traduction: Evaluation d'une prédiction à propos de l'emploi des collocations par l'analyse automatique d'un corpus parallèle et comparable

    No full text
    Un des objectifs principaux de la traductologie de corpus est de décrire les différences entre les textes traduits et les textes non traduits. Parmi les traits mis en évidence, la simplification et la normalisation sont susceptibles d'affecter la présence d'expressions phraséologiques dont l'importance dans l'emploi du langage est bien établie. Durant ces quinze dernières années, plusieurs études ont été menées afin d'évaluer l'hypothèse selon laquelle les traducteurs auraient tendance à suremployer des collocations fréquentes dans la langue cible au détriment des collocations rares, souvent plus créatives. Elles ont abouti à des conclusions contradictoires, mais, surtout, elles ont été menées sur un nombre très limité de séquences phraséologiques, faisant planer un doute sur la possibilité de généraliser les conclusions. La présente recherche a pour objectif de tester cette prédiction au moyen d'une analyse totalement automatique d'un corpus parallèle et comparable. La méthode proposée consiste à extraire d'un texte traduits ou non traduits toutes les séquences de deux mots consécutifs et à les rechercher dans un vaste corpus de référence natif afin de leur attribuer deux scores d'associations, l'un privilégiant les collocations observées très fréquemment dans la langue alors que l'autre privilégie les collocations nettement plus rares. L'analyse de la section journalistique du corpus PLECI met en évidence, tant en français qu'en anglais, des différences statistiquement significatives entre les textes traduits et non traduits en accord avec l'hypothèse, mais les tailles d'effet sont faibles

    The Textometer - a Tool for the Study of the Structure of a Discourse and its Marking : A) Presentation and Justification of a New Task for the Study of the Discourse Structure

    No full text
    In order to uncover the structure of a discourse or to validate some hypotheses about it, researchers classically ask judges to segment the text. The analysis of the answers of a large number of judges allows the derivation of the hierarchical organization. However, such a procedure does not indicate whether each judge perceived the structure nor whether the interjudge agreement is high. We first analyze the most important works about the subjective structure of a discourse and present their methodological limitations. We then propose a more efficient tool, the textometer, that allows judges to indicate in a analogical way the entire structure of a text
    • …
    corecore