Les collocations comme indice pour distinguer les genres textuels

Abstract

Cette étude se propose de vérifier l’efficacité des collocations en tant qu’indice pour distinguer les genres textuels. De plus, elle a le double objectif d’aborder l’exploration de la variabilité de l’italien en utilisant des méthodologies computationnelles, et de vérifier l’efficacité d’une nouvelle mesure d’association dans l’étude des collocations.Quatre typologies de collocations ont été analysées (verbe-nom, nom-adjectif, nom-nom et nom-préposition-nom) dans six genres textuels différents, dont trois sont écrits (textes littéraires, textes académiques et compositions scolaires) et trois sont oraux (conversations, discours et dialogues filmiques).La fréquence des collocations dans les différents genres montre que chaque typologie de texte a des préférences spécifiques pour des typologies de collocations spécifiques; la seule fréquence et la seule distinction entre textes écrits et oraux, toutefois, ne réussit pas à interpréter cette différente distribution selon un modèle cohérent. A cet effet, la mesure statistique de la gravité lexicale semble posséder une efficacité majeure, comme nous essayerons de démontrer.Collocations as an Index for Distinguishing Text GenresThis paper aims to incorporate collocations as an index to distinguish text genres: our main hypothesis is that collocations, as well as other linguistic features, are potentially suitable to identify genres. Thus, this is mostly an exploratory study, aimed at verifying this hypothesis and at taking a deeper look into register variation across different genres in Italian with computational and statistical methods.Furthermore, in a broader perspective, this study might give significant contributions in other fields, such as automatic genre identification [Santini 2004], measure of text cohesion [Louwerse et al. 2004] or text readability, where the detection of collocations as a marker of genres can increase the accuracy of computational tools devoted to these tasks

    Similar works