12 research outputs found

    Exploiting a Multilingual Web-based Encyclopedia for Bilingual Terminology Extraction

    Get PDF

    What Makes Your Writing Style Unique? Significant Differences Between Two Famous Romanian Orators

    Get PDF
    This paper introduces a novel, in-depth approach of analyzing the differences in writing style between two famous Romanian orators, based on automated textual complexity indices for Romanian language. The considered authors are: (a) Mihai Eminescu, Romania’s national poet and a remarkable journalist of his time, and (b) Ion C. Brătianu, one of the most important Romanian politicians from the middle of the 18th century. Both orators have a common journalistic interest consisting in their desire to spread the word about political issues in Romania via the printing press, the most important public voice at that time. In addition, both authors exhibit writing style particularities, and our aim is to explore these differences through our ReaderBench framework that computes a wide range of lexical and semantic textual complexity indices for Romanian and other languages. The used corpus contains two collections of speeches for each orator that cover the period 1857–1880. The results of this study highlight the lexical and cohesive textual complexity indices that reflect very well the differences in writing style, measures relying on Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) semantic models.This study is part of the RAGE project. The RAGE project has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement No 644187. This publication reflects only the author's view. The European Commission is not responsible for any use that may be made of the information it contains

    Creating a bilingual dictionary of collocations: A learner-oriented approach

    Get PDF
    Considering the lack of specialised dictionaries in certain fields, a creative way of teaching through corpora-based work was proposed in a seminar for master’s students of translation studies (University of Ljubljana, Slovenia). Since phraseology and terminology play an important role both in specialised translation and in the learning path of students of translation studies, this article presents an active approach aimed at creating an online lexicographic resource in languages for specific purposes by using the didactic tool and database ARTES (Aide à la Rédaction de TExtes Scientifiques/Dictionary-assisted writing tool for scientific communication) previously developed at the Université de Paris (France). About thirty Slovene students enrolled in the first year of master’s study have been participating in the bilateral project since 2018. The aims of such an activity are multiple: students learn in a practical way how to compile comparable corpora from the internet, using the online corpus software Sketch Engine, to find similar linguistic constructions in the source and target languages. They also learn to create an online bilingual phraseological and terminological dictionary to facilitate the translation of specialised texts. In this way, they acquire skills and develop some knowledge in translation, terminology, and discourse phraseology. The article first describes the ARTES online database. Then, we present the teaching methodology and the students’ work, which consists of compiling corpora, extracting and translating collocations for the language pair French-Slovene, and entering them in the ARTES database. Finally, we propose an analysis of the most frequent collocation structures in both languages. The language pair considered here is French and Slovene, but the methodology can be applied to any other language pair

    Analyse comparative de l'équivalence terminologique en corpus parallèle et en corpus comparable : application au domaine du changement climatique

    Full text link
    Les travaux entrepris dans le cadre de la présente thèse portent sur l’analyse de l’équivalence terminologique en corpus parallèle et en corpus comparable. Plus spécifiquement, nous nous intéressons aux corpus de textes spécialisés appartenant au domaine du changement climatique. Une des originalités de cette étude réside dans l’analyse des équivalents de termes simples. Les bases théoriques sur lesquelles nous nous appuyons sont la terminologie textuelle (Bourigault et Slodzian 1999) et l’approche lexico-sémantique (L’Homme 2005). Cette étude poursuit deux objectifs. Le premier est d’effectuer une analyse comparative de l’équivalence dans les deux types de corpus afin de vérifier si l’équivalence terminologique observable dans les corpus parallèles se distingue de celle que l’on trouve dans les corpus comparables. Le deuxième consiste à comparer dans le détail les équivalents associés à un même terme anglais, afin de les décrire et de les répertorier pour en dégager une typologie. L’analyse détaillée des équivalents français de 343 termes anglais est menée à bien grâce à l’exploitation d’outils informatiques (extracteur de termes, aligneur de textes, etc.) et à la mise en place d’une méthodologie rigoureuse divisée en trois parties. La première partie qui est commune aux deux objectifs de la recherche concerne l’élaboration des corpus, la validation des termes anglais et le repérage des équivalents français dans les deux corpus. La deuxième partie décrit les critères sur lesquels nous nous appuyons pour comparer les équivalents des deux types de corpus. La troisième partie met en place la typologie des équivalents associés à un même terme anglais. Les résultats pour le premier objectif montrent que sur les 343 termes anglais analysés, les termes présentant des équivalents critiquables dans les deux corpus sont relativement peu élevés (12), tandis que le nombre de termes présentant des similitudes d’équivalence entre les corpus est très élevé (272 équivalents identiques et 55 équivalents non critiquables). L’analyse comparative décrite dans ce chapitre confirme notre hypothèse selon laquelle la terminologie employée dans les corpus parallèles ne se démarque pas de celle des corpus comparables. Les résultats pour le deuxième objectif montrent que de nombreux termes anglais sont rendus par plusieurs équivalents (70 % des termes analysés). Il est aussi constaté que ce ne sont pas les synonymes qui forment le groupe le plus important des équivalents, mais les quasi-synonymes. En outre, les équivalents appartenant à une autre partie du discours constituent une part importante des équivalents. Ainsi, la typologie élaborée dans cette thèse présente des mécanismes de l’équivalence terminologique peu décrits aussi systématiquement dans les travaux antérieurs.The research undertaken for this thesis concerns the analysis of terminological equivalence in a parallel corpus and a comparable corpus. More specifically, we focus on specialized texts related to the domain of climate change. A unique aspect of this study is based on the analysis of the equivalents of single word terms. The theoretical frameworks on which we rely are the terminologie textuelle (Bourigault et Slodzian 1999) and the lexico-sémantique approaches (L’Homme 2005). This study has two objectives. The first is to perform a comparative analysis of terminological equivalents in the two types of corpora in order to verify if the equivalents found in the parallel corpus are different from the ones observed in the comparable corpora. The second is to compare in detail equivalents associated with a same English term, in order to describe them and define a typology. A detailed analysis of the French equivalents of 343 English terms is carried out with the help of computer tools (term extractor, text aligner, etc.) and the establishment of a rigorous methodology divided into three parts. The first part, common to both objectives of the research concerns the elaboration of the corpus, the validation of the English terms and the identification of the French equivalents in the two corpora. The second part describes the criteria on which we rely to compare the equivalents of the two types of corpora. The third part sets up the typology of equivalents associated with a same English term. The results for the first objective shows that of the 343 English words analyzed, terms with equivalents that can be criticized in both corpora are relatively low in number (12), while the number of terms with similar equivalences between the two corpora is very high (272 identical and 55 equivalents not objectionable). The analysis described in this chapter confirms our hypothesis that terminology used in parallel corpora does not differ from that used in comparable corpora. The results of the second objective show that many English terms are rendered by several equivalents (70% of analyzed terms). It is also noted that synonyms are not the largest group of equivalents but near-synonyms. Also, equivalents from another part of speech constitute an important part of the equivalents analyzed. Thus, the typology developed in this thesis presents terminological equivalent mechanisms rarely described as systematically in previous work

    Pour une approche discursive de la terminologie europ\ue9enne et nationale, en fran\ue7ais et en espagnol, des textes non contraignants sur les politiques s\ue9curitaires (2001-2018)

    Get PDF
    Le pr\ue9sent travail se propose d\u2019examiner, par une analyse contrastive, les positionnements qui ressortent d\u2019une terminologie relative aux politiques s\ue9curitaires. Cette recherche s\u2019appuie sur une s\ue9lection de textes juridiques non contraignants, en fran\ue7ais et en espagnol, publi\ue9s entre 2001 et 2018 par la Commission europ\ue9enne et deux \uc9tats membres : la France et l\u2019Espagne. Le choix d\u2019analyser les actes \ue9mis par les autorit\ue9s europ\ue9ennes et nationales d\ue9coule de certaines sp\ue9cificit\ue9s qui caract\ue9risent le discours institutionnel. Les \ue9tudes r\ue9centes dans ce champ de recherche ont d\ue9montr\ue9 que celles-ci tendent \ue0 favoriser une rh\ue9torique consensuelle qui soit \ue0 m\ueame de d\ue9samorcer le d\ue9bat politique. Or, ces strat\ue9gies discursives comportent en elles-m\ueames la trace de positionnements id\ue9ologiques pr\ue9cis. L\u2019observation de la circulation des termes permet alors de d\ue9tecter les discordances qui caract\ue9risent les productions discursives plurielles concernant la s\ue9curit\ue9 commune. Pour ce faire, nous avons adopt\ue9 une approche th\ue9orique qui articule l\u2019\ue9tude de la terminologie \ue0 certaines notions de l\u2019analyse du discours \uab \ue0 la fran\ue7aise \ubb (ADF). La terminologie place le terme, \ue0 savoir l\u2019unit\ue9 lexicale utilis\ue9e dans un domaine sp\ue9cialis\ue9 de la connaissance, au centre de sa r\ue9flexion. Nous focalisons donc notre \ue9tude sur la valeur que le lexique acquiert lorsqu\u2019il est prononc\ue9 par une autorit\ue9 l\ue9gitime \u2013 l\u2019institution \u2013 dans le secteur des politiques s\ue9curitaires. La recherche terminologique a progressivement montr\ue9 que les termes, comme les unit\ue9s lexicales, sont li\ue9s au contexte d\u2019utilisation et aux conditions de production du discours dans lequel ils s\u2019ins\ue8rent. Les variantes d\ue9nominatives, qui \ue9mergent du corpus, d\ue9pendent donc du contexte linguistique et extralinguistique qui entoure l\u2019utilisation du terme. \uc0 partir de cet arri\ue8re-plan, nous nous sommes demand\ue9e si les variantes pouvaient \ueatre le sympt\uf4me de positionnements discordants. En ce sens, l\u2019ADF, qui s\u2019int\ue9resse traditionnellement aux id\ue9ologies sous-jacentes au langage, nous a fourni les notions n\ue9cessaires pour comprendre les raisons pouvant expliquer la variation d\u2019un terme. L\u2019approche m\ue9thodologique nous a permis de combiner une analyse lexicom\ue9trique du corpus \ue0 une observation d\ue9taill\ue9e du terme dans son contexte. Nos r\ue9sultats sont pr\ue9sent\ue9s apr\ue8s un parcours d\u2019analyse qui commence par le choix de certains termes : \uab pr\ue9vention\ubb, \uab d\ue9tection\ubb, \uab r\ue9pression \ubb, \uab combattant terroriste \ue9tranger \ubb et \uab criminalit\ue9 transfrontali\ue8re\ubb. Ces derniers ont \ue9t\ue9 s\ue9lectionn\ue9s sur la base de recherches men\ue9es en amont dans la litt\ue9rature des relations internationales et sont repr\ue9sentatifs de certaines tensions qui alimentent le d\ue9bat acad\ue9mique, politique et juridique. Il s\u2019agit, d\u2019une part, d\u2019observer les termes concernant les actions strat\ue9giques (\uab pr\ue9vention \ubb, \uab d\ue9tection \ubb, \uab r\ue9pression \ubb) et, d\u2019autre part, de r\ue9fl\ue9chir \ue0 la conceptualisation de l\u2019ennemi (\uab combattant terroriste \ue9tranger \ubb et \uab criminalit\ue9 transfrontali\ue8re \ubb). Dans le premier cas, nous nous attardons sur les diff\ue9rentes temporalit\ue9s qui caract\ue9risent les strat\ue9gies de dissuasion et de condamnation d\u2019une infraction ; dans le second cas, nous observons deux d\ue9nominations qui pr\ue9sentent des ambigu\ueft\ue9s sur le plan terminologique et discursif et qui \ue9voquent le concept de \uab fronti\ue8re \ubb et d\u2019appartenance \ue0 un \uc9tat. En conclusion, notre travail vise \ue0 observer les d\ue9calages et les ouvertures interpr\ue9tatives qui se cr\ue9ent lorsque des termes circulent et sont utilis\ue9s pour l\ue9gitimer des pratiques discursives. La th\ue8se montre que le discours institutionnel sur la s\ue9curit\ue9 finit par occulter les d\ue9bats qui pourtant sont bien pr\ue9sents et qui devraient donc \ueatre explicitement inclus dans l\u2019espace public.Il lavoro indaga i posizionamenti che si manifestano nella terminologia relativa alle politiche pubbliche sulla sicurezza tramite un\u2019analisi contrastiva condotta su un corpus bilingue francese e spagnolo. La ricerca si basa su un confronto fra una selezione di testi giuridici non vincolanti emessi, tra il 2001 e il 2018, dalla Commissione europea e da due Stati membri, la Francia e la Spagna. La scelta di analizzare degli atti emessi dalle autorit\ue0 europee e nazionali dipende da alcune specificit\ue0 che caratterizzano la produzione del discorso istituzionale. Gli studi recenti in questo campo hanno dimostrato che il genere discorsivo istituzionale tende a privilegiare una retorica volta a smorzare il dibattito politico e a rafforzare il consenso del pubblico. Si tratta per\uf2 di strategie discorsive che denotano la presenza di scelte politiche precise. L\u2019osservazione della circolazione dei termini permette di rilevare delle discordanze sulle costruzioni terminologiche e discorsive che riguardano la sicurezza comune. A tal fine abbiamo adottato un approccio teorico che integra lo studio terminologico con alcune nozioni dell\u2019analisi del discorso di Scuola francese (ADF). La terminologia pone al centro della sua riflessione il termine, ovvero l\u2019unit\ue0 lessicale usata in un settore specifico della conoscenza. Ci interessiamo quindi al valore che acquisisce il lessico nel momento in cui s\u2019inserisce in un discorso emesso da un\u2019autorit\ue0 legittima, l\u2019istituzione, nell\u2019ambito specifico delle politiche sulla sicurezza. Le ricerche in campo terminologico hanno dimostrato progressivamente che i termini, come le unit\ue0 lessicali, sono subordinate al contesto d\u2019uso e alle condizioni di produzione del discorso in cui appaiono. Le varianti denominative che emergono dai corpora dipendono quindi dal contesto linguistico ed extralinguistico che circoscrive l\u2019uso del termine. Partendo da queste basi ci siamo chiesti se le varianti potessero essere il sintomo di posizionamenti ideologici discordanti. In tal senso l\u2019ADF, che tradizionalmente si \ue8 interessata alle ideologie soggiacenti alla lingua, ci ha fornito gli strumenti adatti per ricercare le ragioni che potessero spiegare la riformulazione di un termine. Il nostro approccio metodologico ci ha consentito di affiancare un\u2019analisi lessicometrica dei corpora all\u2019osservazione dettagliata del termine nel contesto. I risultati sono quindi presentati dopo un percorso d\u2019analisi che parte dalla scelta di alcuni termini: \u201cpr\ue9vention\u201d, \u201cd\ue9tection\u201d, \u201cr\ue9pression\u201d, \u201ccombattant \ue9tranger\u201d e \u201ccriminalit\ue9 tranfrontali\ue8re\u201d. Quest\u2019ultimi sono stati selezionati sulla base una ricerca effettuata a monte nella letteratura delle relazioni internazionali e sono rappresentativi di alcune tensioni che alimentano il dibattito accademico, politico e giuridico. Si tratta, da un lato, di osservare dei termini che riguardano le azioni strategiche (\u201cpr\ue9vention\u201d, \u201cd\ue9tection\u201d, \u201cr\ue9pression\u201d), dall\u2019altro di riflettere sulla concettualizzazione della minaccia e del nemico (\u201ccombattant terroriste \ue9tranger\u201d e \u201ccriminalit\ue9 tranfrontali\ue8re\u201d). Nel primo caso ci soffermiamo in particolare sulle diverse temporalit\ue0 che caratterizzano le strategie di dissuasione e di punizione di un\u2019infrazione; nel secondo caso osserviamo due denominazioni che presentano delle ambiguit\ue0 sul piano terminologico e discorsivo, e che evocano il concetto di \u201cconfine\u201d e di appartenenza allo Stato. In conclusione, il nostro lavoro si propone di osservare gli slittamenti e le aperture interpretative che si creano nel momento in cui i termini circolano e vengono usati per legittimare delle pratiche discorsive. La tesi dimostra che il discorso istituzionale sulla sicurezza, attraverso consce o inconsce scelte terminologiche, finisce per offuscare dei dibattiti che sono invece presenti e che dovrebbero quindi inserirsi esplicitamente nello spazio pubblico

    Constitution d'un corpus oral deFLE : enjeux théoriques et méthodologiques

    Get PDF
    The need to design linguistic corpora to support research in linguistics has triggered the development of numerous studies exploring various approaches and methodologies regarding good practices for written corpus building. Fewer studies are available when it comes to spoken data and those that concern the interlanguage of learners are even rarer. The CIL project (Corpus Inter Langue), under completion at the University of Rennes2 and supervised by a research team specialising in the fields of linguistics and pedagogy (LIDILE), aims at building a large corpus of written and spoken productions in EFL and in FFL. This phd dissertation mainly focuses on the FFL (French as a Foreign Language) corpus (CIL-FLE).The first chapter of the thesis is dedicated to the study of oral speech as a linguistic object from both a historical and an epistemological perspective. The second chapter tackles the question of corpus linguistics generally speaking as well as the concept/ notion of corpus as a linguistic object. Regarding corpus linguistics, we will review and explore the diverse approaches and methods that are used so as to carry out research enquiries: introspection, elicitation or consultation of authentic data. The concept of corpus is then analysed according to/following a series of criteria which we will closely examine in order to propose a definition of the linguistic corpus. The third and last chapter will implement the former theoretical findings through the description of the CIL corpus design. Thus, corpus constituents, transcription and archiving protocols will be described in detail. We are particularly interested in the transcription protocol and we will insist on the difficulties encountered when attempting to transcribe learners ‘data. Finally, the CIL-FLE corpus, which contains approximately 105 000 words and was developed all along this phd, will be described.Les méthodologies de constitution de corpus linguistiques ont été amplement étudiées, mais sont moins abondantes quand il s’agit de corpus oraux ; ces méthodologies sont encore plus rares en ce qui concerne l’interlangue orale. Le projet CIL (Corpus Inter Langue), en cours de finalisation à l’Université Rennes 2 et sous la supervision de l’équipe d’accueil LIDILE (EA 3874), vise à la constitution d’un corpus de productions écrites et orales d’apprenants en FLE et ALE. Cette thèse concerne le corpus oral de FLE du projet global (CIL-FLE). Partant du constat que l’intérêt des linguistes pour la langue orale a systématiquement été en retard par rapport à celui porté à la langue écrite, nous nous intéressons dans un premier temps à l’étude de l’oralité dans différents domaines de la linguistique d’un point de vue historique et épistémologique. Le second chapitre est consacré à la linguistique de corpus de manière générale et au corpus en tant qu’objet linguistique en particulier. En ce qui concerne la linguistique de corpus, nous tentons de présenter les différentes méthodologies auxquelles les linguistes ont recours lorsqu’il s’agit de consulter des données : introspection, élicitation ou consultation de données authentiques. Le concept de corpus est ensuite analysé selon un ensemble de critères définitoires que nous étudions en détail, afin de proposer une définition du corpus linguistique. Le troisième et dernier chapitre est la mise en application des constats théoriques dans la constitution du corpus CIL-FLE : nous détaillons lesconstituants du corpus, les protocoles de collecte et d’archivage. C’est au protocole de transcription que nous nous intéressons en particulier, en insistant sur les difficultés de la transcription de l’interlangue. Le corpus CILFLE, qui représente environ 105000 mots, représente le fruit de ce travail et sera ainsi détaillé
    corecore