40 research outputs found
Du texte à l’ index. L’ étiquetage lexical du De Septem Orbis Spectaculis de Philon le Paradoxographe : méthode et finalité
This article describes the different stages of lexical processing of a text in Ancient Greek. The aim is to provide indexes and lemmatized concordances, monolingual or bilingual. The Greek text of the De Septem Orbis Spectaculis and its French translation are used as a scarlet thread for this demonstration. Processing tools are developed at the “ Institut orientaliste” of the “ Université catholique de Louvain” in partnership with the “ Centre de Traitement Automatique du Language” (CENTAL), a researchteam belonging to the same university. This paper sums up the goals of the project, describes the lemmatization tools and provides readers with samples of monolingual or bilingual concordances and indexes. These works pave the way for further valuable resources for the study of the vocabulary of historical or Patristic texts, both in Ancient Greek and for their versions in the languages of the Christian East.Cet article décrit les différents étapes nécessaires pour traiter le vocabulaire d’un texte en grec ancien afin d’en tirer des index et des concordances lemmatisées, monolingues (traitement d’un texte seul) ou bilingues (traitement d’un texte et de sa traduction). Le texte grec du De Septem Orbis Spectaculis et sa traduction française servent de fil rouge à cette démonstration. Les outils de traitement mis en oeuvre sont développés dans le cadre du projet GREgORI, mené à l’Institut orientaliste de l’Université catholique de Louvain en partenariat avec le Centre de Traitement Automatique du Langage (CENTAL), laboratoire spécialisé dans l’étude du traitement informatique des langues, appartenant à la même université. L’article rappelle les objectifs du projet, décrit les outils de lemmatisation utilisés et procure aux lecteurs des exemples de concordances et d’index, en version monolingue ou bilingue (grec-français). Ces travaux ouvrent la voie pour des développements ultérieurs utiles à l’étude du vocabulaire des textes grecs historiques et patristiques et de leurs versions dans différentes langues de l’Orient chrétien.Kindt Bastien. Du texte à l’ index. L’ étiquetage lexical du De Septem Orbis Spectaculis de Philon le Paradoxographe : méthode et finalité. In: Sources, Histoire et Editions. Les outils de la recherche. Formation et recherche en science de l'Antiquité. Besançon : Institut des Sciences et Techniques de l'Antiquité, 2021. pp. 167-210. (Collection « ISTA », 1521
Traitement automatique de l'ambiguïté lexicale en grec ancien outils informatiques et ressources linguistiques
The work presented in this thesis deals with the lexical analysis of texts written in Ancient Greek. It comes after previous developments of an electronic dictionary of Ancient Greek, the Dictionnaire Automatique Grec (DAG), whose lexical data are directly taken from various corpus and not from traditional dictionaries. The DAG is a « wide coverage » dictionary. This means that for each form, all possible analyses are provided. If such data provide a comprehensive analysis of the forms of a text, it also leaves numerous lexical ambiguities, a unique form possibly belonging to several lemmas.
The aim is to develop tools allowing the automatic resolution of lexical ambiguities, in order to obtain annotated and fully disambiguated corpora, minimizing the number and size of manual interventions performed by an operator.
To achieve this goal, UNITEX, specific software used in the field of Natural Language Processing (NLP), has been adapted to process Ancient Greek texts.
Implemented with linguistic data directly inherited from the Research Project in Greek Lexicology (Project), these tools achieve lexical disambiguation of texts by applying contextual rules written by a human expert. All the developments described are original and inedited, both in terms of computerized technology and in gathering numerous linguistic data. They allow now to introduce Ancient Greek amongst the languages already distributed with UNITEX, respecting the standards in use both by the NLP specialists and the Hellenists. Experiments and evaluations are performed on different corpus of patristic texts and historiographical sources of the Byzantine era written in literary koine. Rules can then be applied to texts of different kinds, mostly works written in classical prose during the Hellenistic period.
Finally, the Hellenists have now at their disposal new analysis tools, integrated in a single environment (UNITEX), a real « worksplace » able to process lexicaly annotated corpus that can then be interrogated and exploited according to the users’ needs.Les travaux présentés dans cette thèse portent sur l’analyse lexicale de textes écrits en grec ancien. Ils font suite à des réalisations antérieures ayant permis de constituer un dictionnaire électronique du grec ancien, le Dictionnaire Automatique Grec (DAG), dont les données lexicales sont directement extraites d’observations effectuées sur corpus et non reprises aux dictionnaires traditionnels. Le DAG est un dictionnaire à « large couverture ». Cela signifie que pour chaque forme, toutes les analyses possibles sont fournies. Si ce type de ressources garantit une analyse complète des formes d’un texte, il laisse aussi de nombreuses ambiguïtés lexicales en suspens, puisqu’une même forme peut relever de plusieurs lemmes.
Le but de cette thèse est de développer des outils de levée automatique des ambiguïtés lexicales, afin d’obtenir des corpus annotés, et donc totalement désambiguïsés, en réduisant autant que possible le nombre et l’ampleur des interventions manuelles effectuées par un opérateur.
Pour réaliser cet objectif, les outils informatiques d’UNITEX, un logiciel spécifique dans le domaine du Traitement Automatique des Langues (TAL), ont été adaptés au traitement du grec ancien.
Mis en œuvre avec les ressources linguistiques directement héritées du Projet de Recherche en Lexicologie Grecque (Projet), ces outils automatisent la désambiguïsation lexicale des textes en y appliquant des règles contextuelles écrites par un expert humain. Tous les développements décrits sont originaux et inédits tant en matière de mise au point de l’outil informatique qu’en matière de constitution des ressources linguistiques ; ils permettent d’introduire désormais le grec ancien parmi les langues déjà traitées sous UNITEX, et ce dans le double respect des règles du TAL et des usages des hellénistes. Les expérimentations et les évaluations sont réalisées sur différents corpus principalement constitués de textes patristiques et de sources historiographiques d’époque byzantine, des textes tardifs relevant essentiellement, mais pas uniquement, de la koinè littéraire. L’examen de textes antérieurs permet ensuite d’éprouver la validité des analyses produites sur d’autres types de textes, principalement des œuvres issues de la prose classique d’époque hellénistique.
Au final, les hellénistes ont à leur disposition des outils d’analyse nouveaux et intégrés dans un environnement unique (UNITEX), une réelle « station de travail » ayant recours à des corpus enrichis d’annotations lexicales, susceptibles d’être interrogés et exploités selon les besoins des utilisateurs.(HORI 3) -- UCL, 201
Processing Tools for Greek and Other Languages of the Christian Middle East
International audienceThis paper presents some computer tools and linguistic resources of the GREgORI project. These developments allow automated processing of texts written in the main languages of the Christian Middel East, such as Greek, Arabic, Syriac, Armenian and Georgian. The main goal is to provide scholars with tools (lemmatized indexes and concordances) making corpus-based linguistic information available. It focuses on the questions of text processing, lemmatization, information retrieval, and bitext alignment
Processing Tools for Greek and Other Languages of the Christian Middle East
This paper presents some computer tools and linguistic resources of the GREgORI project. These developments allow automated processing of texts written in the main languages of the Christian Middel East, such as Greek, Arabic, Syriac, Armenian and Georgian. The main goal is to provide scholars with tools (lemmatized indexes and concordances) making corpus-based linguistic information available. It focuses on the questions of text processing, lemmatization, information retrieval, and bitext alignment
Thesaurus Nicephori Constantinopolitani
Concordance lemmatisée de Nicéphore de Constantinopl
Thesaurus Asterii Amaseni et Firmi Caesariensis
Les homélies d'Asterius d'Amasée et les lettres de Firmus de Césarée, deux auteurs de la fin du IVe et du début du Ve s., n'ont pas bénéficié du même retentissement que les textes des trois Grands Cappadociens, Basile de Césarée, Grégoire de Nazianze et Grégoire de Nysse. Ils sont pourtant tous deux dignes d'être comptés parmi ces derniers, car ils partagent les mêmes vertus que leurs émules; ils sont aristocrates, évêques de haut rang, administrateurs avisés de leur diocèse, fervents défenseurs de l'orthodoxie, et enfin littérateurs pétris d'hellénisme, heureux de mettre toutes les ressources de la langue grecque au service de leurs besoins, qu'il s'agisse d'un sermon à l'intention de leurs ouailles ou d'un billet à l'adresse d'un dignitaire important. Ambitionnant de décrire l'ensemble du lexique grec des Pères Cappadociens, les auteurs du Thesaurus Patrum Graecorum (T.P.G.) - collection de concordances lemmatisées des sources grecques des Pères de l'Église et des historiens byzantins -, ne pouvaient omettre de leur réserver une place honorable. Ce volume présente séparément la concordance des oeuvres des deux auteurs et fournit les outils lexicaux indispensables (index des fréquences, index inverses, etc.). Il répertorie de manière exhaustive les mots rencontrés (48.174 mots chez Astérius, pour 13.799 formes différentes; 4.181 mots chez Firmus, pour 1.894 formes différentes), et les classe systématiquement sous un lemme, ou entrée lexicale (5.479 lemmes chez Astérius; 1.130 chez Firmus). Au même titre que les autres volumes du T.P.G., il contribue à compléter la base de travail indispensable pour les comparaisons futures qui seront appliquées au lexique des Pères Cappadociens, en particulier, et des sources grecques byzantin