    Dictionary Building with the Jibiki Platform: Software Demonstration

    International audienceThe Jibiki platform is an online generic environment for writing and querying all kinds of dictionaries: terminological glossaries, bilingual dictionaries, multilingual lexical databases, etc. It has been developed mainly by Mathieu Mangeot (Université de Savoie, France) and Gilles Sérasset (Université de Grenoble 1, France), thanks to research driven by the GETA team of the CLIPS laboratory in Grenoble, France. The platform allows one to lookup all the dictionaries available on the server and to display the results in the same window. The advanced query interface offers a combination of multiple search criteria. The writing of the entries is done directly online on the platform via a web browser. The writing interface is generated automatically from the description of the structure of the entries (an XML schema), thus allowing the edition of (almost) any type of dictionary entry

    Méthodes et outils pour la lexicographie bilingue en ligne : le cas du Grand Dictionnaire Estonien-Français

    International audienceLe projet de construction du Grand dictionnaire estonien-français (GDEF), du fait de sa spécificité--une équipe rédactionnelle dispersée--, a immédiatement ressenti la nécessité d'utiliser des méthodes informatiques innovantes permettant le travail à distance et en réseau. Les initiateurs de ce projet ont donc tout naturellement décidé d'utiliser une plate-forme générique de construction de dictionnaires en ligne : la plate-forme Jibiki, fruit de recherches en lexicographie computationnelle. Après avoir exposé les conditions générales dans lesquelles s'inscrit ce projet de lexicographie bilingue en ligne (nécessité d'un tel dictionnaire, travail à distance, structure complexe, bases de données lexicales utilisées), l'article explique les méthodes de travail mises en œuvre dans cecadre (protocole de rédaction en trois étapes) et les solutions informatiques qui les rendent possibles (interface de rédaction en ligne, gestion des contributions, import-export de données, outils annexes)

    Computerization of African languages-French dictionaries

    This paper relates work done during the DiLAF project. It consists in converting 5 bilingual African language-French dictionaries originally in Word format into XML following the LMF model. The languages processed are Bambara, Hausa, Kanuri, Tamajaq and Songhai-zarma, still considered as under-resourced languages concerning Natural Language Processing tools. Once converted, the dictionaries are available online on the Jibiki platform for lookup and modification. The DiLAF project is first presented. A description of each dictionary follows. Then, the conversion methodology from .doc format to XML files is presented. A specific point on the usage of Unicode follows. Then, each step of the conversion into XML and LMF is detailed. The last part presents the Jibiki lexical resources management platform used for the project.Comment: 8 page

    Vers l'informatisation de quelques langues d'Afrique de l'Ouest

    International audienceThe DILAF project aims to establish a methodology to convert of editorial dictionariesinto XML iles expressed according with rhe LMF (Lexical Markup Framework) formatand to apply tis mothodology on ive dictionaries. We present the motivation of thisproject, then the concerned dictionaries and the alphabets of the languages of thesedictionaries. These are bilingual dictionaries Africanlanguage-French: Hausa-French,Kanuri-French, Soŋay Zarma-French, Tamajaq-French and Bambara-French. The jibikiplatform is presented, then we detail the adavances of the project thanks to thecollaboration of linguists, computer scientists, and lexicographers. The ifth partestablishes a balance concerning the Unicode representation of the characters of thediferent languages and details the particular case of the tiinagh characters.Le projet DILAF vise à établir une méthodologie de conversion de dictionnaireséditoriaux en des ichiers XML au format (Lexical Markup Framework) et à l'appliquersur cinq dictionnaires. Nous présentonsles motivations de ce projet puis lesdictionnaires concernés ainsi que les alphabets des langues de ces dictionnaires. Il s'agitde dictionnaires bilingues langue africaine-français : haoussa-français, kanouri-français,soŋay zarma-français, tamajaq-français et bambara-français. La présentation de laplateforme jibiki de manipulation des ressources lexicales est suivie de l'exposé destravaux menés en collaboration avec les linguistes, informaticiens et lexicographesparticipant au projet. La cinquième partie établit un bilan quant à la représentation descaractères des diférentes langues dans Unicode et détaille le cas particulier descaractères tiinagh. Les travaux futurs sont ensuite évoqués

    Online generic editing of heterogeneous dictionary entries in Papillon project

    Multilinguisation d'ontologies dans le cadre de la recherche d'information translingue dans des collections d'images accompagnées de textes spontanés

    Le Web est une source proliférante d'objets multimédia, décrits dans différentes langues natu- relles. Afin d'utiliser les techniques du Web sémantique pour la recherche de tels objets (images, vidéos, etc.), nous proposons une méthode d'extraction de contenu dans des collections de textes multilingues, paramétrée par une ou plusieurs ontologies. Le processus d'extraction est utilisé pour indexer les objets multimédia à partir de leur contenu textuel, ainsi que pour construire des requêtes formelles à partir d'énoncés spontanés. Il est basé sur une annotation interlingue des textes, conservant les ambiguïtés de segmentation et la polysémie dans des graphes. Cette première étape permet l'utilisation de processus de désambiguïsation factorisés au niveau d'un lexique pivot (de lexèmes interlingues). Le passage d'une ontologie en paramètre du système se fait en l'alignant de façon automatique avec le lexique interlingue. Il est ainsi possible d'utiliser des ontologies qui n'ont pas été conçues pour une utilisation multilingue, et aussi d'ajouter ou d'étendre l'ensemble des langues et leurs couvertures lexicales sans modifier les ontologies. Un démonstrateur pour la recherche multilingue d'images, développé pour le projet ANR OMNIA, a permis de concrétiser les approches proposées. Le passage à l'échelle et la qualité des annotations produites ont ainsi pu être évalués.The World Wide Web is a proliferating source of multimedia objects described using various natural languages. In order to use semantic Web techniques for retrieval of such objects (images, videos, etc.), we propose a content extraction method in multilingual text collections, using one or several ontologies as parameters. The content extraction process is used on the one hand to index multimedia objects using their textual content, and on the other to build formal requests from spontaneous user requests. The process is based on an interlingual annotation of texts, keeping ambiguities (polysemy and segmentation) in graphs. This first step allows using common desambiguation processes at th elevel of a pivot langage (interlingual lexemes). Passing an ontology as a parameter of the system is done by aligning automatically its elements with the interlingual lexemes of the pivot language. It is thus possible to use ontologies that have not been built for a specific use in a multilingual context, and to extend the set of languages and their lexical coverages without modifying the ontologies. A demonstration software for multilingual image retrieval has been built with the proposed approach in the framework of the OMNIA ANR project, allowing to implement the proposed approaches. It has thus been possible to evaluate the scalability and quality of annotations produiced during the retrieval process.