18 research outputs found

    Language Archive Records: Interoperability Of Referencing Practices And Metadata Models

    Get PDF
    With the rise of the digital language archive and the plethora of referenceable content, a critical question arises: “How easy is it for authors to use existing tools to cite the content they are referencing?” This is especially important as people use archived materials as evidence within published language descriptions. Archived resource metadata is well discussed in language documentation circles; however, bibliographic metadata and its accessibility are less discussed. Discoverability metadata, a subset of archived resource metadata, serves aggregators like OLAC by declaring a resource exists. In contrast, bibliographic metadata functions within documents by declaring where to find a resource that is known to exist. In this thesis I look at the interaction between Zotero, an open source reference manager, five different archives (PARADISEC, Pangloss, SIL Language & Culture Archives, ELAR, and Kaipuleohone), and three methods of importing metadata from them into Zotero (DOI import, HTML embedded metadata, and file based import). I report on collection and audio artifact metadata provided by the archive to the author via Zotero’s interfaces: what’s included, what’s missing, and what’s misaligned. Understanding the processes by which authors collect metadata for the purpose of citation and referencing, what metadata they need, and if it is being provided, facilitates the design of useful interfaces to archives which elevate the value of archives to all groups who interact with them. I propose that interaction design is an additional factor to those presented by Chang (2010) in her well received checklist for evaluating language archives. Interaction design, the technical field concerned with designing how people interact with objects and services, is the design process by which archives manage the interactions they have with those they serve. I specifically argue that interaction design adds value to an archive’s brand, as perceived by the network of archive users, when it facilitates the interaction with bibliographic metadata about artifacts within holdings. This added value speaks to the sustainability of an archive within its sphere of influence. It is increasingly important in the career development of scholars to meet metric-based assessments of their influence in scholarly discussions. Reference counts, including those pointing to the evidentiary record housed in archives, play a significant role in establishing quantitative baseline metrics for scholars

    Approches Neuronales pour la Reconstruction de Mots Historiques

    Get PDF
    In historical linguistics, cognates are words that descend in direct line from a common ancestor, called their proto-form, andtherefore are representative of their respective languages evolutions through time, as well as of the relations between theselanguages synchronically. As they reflect the phonetic history of the languages they belong to, they allow linguists to betterdetermine all manners of synchronic and diachronic linguistic relations (etymology, phylogeny, sound correspondences).Cognates of related languages tend to be linked through systematic phonetic correspondence patterns, which neuralnetworks could well learn to model, being especially good at learning latent patterns. In this dissertation, we seek tomethodically study the applicability of machine translation inspired neural networks to historical word prediction, relyingon the surface similarity of both tasks. We first create an artificial dataset inspired by the phonetic and phonotactic rules ofRomance languages, which allow us to vary task complexity and data size in a controlled environment, therefore identifyingif and under which conditions neural networks were applicable. We then extend our work to real datasets (after havingupdated an etymological database to gather a correct amount of data), study the transferability of our conclusions toreal data, then the applicability of a number of data augmentation techniques to the task, to try to mitigate low-resourcesituations. We finally investigat in more detail our best models, multilingual neural networks. We first confirm that, onthe surface, they seem to capture language relatedness information and phonetic similarity, confirming prior work. Wethen discover, by probing them, that the information they store is actually more complex: our multilingual models actuallyencode a phonetic language model, and learn enough latent historical information to allow decoders to reconstruct the(unseen) proto-form of the studied languages as well or better than bilingual models trained specifically on the task. Thislatent information is likely the explanation for the success of multilingual methods in the previous worksEn linguistique historique, les cognats sont des mots qui descendent en ligne directe d'un ancêtre commun, leur proto-forme, et qui sont ainsi représentatifs de l'évolution de leurs langues respectives à travers le temps. Comme ils portent eneux l'histoire phonétique des langues auxquelles ils appartiennent, ils permettent aux linguistes de mieux déterminer toutessortes de relations linguistiques synchroniques et diachroniques (étymologie, phylogénie, correspondances phonétiques).Les cognats de langues apparentées sont liés par des correspondances phonétiques systématiques. Les réseaux deneurones, particulièrement adaptés à l'apprentissage de motifs latents, semblent donc bien un bon outil pour modéliserces correspondances. Dans cette thèse, nous cherchons donc à étudier méthodiquement l'applicabilité de réseaux deneurones spécifiques (inspirés de la traduction automatique) à la `prédiction de mots historiques', en nous appuyantsur les similitudes entre ces deux tâches. Nous créons tout d'abord un jeu de données artificiel à partir des règlesphonétiques et phonotactiques des langues romanes, que nous utilisons pour étudier l'utilisation de nos réseaux ensituation controlée, et identifions ainsi sous quelles conditions les réseaux de neurones sont applicables à notre tâched'intérêt. Nous étendons ensuite notre travail à des données réelles (après avoir mis à jour une base étymologiquespour obtenir d'avantage de données), étudions si nos conclusions précédentes leur sont applicables, puis s'il est possibled'utiliser des techniques d'augmentation des données pour pallier aux manque de ressources de certaines situations.Enfin, nous analysons plus en détail nos meilleurs modèles, les réseaux neuronaux multilingues. Nous confirmons àpartir de leurs résultats bruts qu'ils semblent capturer des informations de parenté linguistique et de similarité phonétique,ce qui confirme des travaux antérieurs. Nous découvrons ensuite en les sondant (probing) que les informations qu'ilsstockent sont en fait plus complexes : nos modèles multilingues encodent en fait un modèle phonétique de la langue, etapprennent suffisamment d'informations diachroniques latentes pour permettre à des décodeurs de reconstruire la proto-forme (non vue) des langues étudiées aussi bien, voire mieux, que des modèles bilingues entraînés spécifiquement surcette tâche. Ces informations latentes expliquent probablement le succès des méthodes multilingues dans les travauxprécédents

    Un environnement générique et ouvert pour le traitement des expressions polylexicales

    Get PDF
    The treatment of multiword expressions (MWEs), like take off, bus stop and big deal, is a challenge for NLP applications. This kind of linguistic construction is not only arbitrary but also much more frequent than one would initially guess. This thesis investigates the behaviour of MWEs across different languages, domains and construction types, proposing and evaluating an integrated methodological framework for their acquisition. There have been many theoretical proposals to define, characterise and classify MWEs. We adopt generic definition stating that MWEs are word combinations which must be treated as a unit at some level of linguistic processing. They present a variable degree of institutionalisation, arbitrariness, heterogeneity and limited syntactic and semantic variability. There has been much research on automatic MWE acquisition in the recent decades, and the state of the art covers a large number of techniques and languages. Other tasks involving MWEs, namely disambiguation, interpretation, representation and applications, have received less emphasis in the field. The first main contribution of this thesis is the proposal of an original methodological framework for automatic MWE acquisition from monolingual corpora. This framework is generic, language independent, integrated and contains a freely available implementation, the mwetoolkit. It is composed of independent modules which may themselves use multiple techniques to solve a specific sub-task in MWE acquisition. The evaluation of MWE acquisition is modelled using four independent axes. We underline that the evaluation results depend on parameters of the acquisition context, e.g., nature and size of corpora, language and type of MWE, analysis depth, and existing resources. The second main contribution of this thesis is the application-oriented evaluation of our methodology proposal in two applications: computer-assisted lexicography and statistical machine translation. For the former, we evaluate the usefulness of automatic MWE acquisition with the mwetoolkit for creating three lexicons: Greek nominal expressions, Portuguese complex predicates and Portuguese sentiment expressions. For the latter, we test several integration strategies in order to improve the treatment given to English phrasal verbs when translated by a standard statistical MT system into Portuguese. Both applications can benefit from automatic MWE acquisition, as the expressions acquired automatically from corpora can both speed up and improve the quality of the results. The promising results of previous and ongoing experiments encourage further investigation about the optimal way to integrate MWE treatment into other applications. Thus, we conclude the thesis with an overview of the past, ongoing and future work

    Entretiens / Interviews / Entrevistas

    Get PDF
    Quelle est leur activité sur l\u27internet? Quelle est leur opinion sur l\u27avenir du réseau, l\u27avenir de l\u27imprimé, le livre électronique, le droit d\u27auteur, le multilinguisme, le cyberespace, la société de l\u27information, etc.? Ces entretiens ont été menés entre 1998 et 2001 (avec un entretien complété en 2002) avec une centaine de professionnels de l\u27information: bibliothécaires-documentalistes, chercheurs, écrivains, éditeurs, gestionnaires, journalistes, libraires, linguistes, professeurs, traducteurs, etc., francophones et non francophones. Ces entretiens sont trilingues. La totalité des entretiens est disponible en français. Une grande partie est disponible en anglais. Quelques entretiens sont disponibles en espagnol

    L'influence de la boucle phonologique dans l'activité de lecture de publics précoces croates apprenant le français

    Get PDF
    This study examines reading acquisition in French as a Foreign Language by Croatian early learners (9-11 y.), beginners in L2 French. Designed under the cognitive perspective of foreign language learning/teaching, the thesis is divided in three parts. The first one sets the theoretical framework of the research by presenting relevant issues in fields of linguistics, psycholinguistics and foreign language acquisition and teaching. Firstly, we are dealing with the phonological and orthographic correspondences in Croatian and in French. Subsequently, we are discussing the pertinence of different psycholinguistic reading models, followed by a presentation of the concept of working memory in relation with respect to the learning processes. The second section describes the psycholinguistic experimental study undertaken in order to highlight phonological loop's influence on Repeating and Reading Aloud activities by targeting presumably difficult phonemes for Croatian native speakers. Lastly, the third part ponders over the results which are providing several implications for foreign language acquisition and teaching, notably those concerning the role and status of written language in literacy access practices in a foreign language.Cette étude porte sur l'apprentissage de la lecture en français (langue étrangère) par des enfants croates de 9 à 11 ans. Ce travail, envisagé sous l'angle de la didactique cognitive des langues, se compose de trois parties. La première est consacrée à une présentation théorique des données linguistiques, psycholinguistiques et didactiques pertinentes dans le cadre de cette recherche. En premier lieu sont envisagées les correspondances phonologiques et orthographiques en croate et en français. Ensuite, nous discutons de la pertinence de différents modèles psycholinguistiques de la lecture, avant d'établir le concept de la mémoire de travail au sein des apprentissages. Le deuxième volet consiste en une étude expérimentale s'efforçant de mettre en relief l'influence de la boucle phonologique dans l'activité de répétition et de lecture à haute voix en ciblant des phonèmes présentant des difficultés pour les croatophones. La procédure adoptée obéit aux critères des expériences relevant de la psycholinguistique. La troisième partie envisage quelques perspectives didactiques à partir des résultats obtenus et met en lumière qu'il importe de reconsidérer le rôle et les différents statuts de l'écrit dans l'accès à la littératie en langue étrangère

    Liber Amicorum Jean-Claude Haelewyck édité par Claude Obsomer pour Ses Septante ans

    Get PDF

    Liber Amicorum Jean-Claude Haelewyck édité par Claude Obsomer pour Ses Septante ans

    Get PDF

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année