28 research outputs found

    Archaeology in the Digital Age: From Paper to Databases

    Full text link
    Research units in archaeology often manage large and precious archives containing various documents, including reports on fieldwork, scholarly studies and reference books. These archives are of course invaluable, recording decades of work, but are generally hard to consult and access. In this context, digitizing full text documents is not enough: information must be formalized, structured and easy to access thanks to friendly user interfaces.Comment: Digital Humanities 2015, Jun 2015, Sydney, Australia. 2015, Proceedings of the conference "Digital Humanities 2015

    Elaboration d’une base de données d’exemples de structures comparatives : de la grille d’annotation au système d’interrogation

    Get PDF
    Le présent article retrace les étapes qui ont présidé à l’élaboration d’une base de données d’exemples de structures à subordonnées comparatives du français. Ce travail a été réalisé dans le cadre du projet « Structures à Subordonnées Comparatives du français » (SCF). Piloté par le laboratoire LaTTiCe sous la direction de C. Fuchs, ce projet a réuni des membres de quatre laboratoires français : B. Combettes et A. Kuyumcuyan (ATILF, Nancy), C. Guimier (CRISCO, Caen), N. Fournier et M. Morinièr..

    Eléments initiaux : combinaisons et schémas préférentiels dans un corpus d’articles scientifiques

    Get PDF
    La présente contribution s’attache à l’étude, dans un corpus d’articles scientifiques en sciences humaines, de la zone préverbale, c’est-à-dire des éléments initiaux (EI) et du sujet préverbal. Il s’agit de déterminer les combinaisons attestées des différents EI (11 catégories définies par des critères sémantiques et morpho-syntaxiques) en relation avec la nature du sujet. L’étude permet tout d’abord de déterminer que les séquences sans EI (sujet initial) excèdent celles avec EI, et que, parmi ces dernières, celles avec un seul EI sont, de loin, les plus fréquentes. L’analyse porte ensuite sur la fréquence des différents EI (viennent en tête les éléments logico-pragmatiques, spatio-temporels et les relations logiques), ainsi que sur les chaînes dans lesquelles ils entrent préférentiellement, tant du point de vue du nombre d’EI possible et de leur catégorie, que de leur position dans ces chaînes. La première position s’avère ainsi associée de manière nettement préférentielle aux EI logico-pragmatiques. La nature du sujet apparaît par ailleurs corrélée à certaines caractéristiques des EI. Il ressort de l’étude que les textes du corpus présentent une relative homogénéité, même si des divergences ponctuelles apparaissent entre certaines disciplines.This article focuses on the preverbal zone of the sentence (that is initial elements (IE) + preverbal subject), in a corpus of scientific articles in the humanities. It aims to identify the different attested combinations of IE (11 categories defined by semantic and morpho-syntactic criteria) in relation to the nature of the subject. Firstly, the study shows that the sequences without IEs (initial subject) exceed those with IEs, and that among the latter, those with a single IE are by far the most common. The analysis then focuses on the frequency of the different categories of IE (the most frequent are logico-pragmatic and spatio-temporal elements, and those denoting logical relations), and on the sequences in which they appear. We consider the number of IEs, their category, as well as their position in the sequence. We show that the initial position in a chain is usually occupied by logico-pragmatic IEs. Moreover the nature of the subject appears to be correlated with certain characteristics of the IE. The study reveals that the texts in the corpus are relatively homogeneous, although occasionally differences emerge between disciplines

    Elaboration d’une base de données d’exemples de structures comparatives : de la grille d’annotation au système d’interrogation

    Get PDF
    Le présent article retrace les étapes qui ont présidé à l’élaboration d’une base de données d’exemples de structures à subordonnées comparatives du français. Ce travail a été réalisé dans le cadre du projet « Structures à Subordonnées Comparatives du français » (SCF). Piloté par le laboratoire LaTTiCe sous la direction de C. Fuchs, ce projet a réuni des membres de quatre laboratoires français : B. Combettes et A. Kuyumcuyan (ATILF, Nancy), C. Guimier (CRISCO, Caen), N. Fournier et M. Morinièr..

    Eléments initiaux : combinaisons et schémas préférentiels dans un corpus d’articles scientifiques

    Get PDF
    La présente contribution s’attache à l’étude, dans un corpus d’articles scientifiques en sciences humaines, de la zone préverbale, c’est-à-dire des éléments initiaux (EI) et du sujet préverbal. Il s’agit de déterminer les combinaisons attestées des différents EI (11 catégories définies par des critères sémantiques et morpho-syntaxiques) en relation avec la nature du sujet. L’étude permet tout d’abord de déterminer que les séquences sans EI (sujet initial) excèdent celles avec EI, et que, parmi ces dernières, celles avec un seul EI sont, de loin, les plus fréquentes. L’analyse porte ensuite sur la fréquence des différents EI (viennent en tête les éléments logico-pragmatiques, spatio-temporels et les relations logiques), ainsi que sur les chaînes dans lesquelles ils entrent préférentiellement, tant du point de vue du nombre d’EI possible et de leur catégorie, que de leur position dans ces chaînes. La première position s’avère ainsi associée de manière nettement préférentielle aux EI logico-pragmatiques. La nature du sujet apparaît par ailleurs corrélée à certaines caractéristiques des EI. Il ressort de l’étude que les textes du corpus présentent une relative homogénéité, même si des divergences ponctuelles apparaissent entre certaines disciplines.This article focuses on the preverbal zone of the sentence (that is initial elements (IE) + preverbal subject), in a corpus of scientific articles in the humanities. It aims to identify the different attested combinations of IE (11 categories defined by semantic and morpho-syntactic criteria) in relation to the nature of the subject. Firstly, the study shows that the sequences without IEs (initial subject) exceed those with IEs, and that among the latter, those with a single IE are by far the most common. The analysis then focuses on the frequency of the different categories of IE (the most frequent are logico-pragmatic and spatio-temporal elements, and those denoting logical relations), and on the sequences in which they appear. We consider the number of IEs, their category, as well as their position in the sequence. We show that the initial position in a chain is usually occupied by logico-pragmatic IEs. Moreover the nature of the subject appears to be correlated with certain characteristics of the IE. The study reveals that the texts in the corpus are relatively homogeneous, although occasionally differences emerge between disciplines

    The Oupoco Database of French Sonnets from the 19th Century

    Get PDF
    The Oupoco Database is a collection of 4,872 French sonnets developed in the framework of the Oupoco Project. It is mainly composed of poems from the 19th and early 20th century. The sonnets come from different sources from the Internet and from a collaboration with the Bibliothèque nationale de France. Every sonnet has a specific license (depending on the source it comes from), but the whole collection can be reused for free (under the Creative Commons Attribution 4.0 International license)

    Une chaîne d’extraction pour l’enrichissement de bases de données archéologiques

    Get PDF
    Cet article décrit une expérience visant à extraire des informations textuelles pour alimenter automatiquement des bases de données dans le domaine de l’archéologie. Les premières expériences ont porté sur les Cartes archéologiques de la Gaule (CAG). Elles ont permis d’observer des problèmes de transfert d’information et d’évolution des thésaurus, un même terme ne désignant pas toujours la même notion au cours du temps, ou un site archéologique pouvant avoir été catégorisé de différentes manières au cours du temps.This article focuses on an experiment aimed at extracting information from text in order to automatically feed databases in the field of archaeology. The first experiments concerned a set of books: the Cartes archéologiques de la Gaule (CAG). Knowledge transfer and meaning evolution phenomena were observed when thesauri were examined, since the same term can refer to different notions, and the same archaeological site may be categorised differently, at different points in time

    Linguistique outillée pour l'étude des chaînes de référence : questions méthodologiques et solutions techniques

    No full text
    International audienceA travers le projet d'annotation de chaînes de référence dont il est question dans ce volume, nous montrons la complexité et la richesse des liens qui s'instaurent entre annotateur, outil et corpus. Ceci est inhérent au fait que le travail d'annotation n'est pas linéaire. Il passe par la constitution d'un corpus - qui entraîne l'utilisation et la création de divers formats permettant la manipulation et la pérennisation des données, la mise en place d'une grille d'annotation - qui doit pouvoir être partagé par un groupe et être évolutive. Il passe aussi par l'annotation et l'analyse des données - où se confrontent corpus et grille d'analyse. A chaque étape peuvent émerger des problèmes et des nécessités de corrections. Ainsi, pour que l'outil remplisse sa pleine fonction d'aide à l'annotation, il sera pensé comme un instrument qu'il faut sans cesse faire évoluer

    Editorial genetics and linguistic analysis

    No full text
    We present a method and some tools to analyze textual variation for editotial genetics
    corecore