2,719 research outputs found

    Influence des points d'ancrage pour l'extraction lexicale bilingue à partir de corpus comparables spécialisés

    Get PDF
    International audienceBilingual lexicon extraction from comparable corpora gives good results for large corpora but drops significantly for small size corpora. In order to compensate this weakness, we suggest a new contribution dedicated to the lexical alignment from specialized comparable corpora that strengthens the representativeness of the lexical contexts based on domainspecific vocabulary. The experiments carried out in this way show that taking better account the specialized vocabulary induces a significant improvement in the quality of extracted lexicons

    Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

    Full text link
    L’objectif de cette étude est de repérer des néologismes à partir de corpus de textes français au moyen d’une méthode semi-automatique. Plus précisément, nous extrayons les néologismes de corpus associés à deux domaines différents, mais traitant du même thème, nous examinons leur répartition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des médias sociaux. Le premier aborde les médias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont été privilégiés, car la communication considère ce qui a trait l’utilisation des médias sociaux et l’informatique aborde leur cartographie. La méthode fait appel à l’extracteur de termes TermoStat pour recenser la terminologie des médias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spécifiques de chaque point de vue à une méthode de validation divisée en trois tests destinés à valider leur statut néologique : des dictionnaires spécialisés, des dictionnaires de langue générale et un outil de visualisation de n-grammes. Finalement, nous étiquetons les néologismes selon la typologie de Dubuc (2002). L’analyse des résultats de la communication et de l’informatique est comparative. La comparaison des deux corpus révèle les contributions respectives de la communication et de l'informatique à la terminologie des médias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a également permis de repérer 60 néologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs à celui de l’informatique et 4 communs aux deux corpus. La recherche révèle également que les composés par subordination sont les types de néologismes les plus présents dans nos résultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

    Filtrage pour la construction de résumés multi-documents guidée par un profil

    Get PDF
    National audienceDans cet article, nous présentons une méthode de filtrage permettant de sélectionner à partir d'un ensemble de documents les extraits de textes les plus significatifs relativement à un profil défini par un utilisateur. Pour ce faire, nous mettons l'accent sur l'utilisation conjointe de profils structurés et d'une analyse thématique des documents. Cette analyse permet également d'étendre le vocabulaire définissant un profil en fonction du document traité en sélectionnant les termes de ce dernier les plus étroitement liés aux termes du profil. Tous ces aspects assurent une plus grande finesse du filtrage tout en permettant la sélection d'extraits de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d'apporter des informations nouvelles et donc intéressantes. L'intérêt de l'approche présentée a été illustré au travers du système REDUIT qui a fait l'objet d'une évaluation concernant à la fois le filtrage de documents et l'extraction de passages

    Une Analyse préalable à l'indexation de transcriptions de conversations téléphoniques

    No full text
    International audienceNous nous intéressons dans cet article au problème de l'indexation de documents audio de type " conversation téléphonique ". Nous nous interrogeons en particulier sur le bien fondé de l'utilisation, pour ce type de documents, des méthodes d'indexation classiquement utilisées en recherche d'information textuelle. Pour répondre à ces questions, nous revisitons certaines hypothèses de la recherche d'information en étudiant la spécificité et l'applicabilité de ces hypothèses à des transcriptions de conversations téléphoniques. Nos observations nous conduisent à proposer les bases d'un système d'indexation pour ce type de documents qui comprend un module de découpage thématique de la conversation

    Détection de la cohésion lexicale par voisinage distributionnel : application à la segmentation thématique

    Get PDF
    prix du meilleur articleNational audienceThe present work takes place within the Voiladis project (Lexical neighborhood for discourse analysis), whose purpose is to exploit lexical cohesion markers in the study of various discursive phenomena. We want to show the relevance of a distribution-based lexical resource to locate interesting relations between lexical items in a text. We call "neighbors" lexical items that share a significant number of syntactic contexts in a given corpus. In order to evaluate the usefulness of such a resource, we address the task of topical segmentation of text, which generally makes use of some kind of lexical relations. We discuss here the importance of the particular resource used for the task of text segmentation. Using a system inspired by [Hearst 1997], we show that lexical neighbors provide better results than a classical resource.Cette étude s'insère dans le projet VOILADIS (VOIsinage Lexical pour l'Analyse du DIScours), qui a pour objectif d'exploiter des marques de cohésion lexicale pour mettre au jour des phénomènes discursifs. Notre propos est de montrer la pertinence d'une ressource, construite par l'analyse distributionnelle automatique d'un corpus, pour repérer les liens lexicaux dans les textes. Nous désignons par "voisins" les mots rapprochés par l'analyse distributionnelle sur la base des contextes syntaxiques qu'ils partagent au sein du corpus. Pour évaluer la pertinence de la ressource ainsi créée, nous abordons le problème du repérage des liens lexicaux à travers une application de TAL, la segmentation thématique. Nous discutons l'importance, pour cette tâche, de la ressource lexicale mobilisée ; puis nous présentons la base de voisins distributionnels que nous utilisons ; enfin, nous montrons qu'elle permet, dans un système de segmentation thématique inspiré de [Hearst 1997], des performances supérieures à celles obtenues avec une ressource traditionnelle

    Un corpus pour optimiser l’identification automatique des chaînes de référence

    Get PDF
    Nous présentons l’étude d’un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d’identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s’inscrit dans un projet visant le développement d’un outil de détection automatique de thèmes pour optimiser l’indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l’indexation thématique et prend en compte le genre du document pour fournir à l’utilisateur les documents pertinents liés à sa requête. Dans notre perspective de Traitement Automatique des Langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. Nous avons défini cinq critères pour comparer les CR suivant le genre textuel : la longueur moyenne des CR (nombre de maillons), la distance moyenne entre deux maillons d’une CR, la catégorie grammaticale privilégiée dans l’ensemble des maillons des CR, la classe grammaticale des premiers maillons des CR, la correspondance entre le premier maillon d’une CR et le thème phrastique (élément préverbal). L’étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.We present a multi-genre corpus study to automatically identify reference chains. Reference chains are linguistic markers identifying topic continuation or topic shift in discourse. The study is part of a project aiming at developing a system for automatic topic detection to optimize documents indexing in a search engine. The search engine uses topic indexing but also document genre to provide the user with relevant documents related to its application. In the view of Natural Language Processing, we use a corpus of five genres (articles, editorials, novels, European laws, public reports) to study the reference chains. We define five criteria to compare reference chains according textual genre : the average length of the reference chains (number of mentions), the average distance between two mentions of a reference chain, the grammatical category preferred in all mentions of the reference chains, the grammatical class of the first mentions of the reference chains, the correspondence between the first mention of a reference chain and the sentence topic. The corpus analysis reveals several differences across genres. We use these properties to configure our system according to the genre. We then discuss the results

    Un corpus pour optimiser l’identification automatique des chaînes de référence

    Get PDF
    Nous présentons l’étude d’un corpus multi-genres constitué pour identifier de manière automatique les chaînes de référence (CR). Les CR sont des marqueurs linguistiques permettant d’identifier des ruptures ou des continuations thématiques dans le discours. Cette étude s’inscrit dans un projet visant le développement d’un outil de détection automatique de thèmes pour optimiser l’indexation des documents dans un moteur de recherche. Le moteur de recherche utilise l’indexation thématique et prend en compte le genre du document pour fournir à l’utilisateur les documents pertinents liés à sa requête. Dans notre perspective de Traitement Automatique des Langues, nous utilisons un corpus composé de cinq genres textuels (articles journalistiques, éditoriaux, romans, lois européennes, rapports publics) pour étudier les CR. Nous avons défini cinq critères pour comparer les CR suivant le genre textuel : la longueur moyenne des CR (nombre de maillons), la distance moyenne entre deux maillons d’une CR, la catégorie grammaticale privilégiée dans l’ensemble des maillons des CR, la classe grammaticale des premiers maillons des CR, la correspondance entre le premier maillon d’une CR et le thème phrastique (élément préverbal). L’étude a révélé des différences quant au matériau linguistique présent dans les CR suivant le genre textuel. Nous utilisons ces propriétés dans notre calcul des CR, pour paramétrer notre outil suivant le genre. Nous discutons les résultats obtenus.We present a multi-genre corpus study to automatically identify reference chains. Reference chains are linguistic markers identifying topic continuation or topic shift in discourse. The study is part of a project aiming at developing a system for automatic topic detection to optimize documents indexing in a search engine. The search engine uses topic indexing but also document genre to provide the user with relevant documents related to its application. In the view of Natural Language Processing, we use a corpus of five genres (articles, editorials, novels, European laws, public reports) to study the reference chains. We define five criteria to compare reference chains according textual genre : the average length of the reference chains (number of mentions), the average distance between two mentions of a reference chain, the grammatical category preferred in all mentions of the reference chains, the grammatical class of the first mentions of the reference chains, the correspondence between the first mention of a reference chain and the sentence topic. The corpus analysis reveals several differences across genres. We use these properties to configure our system according to the genre. We then discuss the results

    Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

    Get PDF
    M. Paul DELÉGLISE – Professeur à l'Université du Maine – Rapporteur M. Patrick GROS – Chargé de Recherche à l'IRISA Rennes – Rapporteur M. Daniel DOURS – Professeur à l'Université Toulouse III – Président du jury M. Jean CARRIVE – Ingénieur de Recherche à l'Institut National de l'Audiovisuel – Membre M. Dominique FOHR – Chargé de Recherche au LORIA Nancy – MembreTo process the quantity of audiovisual information available in a smart and rapid way, it is necessary to have robust and automatic tools. This work addresses the soundtrack indexing and structuring of multimedia documents. Their goals are to detect the primary components: speech, music and key sounds. For speech/music classification, three unusual parameters are extracted: entropy modulation, stationary segment duration (with a Forward-Backward Divergence algorithm) and the number of segments. These three parameters are merged with the classical 4 Hertz modulation energy. Experiments on radio corpora show the robustness of these parameters. The system is compared and merged with a classical system. Another partitioning consists in detecting pertinent key sounds. For jingles, the selection of candidates is done by comparing the “signature” of each jingle with the data flow. This system is simple, fast and efficient. Applause and laughter are based on GMM with spectral analysis. A TV corpus validates this study by encouraging results. The detection of key words is carried out in a traditional way: the problem here is not to improve the existing systems but to be in a structuring task: these key words inform about the program type (news, weather, documentary...). Through two studies, a reflection is done for the component uses in order to find a temporal structure of the audiovisual documents. The first study is a detection of a recurring production invariant in program collections. The second permits to structure TV news into topics. Some examples of video analysis contribution are developed.Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés

    Automatisation des tableaux de bord et cohérence des comportements

    Get PDF
    Cet article a pour objet de s'interroger sur les rapports entre l'automatisation des tableaux de bord et la cohérence des comportements. Il ressort de l'étude de deux cas, celui d'une entreprise industrielle et celui d'une banque, que l'augmentation de la formalisation ne crée pas davantage de rigidité mais produit au contraire plus de dynamique ou de continuité et de permanence. Cependant, les résultats montrent aussi la limite d'une gestion automatique de la cohérence dans la mesure où la production des informations nécessaires à l'adaptation à long terme de la firme semble difficilement automatisable.Cohérence; Contrôle de gestion; Performance; Automatisation des tableaux de bord
    • …
    corecore