21 research outputs found

    Structuration de contenus audio-visuel pour le résumé automatique

    Get PDF
    Ces dernières années, avec l apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l extraction des contenus, la structuration des documents, la définition et l estimation des fonctions d intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu elle repose sur la construction d un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l analyse factorielle telle qu elle a été utilisée récemment en identification du locuteur. L originalité de notre contribution tient à l utilisation des décompositions par analyse factorielle pour l estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l utilisation de différents niveaux de représentation et de différentes sources d informations permet de caractériser le style éditorial d une vidéo en se basant principalement sur l analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l essentiel de l information relative au genre était contenue dans l image. Une autre contribution concerne l identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l état de l art sur ce type d approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu est une vue synthétique. S agit-il de ce qui le caractérise globalement ou de ce qu un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d intérêts correspondants à 3 différents critères : la saillance, l expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers.These last years, with the advent of sites such as Youtube, Dailymotion or Blip TV, the number of videos available on the Internet has increased considerably. The size and their lack of structure of these collections limit access to the contents. Sum- marization is one way to produce snippets that extract the essential content and present it as concisely as possible.In this work, we focus on extraction methods for video summary, based on au- dio analysis. We treat various scientific problems related to this objective : content extraction, document structuring, definition and estimation of objective function and algorithm extraction.On each of these aspects, we make concrete proposals that are evaluated.On content extraction, we present a fast spoken-term detection. The main no- velty of this approach is that it relies on the construction of a detector based on search terms. We show that this strategy of self-organization of the detector im- proves system robustness, which significantly exceeds the classical approach based on automatic speech recogntion.We then present an acoustic filtering method for automatic speech recognition based on Gaussian mixture models and factor analysis as it was used recently in speaker identification. The originality of our contribution is the use of decomposi- tion by factor analysis for estimating supervised filters in the cepstral domain.We then discuss the issues of structuring video collections. We show that the use of different levels of representation and different sources of information in or- der to characterize the editorial style of a video is principaly based on audio analy- sis, whereas most previous works suggested that the bulk of information on gender was contained in the image. Another contribution concerns the type of discourse identification ; we propose low-level models for detecting spontaneous speech that significantly improve the state of the art for this kind of approaches.The third focus of this work concerns the summary itself. As part of video summarization, we first try, to define what a synthetic view is. Is that what cha- racterizes the whole document, or what a user would remember (by example an emotional or funny moment) ? This issue is discussed and we make some concrete proposals for the definition of objective functions corresponding to three different criteria : salience, expressiveness and significance. We then propose an algorithm for finding the sum of the maximum interest that derives from the one introduced in previous works, based on integer linear programming.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs

    Get PDF
    The task of speaker diarization, as defined by NIST, considers the recordings from a corpus as independent processes. The recordings are processed separately, and the overall error rate is a weighted average. In this context, detected speakers are identified by anonymous labels specific to each recording. Therefore, a speaker appearing in several recordings will be identified by a different label in each of the recordings. Yet, this situation is very common in broadcast news data: hosts, journalists and other guests may appear recurrently. Consequently, speaker diarization has been recently considered in a broader context, where recurring speakers must be uniquely identified in every recording that compose a corpus. This generalization of the speaker partitioning problem goes hand in hand with the emergence of the concept of collections, which refers, in the context of speaker diarization, to a set of recordings sharing one or more common characteristics.The work proposed in this thesis concerns speaker clustering of large audiovisual collections (several tens of hours of recordings). The main objective is to propose (or adapt) clustering approaches in order to efficiently process large volumes of data, while detecting recurrent speakers. The effectiveness of the proposed approaches is discussed from two point of view: first, the quality of the produced clustering (in terms of error rate), and secondly, the time required to perform the process. For this purpose, we propose two architectures designed to perform cross-show speaker diarization with collections of recordings. We propose a simplifying approach to decomposing a large clustering problem in several independent sub-problems. Solving these sub-problems is done with either of two clustering approaches which takeadvantage of the recent advances in speaker modeling.La tâche de Segmentation et Regroupement en Locuteurs (SRL), telle que définie par le NIST, considère le traitement des enregistrements d’un corpus comme des problèmes indépendants. Les enregistrements sont traités séparément, et le tauxd’erreur global sur le corpus correspond finalement à une moyenne pondérée. Dans ce contexte, les locuteurs détectés par le système sont identifiés par des étiquettes anonymes propres à chaque enregistrement. Un même locuteur qui interviendrait dans plusieurs enregistrements sera donc identifié par des étiquettes différentes selon les enregistrements. Cette situation est pourtant très fréquente dans les émissions journalistiques d’information : les présentateurs, les journalistes et autres invités qui animent une émission interviennent généralement de manière récurrente. En conséquence, la tâche de SRL a depuis peu été considérée dans un contexte plus large, où les locuteurs récurrents doivent être identifiés de manière unique dans tous les enregistrements qui composent un corpus. Cette généralisation du problème de regroupement en locuteurs va de pair avec l’émergence du concept de collection, qui se réfère, dans le cadre de la SRL, à un ensemble d’enregistrements ayant une ou plusieurs caractéristiques communes. Le travail proposé dans cette thèse concerne le regroupement en locuteurs sur des collections de documents audiovisuels volumineuses (plusieurs dizaines d’heures d’enregistrements). L’objectif principal est de proposer (ou adapter) des approches de regroupement afin de traiter efficacement de gros volumes de données, tout en détectant les locuteurs récurrents. L’efficacité des approches proposées est étudiée sous deux aspects : d’une part, la qualité des segmentations produites (en termes de taux d’erreur), et d’autre part, la durée nécessaire pour effectuer les traitements. Nous proposons à cet effet deux architectures adaptées au regroupement en locuteurs sur des collections de documents. Nous proposons une approche de simplification où le problème de regroupement est représenté par une graphe non-orienté. La décompositionde ce graphe en composantes connexes permet de décomposer le problème de regroupement en un certain nombre de sous-problèmes indépendants. La résolution de ces sous-problèmes de regroupement est expérimentée avec deux approches de regroupements différentes (HAC et ILP) tirant parti des récentes avancées en modélisation du locuteur (i-vector et PLDA)

    Language Archive Records: Interoperability Of Referencing Practices And Metadata Models

    Get PDF
    With the rise of the digital language archive and the plethora of referenceable content, a critical question arises: “How easy is it for authors to use existing tools to cite the content they are referencing?” This is especially important as people use archived materials as evidence within published language descriptions. Archived resource metadata is well discussed in language documentation circles; however, bibliographic metadata and its accessibility are less discussed. Discoverability metadata, a subset of archived resource metadata, serves aggregators like OLAC by declaring a resource exists. In contrast, bibliographic metadata functions within documents by declaring where to find a resource that is known to exist. In this thesis I look at the interaction between Zotero, an open source reference manager, five different archives (PARADISEC, Pangloss, SIL Language & Culture Archives, ELAR, and Kaipuleohone), and three methods of importing metadata from them into Zotero (DOI import, HTML embedded metadata, and file based import). I report on collection and audio artifact metadata provided by the archive to the author via Zotero’s interfaces: what’s included, what’s missing, and what’s misaligned. Understanding the processes by which authors collect metadata for the purpose of citation and referencing, what metadata they need, and if it is being provided, facilitates the design of useful interfaces to archives which elevate the value of archives to all groups who interact with them. I propose that interaction design is an additional factor to those presented by Chang (2010) in her well received checklist for evaluating language archives. Interaction design, the technical field concerned with designing how people interact with objects and services, is the design process by which archives manage the interactions they have with those they serve. I specifically argue that interaction design adds value to an archive’s brand, as perceived by the network of archive users, when it facilitates the interaction with bibliographic metadata about artifacts within holdings. This added value speaks to the sustainability of an archive within its sphere of influence. It is increasingly important in the career development of scholars to meet metric-based assessments of their influence in scholarly discussions. Reference counts, including those pointing to the evidentiary record housed in archives, play a significant role in establishing quantitative baseline metrics for scholars

    DE LA MODELISATION A L'EXPLOITATION DES DOCUMENTS A STRUCTURES MULTIPLES

    Get PDF
    With the recent development of new information and communication technologies, the paper documents are transformed to digital documents. Furthermore, it considers that the document is no longer seen as a whole, or as a monolithic bloc, but as organized entities. Exploiting these documents amount to identify and locate these entities. These entities are connected by relationships to give a "form" to document. Several types of relationships may occur, so that several "forms" of a document emerge. These different materializations of the same document are related to different uses of the same document and are essential for optimal management and shared of holdings. The work presented in this thesis aims to address the challenges of representing different materializations of a document through its representation of entities and their relationships. If those materializations are translated through structures, the issues are related to the representation of multistructured documents. Our work focuses mainly on the modeling, integration and exploitation of multistructured documents: (1) Proposal of multistructured document model. This model incorporates two levels of description: a specific level to describe each document through entities that compose and a generic level to identify document kinds through the grouping of similar structures. (2) Proposal of techniques for extracting structure (implicit or explicit) of a document (the specific level) and classification of this structure with respect to common structures (the generic level). The classification algorithm proposed includes a calculation of distance called "structural" (comparison of trees and graphs). This classification is associated with a process of verification of the "cohesion" of classes and possible reorganization of disrupted classes. (3) Proposal of document exploitation technical from their structures and their contents: (a) a document search that can reproduce documentary granules through criteria based on research of structures and / or content, (b) a multidimensional analysis that is to analyze and visualize the documentary information across multiple dimensions (of structures and / or content). In order to validate our proposals, we have developed a tool for integration and analysis of multistructured documents, called MDOCREP (Multistructured Document Repository). This tool provides on the one hand, the extraction and classification of document structures, and on the other hand, the querying and the multidimensional analysis of documents from their different structures.Avec l'évolution des nouvelles technologies de l'information et de la communication, les documents papier ont laissé la place aux documents numériques. On considère de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organisé d'entités. Exploiter ces documents revient à identifier et retrouver ces entités. Ces dernières sont reliées par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaître, de sorte à ce que plusieurs « formes » d'un même document émergent. Ces différentes matérialisations d'un même document sont liées à des usages différents d'un même document et sont primordiales pour une gestion optimale et partagée des fonds documentaires. Les travaux présentés dans cette thèse visent à faire face aux défis de représentation des différentes matérialisations d'un document au travers de la représentation de ses entités et de leurs relations. Si ces matérialisations sont traduites par des structures, les enjeux concernent la représentation des documents à structures multiples. Nos travaux portent essentiellement sur la modélisation, l'intégration et l'exploitation des documents à structures multiples : (1) Proposition d'un modèle de documents multistructurés. Ce modèle intègre deux niveaux de description : un niveau spécifique permettant de décrire chaque document au travers des entités qui le composent et un niveau générique permettant de définir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau spécifique) et de classification de cette structure par rapport à des structures communes (niveau générique). L'algorithme de classification proposé intègre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette démarche de classification est associée à une démarche de vérification de la « cohésion » des classes et de réorganisation éventuelle des classes perturbées. (3) Proposition de techniques d'exploitation des documents à partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des critères de recherches basés sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste à analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons développé un outil d'aide à l'intégration et à l'analyse de documents à structures multiples, intitulé MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents à partir de leurs différentes structures

    Segmentation et identification audiovisuelle de personnes dans des journaux télévisés

    Get PDF
    This Phd thesis is about speaker and face identification in broadcast news. The identification is relying on the names automatically extracted from overlaid texts which are used to announce the speakers. Since those names appear sparsely in the video, identification performance depends on the diarization performance i.e. the capacity of detecting and clustering together all the moments when a given person appears or speaks. However, intra-person variability in the video signal make this task difficult. In the audio modality, this variability comes from overlap speech and background noise. For the video, it consists in head pose variations and lighting conditions (especially in report scenes). A context-aware model is proposed to optimize the diarization for a better identification. Firstly, a Conditional Random Field (CRF) model isproposed to perform the diarization jointly over the speech segments and the face tracks. Secondly, an identifcation system is designed. It is based on the combination of a naming CRF at cluster level and the diarization CRF. In particular, context information extracted from the image background and the names extracted from the overlaid texts are integrated in the diarization CRF at segment level. The use of those elements enable us to obtain better performances in diarization and identification, especially in studio scenes.Cette thèse traite de l’identification des locuteurs et des visages dans les journaux télévisés. L’identification est effectuée à partir des noms affichés à l’écran dans les cartouches qui servent couramment à annoncer les locuteurs. Puisque ces cartouches apparaissent parcimonieusement dans la vidéo, obtenir de bonnes performances d’identification demande une bonne qualité du regroupement audiovisuel des personnes. Par regroupement, on entend ici la tâche de détecteret regrouper tous les instants où une personne parle ou apparaît. Cependant les variabilités intra-personnes gênent ce regroupement. Dans la modalité audio, ces variabilités sont causées par la parole superposée et les bruits de fond. Dans la modalité vidéo, elles correspondent essentiellement à des variations de la pose des visages dans les scènes de plateaux avec, en plus, des variations de luminosité (notamment dans le cas des reportages). Dans cette thèse, nous proposons une modélisation du contexte de la vidéo est proposée afin d’optimiser le regroupement pour une meilleure identification. Dans un premier temps, un modèle basé sur les CRF est proposé afin d’effectuer le regroupement audiovisuel des personnes de manière jointe. Dans un second temps, un système d’identification est mis en place, basé sur la combinaison d’un CRF de nommage à l’échelle des classes, et du CRF développé précédemment pour le regroupement. En particulier, des informations de contexte extraites de l’arrière plan des images et des noms extraits des cartouches sont intégrées dans le CRF de regroupement. Ces éléments permettent d’améliorer le regroupement et d’obtenir des gains significatifs en identification dans les scènes de plateaux

    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques

    Get PDF
    Cette thèse est réalisée dans le cadre du projet ANR CONTINT DIADEMS sur l'indexation de documents ethnomusicologiques sonores. Les données que nous traitons sont fournies par les partenaires ethnomusicologues du projet et elles sont issues des archives du Musée de l'Homme de Paris. Les travaux effectués lors de cette thèse consistent à développer des méthodes permettant de faire une structuration automatique des documents musicaux et ethnomusicologiques basée sur les personnes. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Il permet, tout d'abord, de découper les zones de chant en des segments acoustiquement homogènes, i.e. en groupe de chanteur(s) afin d'avoir une segmentation en tours de chant. Ensuite, une phase de regroupement est effectuée afin de rassembler tous les segments chantés par un même groupe de chanteur(s) dans une seule classe. Notre première contribution est la définition de la notion de " tour de chant " et la proposition de règles d'annotation manuelle d'un enregistrement en des segments de tours de chant. La deuxième est la proposition d'une méthode de paramétrisation de la voix des chanteurs en implémentant une stratégie de sélection de bandes fréquentielles pertinentes basée sur la variance de celles-ci. La troisième est l'implémentation d'un algorithme de segmentation dynamique adapté à un contexte de chant en utilisant le Critère d'Information Bayésien (BIC). La quatrième est la proposition d'une méthode de Décision par Consolidation A Posteriori, nommée DCAP, pour pallier au problème de variabilité du paramètre de pénalité du BIC. En effet, comme le choix a priori d'une valeur optimale de ce paramètre n'est pas possible, nous effectuons un vote majoritaire sur plusieurs sorties de segmentations obtenues avec différentes valeurs de ce paramètre. Des gains d'environ 8% et 15% sont obtenus sur nos deux corpus avec cette méthode par rapport à une valeur standard du paramètre de pénalité. La cinquième est l'adaptation de la méthode DCAP pour la réalisation de l'étape de regroupement en chanteurs.This work was done in the context of the ANR CONTINT DIADEMS project on indexing ethno-musicological audio recordings. The data that we are studying are provided by the Musée de l'Homme, Paris, within the context of this project. The work performed in this thesis consists of developing automatic structuring methods of musical and ethno-musicological documents based on the persons. This thesis touchs on an unexplored subject in our knowledge of the segmentation and clustering in singers of musical recordings. We propose a complete system in this subject that we called singer diarization by analogy with speaker diarization system on speech context. Indeed, this system is inspired from existing studies performed in speaker diarization and is designed to work on studio music recordings as well as on recordings with a variable sound quality (done outdoors). The first step of this system is the segmentation in singer turns which consists of segmenting musical recordings into segments "acoustically homogeneous" by singer group. The second step is the clustering which consists of labelling all segments produced by the same group of singers with a unique identifier. Our first contribution involved the definition of the term " singer turns " and the proposal of rules for manual annotation in singer turns segments. The second consisted in the proposal of a feature extraction method for the characterization of singer voices by implementing a method to select the frequency coefficients, which are the most relevant, based on the variance of these coefficients. The third is the implementation of a dynamic segmentation algorithm adapted to the singing context by using the Bayesian Information Criterion (BIC). The fourth is the proposal of a method, called DCAP, to take a posteriori decisions in order to avoid the variability problem of the BIC penalty parameter. Indeed, a priori choice of an optimal value for this parameter is not possible. This led us to perform a majority voting on a several segmentations obtained with different values of this parameter. A gain of about 8% and 15% is obtained on our two corpora with this method compared to the results found with a standard value of the penalty parameter. The fifth is the adaptation of our DCAP method in order to perform singer clustering step

    Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

    Get PDF
    M. Paul DELÉGLISE – Professeur à l'Université du Maine – Rapporteur M. Patrick GROS – Chargé de Recherche à l'IRISA Rennes – Rapporteur M. Daniel DOURS – Professeur à l'Université Toulouse III – Président du jury M. Jean CARRIVE – Ingénieur de Recherche à l'Institut National de l'Audiovisuel – Membre M. Dominique FOHR – Chargé de Recherche au LORIA Nancy – MembreTo process the quantity of audiovisual information available in a smart and rapid way, it is necessary to have robust and automatic tools. This work addresses the soundtrack indexing and structuring of multimedia documents. Their goals are to detect the primary components: speech, music and key sounds. For speech/music classification, three unusual parameters are extracted: entropy modulation, stationary segment duration (with a Forward-Backward Divergence algorithm) and the number of segments. These three parameters are merged with the classical 4 Hertz modulation energy. Experiments on radio corpora show the robustness of these parameters. The system is compared and merged with a classical system. Another partitioning consists in detecting pertinent key sounds. For jingles, the selection of candidates is done by comparing the “signature” of each jingle with the data flow. This system is simple, fast and efficient. Applause and laughter are based on GMM with spectral analysis. A TV corpus validates this study by encouraging results. The detection of key words is carried out in a traditional way: the problem here is not to improve the existing systems but to be in a structuring task: these key words inform about the program type (news, weather, documentary...). Through two studies, a reflection is done for the component uses in order to find a temporal structure of the audiovisual documents. The first study is a detection of a recurring production invariant in program collections. The second permits to structure TV news into topics. Some examples of video analysis contribution are developed.Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés

    Explorations and Encounters in French

    Get PDF
    With a title derived literally from the explorations of the French in the Pacific and metaphorically from classroom encounters with another culture—both of which form important subsections to the volume—Explorations and Encounters in French actively seeks to unite those fields of enquiry sometimes seen as separate, namely, culture and language. The essays selected for inclusion in Explorations and Encounters in French bring together many of the current research strands in French Studies today, tapping into current pedagogical trends, analysing contemporary events in France, examining the Franco-Australian past, while reviewing teaching practice and the culture of teaching. Collectively, the essays reflect the common engagement with language, culture and society that characterizes the community of French teachers and scholars in Australia and abroad

    Amélioration des systèmes de traduction par analyse linguistique et thématique (Application à la traduction depuis l'arabe)

    Get PDF
    La traduction automatique des documents est considérée comme l une des tâches les plus difficiles en traitement automatique des langues et de la parole. Les particularités linguistiques de certaines langues, comme la langue arabe, rendent la tâche de traduction automatique plus difficile. Notre objectif dans cette thèse est d'améliorer les systèmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une étude détaillée sur ces systèmes. Les principales recherches portent à la fois sur la construction de corpus parallèles, le prétraitement de l'arabe et sur l'adaptation des modèles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a été exploré pour en extraire automatiquement un corpus parallèle. Ensuite, différentes approches d adaptation du modèle de traduction sont exploitées, soit en utilisant le corpus parallèle extrait automatiquement soit en utilisant un corpus parallèle construit automatiquement.Nous démontrons que l'adaptation des données du système de traduction permet d'améliorer la traduction. Un texte en arabe doit être prétraité avant de le traduire et ceci à cause du caractère agglutinatif de la langue arabe. Nous présentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indépendant de toute ressource externe et permettant de réduire les temps de calcul. Cet outil permet de prédire simultanément l étiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prépositions, etc.) pour chaque mot, ensuite de séparer les proclitiques du lemme (ou mot de base). Nous décrivons également dans cette thèse notre outil de détection des entités nommées, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intégration de la détection des entités nommées dans la tâche de prétraitement et la pré-traduction de ces entités nommées en utilisant des dictionnaires bilingues. Nous présentons par la suite plusieurs méthodes pour l'adaptation thématique des modèles de traduction et de langue expérimentées sur une application réelle contenant un corpus constitué d un ensemble de phrases multicatégoriques.Ces expériences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systèmes lors de la traduction pour l'adaptation thématique. Il serait également intéressant d'effectuer une adaptation temporelle des modèles de traduction et de langue. Finalement, les systèmes de traduction améliorés arabe-français et arabe-anglais sont intégrés dans une plateforme d'analyse multimédia et montrent une amélioration des performances par rapport aux systèmes de traduction de base.Machine Translation is one of the most difficult tasks in natural language and speech processing. The linguistic peculiarities of some languages makes the machine translation task more difficult. In this thesis, we present a detailed study of machine translation systems from arabic to french and to english.Our principle researches carry on building parallel corpora, arabic preprocessing and adapting translation and language models. We propose a method for automatic extraction of parallel news corpora from a comparable corpora. Two approaches for translation model adaptation are explored using whether parallel corpora extracted automatically or parallel corpora constructed automatically. We demonstrate that adapting data used to build machine translation system improves translation.Arabic texts have to be preprocessed before machine translation and this because of the agglutinative character of arabic language. A prepocessing tool for arabic, SAPA (Segmentor and Part-of-speech tagger for Arabic), much faster than the state of the art tools and totally independant of any other external resource was developed. This tool predicts simultaneously morphosyntactic tags and proclitics (conjunctions, prepositions, etc.) for every word, then splits off words into lemma and proclitics.We describe also in this thesis, our named entity recognition tool for arabic, NERAr, and we focus on the impact of integrating named entity recognition in the preprocessing task. We used bilingual dictionaries to propose translations of the detected named entities. We present then many approaches to adapt thematically translation and language models using a corpora consists of a set of multicategoric sentences.These experiments open important research perspectives such as combining many systems when translating. It would be interesting also to focus on a temporal adaptation of translation and language models.Finally, improved machine translation systems from arabic to french and english are integrated in a multimedia platform analysis and shows improvements compared to basic machine translation systems.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF
    corecore