17 research outputs found

    ChaĂźne de traitement pour une approche discursive de l'analyse d'opinion

    Get PDF
    La structure discursive d'un texte est un Ă©lĂ©ment essentiel Ă  la comprĂ©hension du contenu vĂ©hiculĂ© par ce texte. Elle affecte, par exemple, la structure temporelle du texte, ou encore l'interprĂ©tation des expressions anaphoriques. Dans cette thĂšse, nous aborderons les effets de la structure discursive sur l'analyse de sentiments. L'analyse des sentiments est un domaine de recherche extrĂȘmement actif en traitement automatique des langues. Devant l'abondance de donnĂ©es subjectives disponibles, l'automatisation de la synthĂšse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donnĂ©. La plupart des travaux actuels proposent une analyse des opinions au niveau du document ou au niveau de la phrase en ignorant la structure discursive. Dans cette thĂšse, nous nous plaçons dans le contexte de la thĂ©orie de la SDRT (Segmented Discourse Representation Theory) et proposons de rĂ©pondre aux questions suivantes : -Existe-t-il un lien entre la structure discursive d'un document et les opinions Ă©mises dans ce mĂȘme document ? -Quel est le rĂŽle des relations de discours dans la dĂ©termination du caractĂšre objectif ou subjectif d'un segment textuel ? -Quel est le rĂŽle des Ă©lĂ©ments linguistiques, comme la nĂ©gation et la modalitĂ©, lors de la dĂ©termination de la polaritĂ© d'un segment textuel subjectif ? -Quel est l'impact de la structure discursive lors de la dĂ©termination de l'opinion globale vĂ©hiculĂ©e dans un document ? -Est-ce qu'une approche basĂ©e sur le discours apporte une rĂ©elle valeur ajoutĂ©e comparĂ©e Ă  une approche classique basĂ©e sur la notion de 'sacs de mots'? -Cette valeur ajoutĂ©e est-elle dĂ©pendante du genre de corpus ?The discourse structure of a document is a key element to understand the content conveyed by a text. It affects, for instance, the temporal structure of a text, or the interpretation of anaphoric expressions. The discourse structure showed its usefulness in numerous NLP applications, such as automatic summary, or textual entailment. In this thesis, we will study the effects of the discourse structure on sentiment analysis. Sentiment analysis is an extremely active research domain in natural language processing. The last years have seen the multiplication of the available textual data conveying opinion on the web, and the automation of the summary of opinion documents became crucial for who wants to keep an overview of the opinion on a given subject. A huge interest lies in these data, both for the companies who want to retrieve consumer opinion, and for the consumers willing to gather information. Most of the current research efforts describe an opinion extraction at the document level or at the sentence level, ignoring the discourse structure. In this thesis work, we address opinion extraction through the discourse framework of the SDRT (Segmented Discourse Representation Theory), and try to answer to the following questions: -Is there a link between the discourse structure of a document and the opinions contained in that document? -What is the role of discourse relations in the determination of whether a textual segment is objective or subjective? -What is the impact of the discourse structure in the determination of the overall opinion conveyed by a document? -Does a discourse based approach really bring additional value compared to a classical "bag of words" approach

    Identification automatique et analyse sémantique des marqueurs illocutoires du français québécois en contexte de conversation familiÚre

    Get PDF
    Les marqueurs illocutoires (MI) sont des unités lexicales indépendantes syntaxiquement qui réalisent des actes illocutoires expressifs, directifs ou assertifs. Ces mots-phrases, comme wow, coudon, franchement! et mon dieu!, nous apparaissent comme une des clés de l'expression de la subjectivité à l'oral en contexte de conversation. L'analyse automatique de ces unités, leur identification et la détermination de leur sens par un systÚme informatique, soulÚve des problÚmes particuliers liés à leur polysémie, à leur comportement syntaxique et à leur relative faible fréquence dans les corpus actuellement disponibles. Dans cette thÚse, nous cherchons à résoudre ces problÚmes à l'aide du Corpus de français parlé au Québec (CFPQ) comme source de données, des librairies en Python du Natural Language Toolkit (NLTK) et de scikit-learn comme outils informatiques et des travaux réalisés dans les cadres de la Métalangue sémantique naturelle (MSN) et de la théorie Sens-Texte (TST) comme outils théoriques. Suite à un état de la question au sujet des MI et du traitement automatique des marqueurs discursifs en général, nous présentons les résultats d'une expérience au sujet de l'identification automatique des MI ambigus présents dans le CFPQ. L'identification de certains MI est triviale parce que ceux-ci se présentent sous des formes qui ne sont pas ambiguës (chut et coudon, par exemple). L'identification des MI qui sont homonymes avec d'autres classes grammaticales (comme regarde et sérieux) est plus difficile. Nous voyons qu'il est possible de repérer ceux-ci à l'aide de méthodes automatiques qui obtiennent des f-mesures variant entre 75% et 100% selon les unités, avec une moyenne de 93,98% pour la meilleure méthode. Un étiqueteur à n-grammes et un classifieur de type SVM (support vector machine) sont les principaux outils informatiques utilisés par ces méthodes. L'étiqueteur à n-grammes est entraßné sur un ensemble d'étiquettes spécifiquement conçu pour favoriser l'identification des MI. Le classifieur SVM base principalement son entraßnement et son analyse sur l'observation des textes et des résultats de l'étiqueteur à n-grammes. Nous proposons ensuite un systÚme de description sémantique modulaire des MI qui nous permet de décrire leurs signifiés par la combinaison de 17 paraphrases simples en langue naturelle. Nous terminons notre étude par la présentation d'un exemple d'analyse de texte à l'aide du systÚme d'identification et d'interprétation des MI développé au cours de la thÚse

    De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

    Get PDF
    Les travaux prĂ©sentĂ©s dans ce mĂ©moire se situent dans le contexte de la recherche d'information. Plus prĂ©cisĂ©ment, nous proposons de nouveaux facteurs " centralitĂ©, frĂ©quence conceptuelle" permettant Ă  notre sens, de mieux caractĂ©riser la dimension sĂ©mantique du contenu des textes, allant au-delĂ  des mĂ©thodes d'indexation classiques basĂ©es exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de diffĂ©rents types de relations telles que -est-une partie-de, liĂ©s Ă , synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposĂ©e pour calculer la valeur de nos facteurs est bĂątie en trois Ă©tapes : (1) Extraction des concepts issus de WordNet1 associĂ©s aux termes du document puis dĂ©sambigĂŒisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces Ă©tapes construisent la vue sĂ©mantique des documents), (3) A l'intĂ©rieur de chaque cluster, chaque terme possĂšde un degrĂ© de " centralitĂ© ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " frĂ©quence conceptuelle " estimĂ©e par la somme des frĂ©quences de ces mots. D'une part, nous menons une Ă©tude sur des mĂ©thodes potentielles basĂ©es sur les facteurs proposĂ©s pour extraire des vues sĂ©mantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiĂ©rarchies offrant une vue du contenu sĂ©mantique des documents. Ensuite, ces vues seront Ă©laborĂ©es Ă  partir de nos nouveaux facteurs, mais aussi de l'utilisation des frĂ©quences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spĂ©cificitĂ©). Le poids relatif des vues partielles, la frĂ©quence et la spĂ©cificitĂ© de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiĂ©rarchisĂ©s de mots (prĂ©sents dans le texte ou sĂ©mantiquement associĂ©s Ă  des mots du texte), et de reflĂ©ter les concepts prĂ©sents dans le contenu du texte. L'obtention d'une meilleure reprĂ©sentation du contenu sĂ©mantique des textes aidera Ă  mieux retrouver les textes pertinents pour une requĂȘte donnĂ©e, et Ă  donner une vue synthĂ©tisĂ©e du contenu des textes proposĂ©s Ă  l'utilisateur en rĂ©ponse Ă  sa requĂȘte. D'autre part, nous proposons une technique de dĂ©sambiguĂŻsation du concept basĂ©e sur la centralitĂ©. En fait, le sens d'un terme est ambigu, il dĂ©pend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est prĂ©cise dans la couverture des sens de termes, oĂč un terme peut ĂȘtre attachĂ© Ă  plusieurs concepts. La mĂ©thode proposĂ©e consiste Ă  trouver le meilleur concept WordNet permettant de reprĂ©senter le sens du terme dĂ©signĂ© par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralitĂ©. L'utilisation d'une mĂ©thode de dĂ©sambiguĂŻsation est une Ă©tape inĂ©vitable dans une indexation conceptuelle, elle permet de mieux reprĂ©senter le contenu sĂ©mantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-Ă -vis d'une requĂȘte (tĂąche de RI ad-hoc). L'utilisation de nos facteurs sĂ©mantiques est intĂ©ressante dans la RI, oĂč nous estimons un degrĂ© de relativitĂ© entre les termes d'une requĂȘte et ceux d'un document indĂ©pendamment de leur prĂ©sence dans ce dernier. Dans ce cadre, nous avons proposĂ© une nouvelle fonction de pondĂ©ration basĂ©e sur la centralitĂ©, ainsi que nous avons intĂ©grĂ© les nouveaux facteurs Ă  des fonctions connues. Dans les diffĂ©rentes expĂ©rimentations menĂ©es, nous avons montrĂ© que l'intĂ©gration de nos facteurs sĂ©mantiques ramĂšne une amĂ©lioration au niveau de prĂ©cision dans un moteur de recherche d'information. TĂąche prometteuse pour une recherche plus ciblĂ©e et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text

    Lexiculture and Linguistics: a corpus-driven approach to brand names in everyday speech

    Get PDF
    Perfecto mais aussi Perfectos : quel est donc le comportement des noms de marque (NdM) dans le discours au quotidien ? De quelles facettes culturelles, collectivement partagĂ©es, les NdM deviennent-ils porteurs chez les locuteurs qui se les approprient comme partie intĂ©grante de leur bagage lexico-culturel ? À la confluence de sa nature linguistique et juridique, comment le signe linguistique du NdM s’adapte-t-il aux besoins de nomination des locuteurs ? Les parlants considĂšrent-ils Perfecto comme un NdM ou un nom de produit ? Sur la base de ces rĂ©flexions, l’objectif principal de cette thĂšse est de fournir un instantanĂ© lexico-culturel des NdM les plus courants au sein du panorama commercial français, Ă  l’aide de bases de donnĂ©es institutionnelles : INPI, EUR-Lex, CURIA et Araneum, un corpus de 1,2 milliard de token qui supporte notre recherche menĂ©e avec approche guidĂ©e sur corpus Ă  partir d’une base empirique de NdM rĂ©unis fin 2015. À l’aune des variations orthographique, morphosyntaxique et sĂ©mantique du NdM, l’analyse des donnĂ©es met en valeur la forte tendance des locuteurs Ă  se servir des NdM comme vecteurs de sens collectivement partagĂ© et Ă  laisser libre cours Ă  leur crĂ©ativitĂ© par le biais de cet outil linguistique.Perfecto but also perfectos: in other words, how do proprietary eponyms behave in our everyday language? Which shade of meaning of a collectively shared culture do they give voice to? How do these genericized trademarks carry the message among interlocutors who make them their own, as an integral part of their lexical-cultural baggage? At the crossroads where eponyms linguistic and juridical natures converge, how does the generic trademark linguistic sign adapt to the different speakers’ communicative needs? In fact, do they perceive Perfecto as a proprietary eponym or as a product tradename? The principal aim of this work is to provide an instantaneous lexical-cultural picture of the most widely used proprietary eponyms in the French commercial scene, using the available institutional databases, such as: the French Industrial Property database, European Law databases and Araneum, a corpus of 1,2 million tokens to support a research conducted with a corpus-driven approach on the basis of a list of empirical datasets of proprietary eponyms collected at the end of the year 2015. The data study and analysis highlight the marked trend amongst speakers to make use of proprietary eponyms as collectively shared vehicles of meaning and explore their creativity and thought-processes through eponyms

    La position initiale dans l'organisation du discours : <br />une exploration en corpus

    Get PDF
    This thesis proposes an exploratory study of discourse organization based on a written French corpus of 700.000 words. It focuses on initial position (defined as the pre-verbal zone) constituting the starting point for textual units at different levels of granularity: sections, paragraphs and sentences. Initial position is relevant in both cognitive and discourse linguistics. It is in this position that the speaker expresses the crucial information and it is from there that the reader's interpretation proceeds. Crucial information may consist in marking either continuity (e.g. expressing old information first) or discontinuity (e.g. indicating that the discourse frame in which incoming information is to be interpreted has changed).All pre-verbal zones in the corpus have been automatically annotated (23217 sentences) and their composition has been quantitatively analysed. Our data show that the discourse role of elements that appear in initial position is significantly related to discourse factors, and more precisely to the following three factors: text-type, textual position, and collocations in initial position.Cette thÚse propose une étude exploratoire de l'organisation du discours basée sur un corpus de français écrit (700 000 mots). L'organisation du discours est abordée par la position initiale définie en tant que point de départ d'unités textuelles pouvant relever de trois niveaux d'organisation : les phrases, les paragraphes et les sections. La position initiale est un sujet d'étude commun à la linguistique cognitive et à la linguistique du discours. C'est en cette position que l'auteur exprime l'information cruciale et c'est sur la base de cette information que l'interprétation du lecteur se réalise. L'information cruciale peut consister à marquer une continuité dans le discours (par exemple en commençant l'unité textuelle par une information donnée) ou une discontinuité (en signalant par exemple que le cadre dans lequel interpréter les propos a changé).Toutes les zones préverbales du corpus ont été annotées automatiquement. L'analyse quantitative de leur composition montre que le rÎle discursif des éléments en position initiale varie significativement selon des facteurs discursifs tels que le type de texte, la position textuelle et les collocations présentes en cette position

    Plurilinguisme, contact des langues et expression francophone en Angola

    Get PDF
    The complexity of the language configuration of several African countries deserves a freshlook at the phenomena of language contact and multilingualism because they introduce newdynamics suitable to be taken into account, to describe and study. Indeed, our researchfocuses on sociolinguistics and language teaching and it attempts to describe and explain alinguistic dynamism revealing a new form of identity in Angola. Communicative process thatthis study intends to highlight is characterized by a range of transgressions that we shallattempt to broach not really as distorted forms or disparity of a given standard language. Weview them as a (re) -appropriation of languages in contact into the communicative field andas an affirmation of a plural identity revealed by the representations of languages andsubconscious positions of Angolan speakers. The objective here is to identify the attitudes ofthe speakers, their sense of linguistic creativity and finally describe the variety of Frenchlanguage practiced in Angola, country with a large number of French speakers andmultilingual therein due to the unprecedented migrations forced by civil wars and colonialrepressions.La complexitĂ© de la configuration linguistique des plusieurs pays africains mĂ©rite un regardneuf sur les phĂ©nomĂšnes des langues en contact et de plurilinguisme dans la mesure oĂčelles instaurent de nouvelles dynamiques qu’il convient de prendre en compte, de dĂ©crire etd’étudier. En effet, notre recherche axĂ©e sur la sociolinguistique et la didactique des languestente de dĂ©crire et d’expliquer un dynamisme linguistique rĂ©vĂ©lateur d’une dynamiqueidentitaire en Angola. Les processus communicatifs que cette Ă©tude envisage de mettre enĂ©vidence se caractĂ©risent par un Ă©ventail de transgressions qu’on tentera d’aborder moinscomme des formes dĂ©viantes, des Ă©carts Ă  une norme donnĂ©e, que comme une (rĂ©)-appropriation des langues en contact dans le champ communicationnel et commel’affirmation d’une identitĂ© plurielle imprimĂ©e par les reprĂ©sentations des langues et despositionnements Ă©pilinguistiques des locuteurs angolais. L’objectif ici est de dĂ©celer lesattitudes des locuteurs, leur sens de crĂ©ativitĂ© linguistique et finalement dĂ©crire le françaispratiquĂ© en Angola, qui suite aux phĂ©nomĂšnes de migrations forcĂ©es par les guerres civileset des rĂ©pressions coloniales, abrite un grand nombre de locuteurs francophones etplurilingues en son sein.A complexidade da configuração linguĂ­stica de vĂĄrios paĂ­ses da África merece um novo olharsobre os fenĂŽmenos de contato de lĂ­nguas e do plurilinguismo, na medida em queintroduzem novas dinĂąmicas a serem levadas em conta para descrever e estudar. De fato,nossa pesquisa que gira em torno da sociolinguĂ­stica e didĂĄtica de lĂ­nguas, tenta descrever eexplicar um dinamismo linguĂ­stico que revela as dinĂąmicas identitĂĄrias em Angola. Oprocesso comunicativo que este estudo pretende destacar, apresentam uma gama detransgressĂ”es que tentamos de abordar nĂŁo como formas distorcidas ou desvios Ă determinada norma, mas como (re) -apropriação das lĂ­nguas em contato na esferacomunicativa e como afirmação de uma identidade plural impressa pelas representaçÔes delĂ­nguas e posiçÔes epilinguĂ­sticas dos locutores angolanos. Visamos aqui, identificar asatitudes dos falantes, seu senso de criatividade linguĂ­stica e finalmente descrever o francĂȘspraticado em Angola, que por força das migraçÔes sem precedentes impostas pelas guerrascivis e repressĂ”es coloniais, abarca um grande nĂșmero de falantes de francĂȘs e plurilinguesno seu seio

    Modélisation du profil émotionnel de l'utilisateur dans les interactions parlées Humain-Machine

    Get PDF
    Les travaux de recherche de la thÚse portent sur l'étude et la formalisation des interactions émotionnelles Humain-Machine. Au delà d une détection d'informations paralinguistiques (émotions, disfluences,...) ponctuelles, il s'agit de fournir au systÚme un profil interactionnel et émotionnel de l'utilisateur dynamique, enrichi pendant l interaction. Ce profil permet d adapter les stratégies de réponses de la machine au locuteur, et il peut également servir pour mieux gérer des relations à long terme. Le profil est fondé sur une représentation multi-niveau du traitement des indices émotionnels et interactionnels extraits à partir de l'audio via les outils de détection des émotions du LIMSI. Ainsi, des indices bas niveau (variations de la F0, d'énergie, etc.), fournissent des informations sur le type d'émotion exprimée, la force de l'émotion, le degré de loquacité, etc. Ces éléments à moyen niveau sont exploités dans le systÚme afin de déterminer, au fil des interactions, le profil émotionnel et interactionnel de l'utilisateur. Ce profil est composé de six dimensions : optimisme, extraversion, stabilité émotionnelle, confiance en soi, affinité et domination (basé sur le modÚle de personnalité OCEAN et les théories de l interpersonal circumplex). Le comportement social du systÚme est adapté en fonction de ce profil, de l'état de la tùche en cours, et du comportement courant du robot. Les rÚgles de création et de mise à jour du profil émotionnel et interactionnel, ainsi que de sélection automatique du comportement du robot, ont été implémentées en logique floue à l'aide du moteur de décision développé par un partenaire du projet ROMEO. L implémentation du systÚme a été réalisée sur le robot NAO. Afin d étudier les différents éléments de la boucle d interaction émotionnelle entre l utilisateur et le systÚme, nous avons participé à la conception de plusieurs systÚmes : systÚme en Magicien d Oz pré-scripté, systÚme semi-automatisé, et systÚme d interaction émotionnelle autonome. Ces systÚmes ont permis de recueillir des données en contrÎlant plusieurs paramÚtres d élicitation des émotions au sein d une interaction ; nous présentons les résultats de ces expérimentations, et des protocoles d évaluation de l Interaction Humain-Robot via l utilisation de systÚmes à différents degrés d autonomie.Analysing and formalising the emotional aspect of the Human-Machine Interaction is the key to a successful relation. Beyond and isolated paralinguistic detection (emotion, disfluences ), our aim consists in providing the system with a dynamic emotional and interactional profile of the user, which can evolve throughout the interaction. This profile allows for an adaptation of the machine s response strategy, and can deal with long term relationships. A multi-level processing of the emotional and interactional cues extracted from speech (LIMSI emotion detection tools) leads to the constitution of the profile. Low level cues ( F0, energy, etc.), are then interpreted in terms of expressed emotion, strength, or talkativeness of the speaker. These mid-level cues are processed in the system so as to determine, over the interaction sessions, the emotional and interactional profile of the user. The profile is made up of six dimensions: optimism, extroversion, emotional stability, self-confidence, affinity and dominance (based on the OCEAN personality model and the interpersonal circumplex theories). The information derived from this profile could allow for a measurement of the engagement of the speaker. The social behaviour of the system is adapted according to the profile, and the current task state and robot behaviour. Fuzzy logic rules drive the constitution of the profile and the automatic selection of the robotic behaviour. These determinist rules are implemented on a decision engine designed by a partner in the project ROMEO. We implemented the system on the humanoid robot NAO. The overriding issue dealt with in this thesis is the viable interpretation of the paralinguistic cues extracted from speech into a relevant emotional representation of the user. We deem it noteworthy to point out that multimodal cues could reinforce the profile s robustness. So as to analyse the different parts of the emotional interaction loop between the user and the system, we collaborated in the design of several systems with different autonomy degrees: a pre-scripted Wizard-of-Oz system, a semi-automated system, and a fully autonomous system. Using these systems allowed us to collect emotional data in robotic interaction contexts, by controlling several emotion elicitation parameters. This thesis presents the results of these data collections, and offers an evaluation protocol for Human-Robot Interaction through systems with various degrees of autonomy.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF
    corecore