    A Thematic Segmentation Procedure for Extracting Semantic Domains from Texts

    International audienceThematic analysis is essential for a lot of Natural Language Processing (NLP) applications, such as text summarization or information extraction. It is a two-dimensional process which has both to identify the thematic segments of a text and to recognize the semantic domain concerned by each of them. This second task requires having a representation of these domains. Such representations are built in Information Retrieval or Text Categorization fields by grouping together the words of a set of texts which have been manually linked to the same domain. We claim that this kind of method can only be apply to characterize very general topics. We propose here a method for building the representation of narrower semantic domains without any manual intervention. First, we present a procedure for the thematic segmentation of texts which relies on lexical cohesion evaluated from a collocation network. This procedure allows us to have basic units that are more thematically coherent than a whole text. Then, we show how these units can be aggregated together, according to a similarity measure, to build the representation of semantic domains in an incremental and unsupervised way

    Système d'aide à l'accès lexical : trouver le mot qu'on a sur le bout de la langue

    International audienceThe study of the Tip of the Tongue phenomenon (TOT) provides valuable clues and insights concerning the organisation of the mental lexicon (meaning, number of syllables, relation with other words, etc.). This paper describes a tool based on psycho-linguistic observations concerning the TOT phenomenon. We've built it to enable a speaker/writer to find the word he is looking for, word he may know, but which he is unable to access in time. We try to simulate the TOT phenomenon by creating a situation where the system knows the target word, yet is unable to access it. In order to find the target word we make use of the paradigmatic and syntagmatic associations stored in the linguistic databases. Our experiment allows the following conclusion: a tool like SVETLAN, capable to structure (automatically) a dictionary by domains can be used sucessfully to help the speaker/writer to find the word he is looking for, if it is combined with a database rich in terms of paradigmatic links like EuroWordNet

    Structuration d’un réseau de cooccurrences lexicales en domaines sémantiques par analyse de textes

    International audienceDans cet article, nous présentons une méthode de construction de représentations de thèmes fondée sur la structuration d’un réseau de cooccurrences lexicales. Nous illustrons l’intérêt de l’utilisation d’une segmentation thématique des textes pour réaliser cette structuration, par opposition à un apprentissage réalisé sur le réseau même. Nous tentons aussi de montrer que pour construire la représentation d’un thème, la structuration d’un réseau de collocations donne des résultats plus homogènes que la simple agrégation de segments de texte

    Filtrage pour la construction de résumés multi-documents guidée par un profil

    National audienceDans cet article, nous présentons une méthode de filtrage permettant de sélectionner à partir d'un ensemble de documents les extraits de textes les plus significatifs relativement à un profil défini par un utilisateur. Pour ce faire, nous mettons l'accent sur l'utilisation conjointe de profils structurés et d'une analyse thématique des documents. Cette analyse permet également d'étendre le vocabulaire définissant un profil en fonction du document traité en sélectionnant les termes de ce dernier les plus étroitement liés aux termes du profil. Tous ces aspects assurent une plus grande finesse du filtrage tout en permettant la sélection d'extraits de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d'apporter des informations nouvelles et donc intéressantes. L'intérêt de l'approche présentée a été illustré au travers du système REDUIT qui a fait l'objet d'une évaluation concernant à la fois le filtrage de documents et l'extraction de passages