Search CORE

56 research outputs found

Modèle d'analyse morpho-syntaxique adaptatif au web usages : ré-indexation sociale dans une norme syntagmatique

Author: Sidhom Sahbi
Publication venue: HAL CCSD
Publication date: 28/11/2013
Field of study

Colloque international, Novembre 2013, sur : "La Néologie, les corpus informatisés et les processus d’élaboration des langues de moindre diffusion“, tenu à Ghardaïa, Algérie. (http://www.paragraphe.univ-paris8.fr/colloque_international/amenagement_lexical_terminologie_traductionnelle/).International audienceIn the presentation of this problematic , the contribution of the user whom consults content while leaving traces of his actions, can capitalize information and knowledge for the benefit of the reindexing process . this opens reflections on the process of research on content management (see multimedia) by usage and therefore a review on the organization of knowledge between content, users and needs . In the context of the reindexing , it is necessary to rethink the system of knowledge management to contain the activities around content, uses and needs. To do so, the proposed methodology and applied grows on the following aspects: (i ) Definition and filtering semantic concepts in content for indexing , (ii) Organization of knowledge in the process of information retrieval , (iii) Management knowledge to answer an information need of the user, and ( iv ) Cognitive comments on the content and implication of Practice for control the variability formal implementations.Le processus d'indexation consiste dans le fait de décrire des contenus dans une forme simple et manipulable pour les rendre exploitables et pour en assurer l'usage. Ce dernier est le plus habituel qu'est la recherche d'informations par le contenu. Ce dernier est décrit par une séquence structurée ou non de mots-clés (concepts ou descripteurs) ; cette séquence constitue l'index pour un document. L'usager quand il invoque le processus de recherche d'informations (RI), sa requête se formule en une séquence de mots empruntés ou assimilés au même vocabulaire que l'indexation, puis le système RI compare la requête et l'index des contenus pour proposer des documents qui coïncident en tout ou en partie au besoin informationnel exprimé. Dans l'exposé de cette problématique, l'apport de l'usager, qui consulte des contenus tout en laissant des traces sur ses actions, permet de capitaliser des informations et des connaissances au profit du processus de réindexation. Ce dernier point ouvrira des réflexions de recherche autour du processus de gestion de contenus (voir le multimédia) par les usages et donc un réexamen sur l'organisation des connaissances entre les contenu, les usagers et les besoins. Dans le contexte de la réindexation, il est nécessaire de repenser le système de management de la connaissance pour contenir les activités autour des contenus, usages et besoins. Pour se faire, la méthodologie proposée et appliquée se développe sur les aspects suivants : (i) Définition et filtrage de concepts sémantiques dans les contenus pour l'indexation, (ii) Organisation des connaissances dans le processus de recherche d'informations, (iii) Gestion de connaissances pour réponde à un besoin informationnel de l'usager, et (iv) Observations cognitives sur les contenus et implication des usages pour maîtriser la variabilité des implémentations formelles

INRIA a CCSD electronic archive server

Repérage automatique de structures linguistiques en corpus : le cas des énoncés définitoires

Author: Rebeyrolle Josette
Tanguy Ludovic
Publication venue: Toulouse: Université de Toulouse-le-Mirail, 1979-2006
Publication date: 01/01/2000
Field of study

International audienceThis paper presents the process that leads from a linguistic study on a given type of discourse phenomena (definitions, in our case) to the practical design of morpho-syntactic patterns for their automatic retrieval in corpora. We present and assess the technological aspects of such a study, including an evaluation of the resulting patterns, and we discuss the three different kinds of skill needed in the process: generic linguistic knowledge, use of NLP tools, and corpus linguistics.Cet article propose, pour le cas spécifique des énoncés définitoires, une démarche qui s'échelonne depuis une étude linguistique du phénomène jusqu'à la constitution de patrons permettant un repérage automatique des énoncés. Une attention particulière est portée aux technologies d'analyse de corpus, et l'accent est tout particulièrement mis sur les différentes pratiques à l'oeuvre dans cette démarche : une pratique linguistique, une pratique des outils de repérage, et une pratique spécifique à l'étude des corpus

Scientific Publications of the University of Toulouse II Le Mirail

SDOC et TermWatch : deux méthodes complémentaires de cartographie de thèmes

Author: Ibekwe-Sanjuan Fidelia
Polanco Xavier
Sanjuan Eric
Publication venue: HAL CCSD
Publication date: 01/01/2004
Field of study

Le but de cette communication est de comparer deux méthodes initialement destinées à la veille scientifique et technique dans une application de fouille de textes. Les deux méthodes proposent à l'utilisateur de visualiser les résultats d'une classification hiérarchique non supervisée de données textuelles sous forme d'une carte thématique. Elles sont cependant complémentaires puisque l'une, SDOC, est fondé sur l'analyse de la matrice de co-occurences et positionne les classes (clusters) sur le plan en fonction de leurs propriétés structurelles, tandis que l'autre, TermWatch, classifie les termes en fonction de leurs seuls liens de variation syntaxique et présente les résultats sous forme d'un réseau visualisable avec le logiciel AiSee, dont les liens sont d'autant plus resserrés que les classes sont supposées être thématiquement proches

Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantique

Author: Aussenac-Gilles Nathalie
Publication venue: ADBS
Publication date: 01/01/2012
Field of study

Chapitre 05 : Donner du sens à des documents semi-structurés : de la construction d'ontologies à l'annotation sémantiqueNational audiencePartie 1 : construction et peuplement d'ontologies à partir de textes : démarche générale - critères de bonne structuration d'une ontologie - outils de Traitement Automatique des Langues pour faciliter la construction d'ontologies - ouvertures Partie 2 : "donner du sens" à des contenus : l'annotation sémantique : associer des données et des modèles sémantiques - démarche générale - quel type de ressource pour caractériser "sémantiquement" des contenus/ des données ? - où l'on retrouve le TAL / ouverture

Scientific Publications of the University of Toulouse II Le Mirail

Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

Author: Charlebois Julien-Claude
Publication venue
Publication date: 01/08/2019
Field of study

L’objectif de cette étude est de repérer des néologismes à partir de corpus de textes français au moyen d’une méthode semi-automatique. Plus précisément, nous extrayons les néologismes de corpus associés à deux domaines différents, mais traitant du même thème, nous examinons leur répartition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des médias sociaux. Le premier aborde les médias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont été privilégiés, car la communication considère ce qui a trait l’utilisation des médias sociaux et l’informatique aborde leur cartographie. La méthode fait appel à l’extracteur de termes TermoStat pour recenser la terminologie des médias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spécifiques de chaque point de vue à une méthode de validation divisée en trois tests destinés à valider leur statut néologique : des dictionnaires spécialisés, des dictionnaires de langue générale et un outil de visualisation de n-grammes. Finalement, nous étiquetons les néologismes selon la typologie de Dubuc (2002). L’analyse des résultats de la communication et de l’informatique est comparative. La comparaison des deux corpus révèle les contributions respectives de la communication et de l'informatique à la terminologie des médias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a également permis de repérer 60 néologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs à celui de l’informatique et 4 communs aux deux corpus. La recherche révèle également que les composés par subordination sont les types de néologismes les plus présents dans nos résultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

Dépôt Institutionnel Numérique

Contribution à la maintenance des ontologies à partir d'analyses textuelles : extraction de termes et de relations entre termes

Author: Gargouri Yassine
Publication venue
Publication date: 01/01/2009
Field of study

Les ontologies sont des nouvelles formes de contrôle intelligent de l'information. Elles présentent un savoir préalable requis pour un traitement systématique de l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies sont confrontées de façon continue à un problème d'évolution. Étant donné la complexité des changements à apporter, un processus de maintenance, du moins semi-automatique, s'impose de plus en plus pour faciliter cette tâche et assurer sa fiabilité.\ud L'approche proposée trouve son fondement dans un modèle cognitif décrivant un processus d'extraction de connaissances à partir de textes et de thésaurus. Nous mettons ainsi, les textes au centre du processus d'ingénierie des connaissances et présentons une approche se démarquant des techniques formelles classiques en représentation de connaissances par son indépendance de la langue. Les traitements textuels sont fondés principalement sur un processus de classification supporté par un réseau de neurones (ART 1) et sur l'Indexation Sémantique Latente appliquée sur des classes de termes. Partant de l'hypothèse que l'extraction -de connaissances à partir de textes ne peut se contenter d'un traitement statistique (ni même linguistique) de données textuelles pour accaparer toute leur richesse sémantique, un processus d'extraction de connaissances à partir d'un thésaurus a été conçu afin d'intégrer, le mieux possible, les connaissances du domaine au sein de l'ontologie. Ce processus est fondé principalement sur un calcul d'associations sémantiques entre des Vecteurs Conceptuels. Le modèle proposé représente une chaîne de traitement (ONTOLOGICO) au sein de la plateforme\ud SATIM. Ce modèle vise à assister les experts de domaine dans leur tâche de conceptualisation et de maintenance des ontologies en se basant sur un processus itératif supporté par un ensemble de modules, en particulier, un extracteur de termes, un lemmatiseur, un segmenteur, un classifieur, un module de raffinement sémantique basé sur l'Indexation Sémantique Latente et un identificateur de termes reliés basé sur le calcul de similarité sémantique entre les couples de vecteurs conceptuels. La découverte de relations entre termes pour les besoins d'une conceptualisation de domaine s'avère être le résultat d'une complémentarité de traitements appliqués tant sur des textes de domaine que sur un thésaurus. D'une part, les analyses textuelles fondées principalement sur l'application de l'Indexation Sémantique Latente sur des classes de termes génèrent des relations sémantiques précises. D'autre part, l'extraction de relations sémantiques à partir d'un thésaurus, en se basant sur une représentation par des Vecteurs conceptuels, constitue un choix théorique judicieux et performant. Ce processus joue en effet, un rôle important dans la complétude des relations.\ud Ce projet de recherche se place au coeur des échanges entre terminologie et acquisition de connaissances. Il amène une réflexion sur les divers paliers à envisager dans une telle démarche de modélisation de connaissances textuelles pour des objectifs de maintenance d'une ontologie de domaine. La méthodologie proposée constitue une aide précieuse dans le domaine de la maintenance des ontologies. Elle assiste les terminologues chargés de naviguer à travers de vastes données textuelles pour extraire et normaliser la terminologie et facilite la tâche des ingénieurs en connaissances, chargés de modéliser des domaines. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Maintenance d'ontologie, Traitement Automatique du Langage Naturel (TALN), Indexation Sémantique Latente, Vecteurs Conceptuels, Classification automatique, Réseaux de Neurones

Archipel - Université du Québec à Montréal

Le système de question-réponse QUANTUM

Author: Plamondon Luc
Publication venue
Publication date: 01/01/2002
Field of study

Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

Dépôt Institutionnel Numérique

Contribution à la construction d’ontologies et à la recherche d’information : application au domaine médical

Author: Drame Khadim
Publication venue: HAL CCSD
Publication date: 10/12/2014
Field of study

This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise à permettre un accès efficace à des informations pertinentes malgré le volume croissant des données disponibles au format électronique. Pour cela, nous avons étudié l’apport d’une ontologie au sein d’un système de recherche d'information (RI).Nous avons tout d’abord décrit une méthodologie de construction d’ontologies. Ainsi, nous avons proposé une méthode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances à partir de textes et la réutilisation de ressources sémantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs développé une méthode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre méthodologie a permis de créer une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons élaboré des algorithmes pour supporter la RI sémantique guidée par une ontologie. Les concepts issus d’une ontologie ont été utilisés pour décrire automatiquement les documents mais aussi pour reformuler les requêtes. Nous nous sommes intéressés à : 1) l’identification de concepts représentatifs dans des corpus, 2) leur désambiguïsation, 3), leur pondération selon le modèle vectoriel, adapté aux concepts et 4) l’expansion de requêtes. Ces propositions ont permis de mettre en œuvre un portail de RI sémantique dédié à la maladie d’Alzheimer. Par ailleurs, le contenu des documents à indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploité des informations incomplètes pour déterminer les concepts pertinents permettant malgré tout de décrire les documents. Pour cela, nous avons proposé deux méthodes de classification de documents issus d’un large corpus, l’une basée sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sémantique explicite. Ces méthodes ont été évaluées sur de larges collections de documents biomédicaux fournies lors d’un challenge international

Thèses en Ligne

Intégration de la démarche d'Intelligence Économique dans l'architecture fonctionnelle d'un système d'information

Author: David Amos
Sidhom Sahbi
Publication venue: HAL CCSD
Publication date: 01/02/2005
Field of study

http://www.dst.cerist.dz/seminaire/concours.htmLa notion d'interprétation de l'information a permis d'intégrer la complexité relative au processus d'IE, autant d'affiner un renseignement aux “frontières” des modèles et des problématiques pluridisciplinaire : Systèmes d'information (SI) et de Recherche d'information (SRI), Modèle utilisateur, information stratégique et Intelligence Economique (IE). Cette dimension pluridisciplinaire offre des possibilités de moduler des interactions complexes (besoins, requêtes, réponses), le système dédié au processus IE et les utilisateurs, qu'ils soient acteur, veilleur ou décideur d'une organisation. Des modèles et outils sont proposés pour la mise en œuvre du processus complexe d'IE, comme le modèle EQuA2te pour la gestion et l'exploitation d'une base d'information (ou l'entrepôt de données d'un domaine), le prototype METIORE pour la gestion des références bibliographiques dans un environnement de recherche coopérative des informations et SIMBAD pour l'analyse du langage naturel orienté vers l'Indexation automatique et la Recherche d'information des requêtes-textes de l'utilisateur. Dans le contexte IE, nos contributions s'appliquerons à différentes expérimentations dans le cadre de la conception d'entrepôts de données et la construction de bases métiers adaptées aux différents utilisateurs du système

INRIA a CCSD electronic archive server