9,755 research outputs found

    Approche Fouille de Texte pour la détection précoce de tendances économiques

    No full text
    International audienceCet article présente un retour d'expérience sur de la fouille de données complexes dans un processus d'extraction des connaissances dans un contexte industriel. Á partir de données volumineuses non structurées issues de dépêches d'actualités économiques et selon certains traitements linguistiques et économétriques, notre objectif est de prédire des tendances économiques dans des séquences d'évènements d'actualités. Pour cela, trois étapes sont primordiales : (i) l'extraction d'indicateurs économiques par des techniques linguistiques (comme les indices boursiers, les taux de change, les noms des monnaies ou encore les cours des matières premières. . .), (ii) l'annotation, par le recours à des terminologies externes, de ces indicateurs économiques : les données extraites portent alors des étiquettes permettant de les identifier, (iii) leur superposition à des modèles statistiques. Á la suite de ce traitement, nous pouvons vérifier si il existe une corrélation entre des indicateurs économiques relevés par l'étude linguistique pour un secteur d'activité donné et sur un territoire donné (la production d'un élément A sur le prix d'un élément B par exemple). L'intérêt de cette méthode est d'apporter des outils linguistiques en complément des méthodes statistiques utilisées habituellement pour faire émerger des données cointégrées. L'article décrit ensuite les expérimentations effectuées et tire les premières conclusions sur divers aspects de cette méthode

    Modèles de langues pour la détection d'opinions dans les blogs

    Get PDF
    Cet article décrit une approche de recherche de documents pertinents vis-à-vis d’une requête et exprimant une opinion. Afin de détecter si un document est porteur d’opinion (i.e. comporte de l’information subjective), nous proposons de le comparer à des sources d’information qui comportent du contenu de type opinion. L’intuition derrière cela est la suivante : un document ayant une similarité forte avec des sources d’opinions, est vraisemblablement porteur d’opinion. Pour mesurer cette similarité, nous exploitons des modèles de langue. Nous modélisons le document et la source (référence) porteuse d’opinions par des modèles de langue, nous évaluons ensuite la similarité de ces modèles. Plusieurs expérimentations ont été réalisées sur des collections issues de TREC. Les résultats obtenus valident notre intuition

    CLASSIFICATION AUTOMATIQUE DE RÉSEAUXDYNAMIQUES AVEC SOUS-GRAPHES : ÉTUDE DUSCANDALE ENRON

    Get PDF
    International audienceAbstract. — In recent years, many random graph models have been proposed to extract information from networks. The principle is to look for com-munities or groups of vertices with homogenous connection profiles. Most of these models are suitable for static networks, that is to say, not taking into account the temporal dimension, but can handle different types of edges, whether binary or discrete. This work is motivated by the need of analysing an evolving network describing email communications between employees of the Enron compagny where social positions play an important role. Therefore, in this paper, we consider the random subgraph model (RSM) which was pro-posed recently to model networks through latent clusters built within known partitions. Using a state space model to characterize the cluster proportions, RSM is then extended in order to deal with dynamic networks. We call the latter the dynamic random subgraph model (dRSM). A variational expectation maximisation (VEM) algorithm is proposed to perform inference. We show that the variational approximations lead to a new state space model from which the parameters along with hidden states can be estimated using the standard Kalman filter and Rauch-Tung-Striebel (RTS) smoother. The me-thodology is finally applied to the Enron email dataset and allows to discover a early reaction of the partners and directors compared to the other employees regarding the coming scandal.Résumé. — Ces dernières années, de nombreux modèles de graphes aléatoires ont été proposés pour extraire des informations à partir de réseaux dans des domaines variés. Le principe de ces modèles consiste à chercher des groupes de nœuds ayant des profils de connexion homogènes. La plupart de ces modèles sont adaptés pour des réseaux statiques ayant des arêtes binaires ou discrètes mais sans prendre en compte la dimension temporelle. Ce travail est motivé par la nécessité d'analyser un réseau dynamique décrivant les communications électroniques (e-mail) entre les employés de l'entreprise Enron où les positions sociales jouent un rôle important. Nous proposons dans cet article une extension au cadre dynamique du modèle de graphe aléatoire RSM qui a été récemment proposé pour modéliser à l'aide de groupes latents des réseaux statiques pour lesquels une partition en sous-graphes est connue. Notre approche est basée sur l'utilisation d'un state-space model pour modéliser l'évolution au cours du temps des proportions des groupes latents. Le modèle ainsi obtenu est appelé modèle de sous-graphes aléatoires dynamiques (dRSM) et un algorithme de type EM variationnel (VEM) est proposé pour en effectuer l'inférence. Nous montrons que les approximations variationnelles conduisent à un nouveau state-space model à partir duquel les paramètres ainsi que les états cachés peuvent être estimés en utilisant le filtre de Kalman et le Rauch-Tung-Striebel (RTS) smoother. La méthodologie est finalement appliquée au jeu des données d'e-mails de l'entreprise Enron et permet de mettre en évidence une réaction anticipée des cadres par rapport aux autres employés concernant le scandale à venir

    Metabolically active volumes automatic delineation methodologies in PET imaging: review and perspectives

    No full text
    International audiencePET imaging is now considered a gold standard tool in clinical oncology, especially for diagnosis purposes. More recent applications such as therapy follow up or tumor targeting in radiotherapy require a fast, accurate and robust metabolically active tumor volumes on emission images, which cannot be obtained through manual contouring. This clinical need has sprung a large number of methodological developments regarding automatic methods to defined tumor volumes on PET images. This paper reviews most of the methodologies that have been recently proposed and discusses their framework and methodological and/or clinical validation. Perspectives regarding the future work to be done are also suggested

    Mécanismes de contrôle pour l'analyse en Grammaires de Propriétés

    No full text
    International audienceHybrid parsing techniques based both on statistical and symbolicmethods remain rare. In general, they consist in integrating the statistical information into a context-free skeleton, in order to control the selection of rules and structures.We propose in the present paper a statistical method which allows to evaluate a correlation index between two linguistic objects (category, property). We describe how to integrate this statistical information into the framework of Property Grammars. The correlation index is used for controling the selection process of category constituents and the evaluation of properties satisfaction.Les méthodes d'analyse syntaxiques hybrides, reposant à la fois sur des techniques statistiques et symboliques, restent peu exploitées. Dans la plupart des cas, les données statistiques sont intégrées à un squelette context-free et sont utilisées pour contrôler le choix des règles ou des structures. Nous proposons dans cet article une méthode permettant de calculer un indice de corrélation entre deux objets linguistiques (catégories, propriétés). Nous décrivons une utilisation de cette notion dans le cadre l'analyse des Grammaires de Propriétés. L'indice de corrélation nous permet dans ce cas de contrôler à la fois la sélection des constituants d'une catégorie, mais également la satisfaction des propriétés qui la décrivent

    Un Algorithme génétique spécifique à une reformulation multi-requêtes dans un système de recherche d'information

    Get PDF
    National audienceCet article présente une approche de reformulation de requête fondée sur l'utilisation combinée de la stratégie d'injection de pertinence et des techniques avancées de l'algorithmique génétique. Nous proposons un processus génétique d'optimisation multi-requêtes amélioré par l'intégration des heuristiques de nichage et adaptation des opérateurs génétiques. L'heuristique de nichage assure une recherche d'information coopérative dans différentes directions de l'espace documentaire. L'intégration de la connaissance à la structure des opérateurs permet d'améliorer les conditions de convergence de l'algorithme. Nous montrons, à l'aide d'expérimentations réalisées sur une collection TREC, l'intérêt de notre approche

    Mécanismes de contrôle pour l'analyse en Grammaires de Propriétés

    No full text
    International audienceHybrid parsing techniques based both on statistical and symbolicmethods remain rare. In general, they consist in integrating the statistical information into a context-free skeleton, in order to control the selection of rules and structures.We propose in the present paper a statistical method which allows to evaluate a correlation index between two linguistic objects (category, property). We describe how to integrate this statistical information into the framework of Property Grammars. The correlation index is used for controling the selection process of category constituents and the evaluation of properties satisfaction.Les méthodes d'analyse syntaxiques hybrides, reposant à la fois sur des techniques statistiques et symboliques, restent peu exploitées. Dans la plupart des cas, les données statistiques sont intégrées à un squelette context-free et sont utilisées pour contrôler le choix des règles ou des structures. Nous proposons dans cet article une méthode permettant de calculer un indice de corrélation entre deux objets linguistiques (catégories, propriétés). Nous décrivons une utilisation de cette notion dans le cadre l'analyse des Grammaires de Propriétés. L'indice de corrélation nous permet dans ce cas de contrôler à la fois la sélection des constituants d'une catégorie, mais également la satisfaction des propriétés qui la décrivent
    corecore