5 research outputs found

    Exploitation des arbres fréquents de dépendance pour la représentation et la classifacation automatique de textes

    Get PDF
    L'intégration de l'information syntaxique dans la représentation vectorielle des documents s'est avérée une source d'amélioration de la performance des systèmes de classification automatique de documents textuels. Cette information est souvent représentée sous forme d'arbres de dépendance qui peuvent être générés automatiquement par un analyseur syntaxique de la langue naturelle. Dans ce travail, nous proposons un nouveau modèle de représentation des documents basée sur l'extraction des sous-arbres fréquents d'arbres de dépendance en utilisant l'algorithme de fouille d'arbres FREQT, que nous avons adapté à nos besoins. Dans ce modèle, un document est représenté par l'ensemble de ses phrases, et chaque phrase est représentée à l'aide d'un ensemble de sous-arbres fréquents. Afin d'appliquer efficacement cette représentation à la classification automatique non supervisée (ou clustering ) de documents, nous proposons une nouvelle mesure de similarité entre documents basée sur notre méthode de représentation. Ainsi, nous construisons un système de clustering de documents qui englobe notre méthode de représentation, notre mesure de similarité et l'algorithme de clustering hiérarchique par agglomération. Nous évaluons notre système sur des collections de textes bien connues dans la communauté de la classification de textes: la collection Reuters-21578, 20Newsgroups et OHSUMED. Nous montrons sur ces données que notre méthode améliore le clustering de documents. Nous présentons également une évaluation des approches existantes de représentation des documents

    Evaluating the impact of social-media on sales forecasting: a quantitative study of worlds biggest brands using Twitter, Facebook and Google Trends

    Get PDF
    In the world of digital communication, data from online sources such as social networks might provide additional information about changing consumer interest and significantly improve the accuracy of forecasting models. In this thesis I investigate whether information from Twitter, Facebook and Google Trends have the ability to improve daily sales forecasts for companies with respect to the forecasts from transactional sales data only. My original contribution to this domain, exposed in the present thesis, consists in the following main steps: 1. Data collection. I collected Twitter, Facebook and Google Trends data for the period May 2013 May 2015 for 75 brands. Historical transactional sales data was supplied by Certona Corporation. 2. Sentiment analysis. I introduced a new sentiment classification approach based on combining the two standard techniques (lexicon-based and machine learning based). The proposed method outperforms the state-of-the-art approach by 7% in F-score. 3. Identification and classification of events. I proposed a framework for events detection and a robust method for clustering Twitter events into different types based on the shape of the Twitter volume and sentiment peaks. This approach allows to capture the varying dynamics of information propagation through the social network. I provide empirical evidence that it is possible to identify types of Twitter events that have significant power to predict spikes in sales. 4. Forecasting next day sales. I explored linear, non-linear and cointegrating relationships between sales and social-media variables for 18 brands and showed that social-media variables can improve daily sales forecasts for the majority of brands by capturing factors, such as consumer sentiment and brand perception. Moreover, I identified that social-media data without sales information, can be used to predict sales direction with the accuracy of 63%. The experts from the industry consider the results obtained in this thesis to be valuable and useful for decision making and for making strategic planning for the future
    corecore