    Emotion Expression Extraction Method for Chinese Microblog Sentences

    With the rapid spread of Chinese microblog, a large number of microblog topics are being generated in real-time. More and more users pay attention to emotion expressions of these opinionated sentences in different topics. It is challenging to label the emotion expressions of opinionated sentences manually. For this endeavor, an emotion expression extraction method is proposed to process millions of user-generated opinionated sentences automatically in this paper. Specifically, the proposed method mainly contains two tasks: emotion classification and opinion target extraction. We first use a lexicon-based emotion classification method to compute different emotion values in emotion label vectors of opinionated sentences. Then emotion label vectors of opinionated sentences are revised by an unsupervised emotion label propagation algorithm. After extracting candidate opinion targets of opinionated sentences, the opinion target extraction task is performed on a random walk-based ranking algorithm, which considers the connection between candidate opinion targets and the textual similarity between opinionated sentences, ranks candidate opinion targets of opinionated sentences. Experimental results demonstrate the effectiveness of algorithms in the proposed method

    Exploring and Evaluating the Scalability and Efficiency of Apache Spark using Educational Datasets

    Research into the combination of data mining and machine learning technology with web-based education systems (known as education data mining, or EDM) is becoming imperative in order to enhance the quality of education by moving beyond traditional methods. With the worldwide growth of the Information Communication Technology (ICT), data are becoming available at a significantly large volume, with high velocity and extensive variety. In this thesis, four popular data mining methods are applied to Apache Spark, using large volumes of datasets from Online Cognitive Learning Systems to explore the scalability and efficiency of Spark. Various volumes of datasets are tested on Spark MLlib with different running configurations and parameter tunings. The thesis convincingly presents useful strategies for allocating computing resources and tuning to take full advantage of the in-memory system of Apache Spark to conduct the tasks of data mining and machine learning. Moreover, it offers insights that education experts and data scientists can use to manage and improve the quality of education, as well as to analyze and discover hidden knowledge in the era of big data

    Using BiLSTM Structure with Cascaded Attention Fusion Model for Sentiment Analysis

    In the last decade, sentiment analysis has been a popular research area in the domains of natural language processing and data mining. Sentiment analysis has several commercial and social applications. The technique is essential to analyse the customer experience to develop customer loyalty and maintenance through better assistance. Deep Neural Network (DNN) models have recently been used to do sentiment analysis tasks with promising results. The disadvantage of such models is that they value all characteristics equally. We propose a Cascaded Attention Fusion Model-based BiLSTM to address these issues (CAFM-BiLSTM). Multiple heads with embedding and BiLSTM layers are concatenated in the proposed CAFM-BiLSTM. The information from both deep multi-layers is merged and provided as input to the BiLSTM layer later in this paper. The results of our fusion model are superior to those of the existing models. Our model outperforms the competition for lengthier sentence sequences and pays special attention to referral words. The accuracy of the proposed CAFM-BiLSTM is 5.1%, 5.25%, 6.1%, 12.2%, and 13.7% better than RNN-LSTM, SVM, NB, RF and DT respectively

    Sentiment analysis in the stock market based on Twitter data

    In this dissertation, we discuss how Twitter can help detecting public sentiment towards companies listed in the stock market, in particular listed in the S&P 500 index (S&P 500). The collection of data is done through a web scrapper that collects tweets from Twitter, using advanced search features based on queries related to the companies under scrutiny. The content of tweets are classified as positive, neutral or negative sentiments and the outcome is then compared against stock market prices. To do so, it is proposed and implemented a framework with different Sentiment Analysis (SA) models and Machine Learning (ML) techniques. Also, to establish which models are more appropriate in detecting and classifying sentiments, a series of visual representations were created to evaluate and compare results. As a conclusion, the results obtained show that an increase in the volume of tweets leads to oscillations in both stock price and trading volume. Furthermore, the data analysis performed in relation to some companies under scope shows that the use of moving averages of sentiment scores makes the analysis clearer and more insightful, which is particular useful when measuring the strength or weakness of the price of a stock. In the end, it can be perceived as a momentum indicator for the stock market.Nesta dissertação, é analisada a forma como a plataforma Twitter pode ajudar a detectar sentimento público relativamente a empresas cotadas em bolsa, com foco em empresas que fazem parte do indíce americano S&P 500. A obtenção de dados é feita através de um web scrapper, que recolhe tweets através de funções de pesquisa avançada, baseada em queries associadas às empresas em análise. O conteúdo dos tweets são classificados como positivos, neutros ou negativos, sendo os resultados comparados de seguida com os preços das ações. Nesse sentido, é proposta um arquitectura de trabalho, com a respetiva implementação, que inclui vários modelos de análise de sentimento e técnicas de Machine Learning. Por outro lado, de modo a estabelecer quais são os modelos mais adequados para detectar e classificar sentimentos, são criados várias representações visuais para avaliar e comparar resultados. Como conclusão, os resultados obtidos mostram que um aumento do número de tweets conduz a oscilações, quer no preço, quer na quantidade de ações transacionadas. Além disso, a análise de dados levada a cabo relativamente a algumas empresas em estudo, mostra que a utilização de médias móveis de resultados de sentimento torna a leitura da análise mais clara e evidente, o que é bastante útil para medir a força ou fraqueza do preço de determinada ação. Acima de tudo, tal poderá ser percecionado como um indicador de momento para o mercado de capitais

    Efficient Text Classification with Linear Regression Using a Combination of Predictors for Flu Outbreak Detection

    Early prediction of disease outbreaks and seasonal epidemics such as Influenza may reduce their impact on daily lives. Today, the web can be used for surveillance of diseases.Search engines and Social Networking Sites can be used to track trends of different diseases more quickly than government agencies such as Center of Disease Control and Prevention(CDC). Today, Social Networking Sites (SNS) are widely used by diverse demographic populations. Thus, SNS data can be used effectively to track disease outbreaks and provide necessary warnings. Although the generated data of microblogging sites is valuable for real time analysis and outbreak predictions, the volume is huge. Therefore, one of the main challenges in analyzing this huge volume of data is to find the best approach for accurate analysis in an efficient time. Regardless of the analysis time, many studies show only the accuracy of applying different machine learning approaches. Current SNS-based flu detection and prediction frameworks apply conventional machine learning approaches that require lengthy training and testing, which is not the optimal solution for new outbreaks with new signs and symptoms. The aim of this study is to propose an efficient and accurate framework that uses SNS data to track disease outbreaks and provide early warnings, even for newest outbreaks accurately. The presented framework of outbreak prediction consists of three main modules: text classification, mapping, and linear regression for weekly flu rate predictions. The text classification module utilizes the features of sentiment analysis and predefined keyword occurrences. Various classifiers, including FastText and six conventional machine learning algorithms, are evaluated to identify the most efficient and accurate one for the proposed framework. The text classifiers have been trained and tested using a pre-labeled dataset of flu-related and unrelated Twitter postings. The selected text classifier is then used to classify over 8,400,000 tweet documents. The flu-related documents are then mapped ona weekly basis using a mapping module. Lastly, the mapped results are passed together with historical Center for Disease Control and Prevention (CDC) data to a linear regression module for weekly flu rate predictions. The evaluation of flu tweet classification shows that FastText together with the extracted features, has achieved accurate results with anF-measure value of 89.9% in addition to its efficiency. Therefore, FastText has been chosen to be the classification module to work together with the other modules in the proposed framework, including the linear regression module, for flu trend predictions. The prediction results are compared with the available recent data from CDC as the ground truth and show a strong correlation of 96.2%

    Система рекомендацій з використанням соціальних мереж

    Актуальність теми. Об’єм даних у світі зростає, і швидкість його зростання перевищує швидкість зростання ресурсів, необхідних для обробки цих даних. Сьогодні людство повністю поглинуте інформаційним простором: фільми, книги, статті, новини тощо, і важко визначити, який продукт більше підходить конкретній людині. Відповідно, з’явилась потреба в технологіях, які можуть оперативно обробляти великі обсяги даних та виділяти лише ту інформацію, що є корисною для конкретного користувача. Одними з найпотужніших технологій вирішення таких задач є рекомендаційні системи. Рекомендаційні системи – це системи, які визначають переваги та інтереси користувачів і надають відповідні рекомендації відносно цих даних. Такими даними можуть бути оцінки користувачів, приватна інформація, комунікація в соціальних мережах, географічне розташування користувачів тощо. Протягом останніх років багато досліджень проводилося з метою аналізу та класифікації текстів і даних, та подальшою класифікацією на категорії на основі навченої моделі. Однак з’являється все більше досліджень щодо аналізу текстових даних для визначення того, як людина репрезентує свої «почуття» відносно певного предмету чи інформації. Це призвело до розвитку аналізу тональності відгуків користувачів та систем їх класифікації. Аналіз та класифікація тональностей відгуків використовують складні алгоритми, оскільки думки можна висловити тонкими та складними методами, включаючи використання неформальної мови (сленг), неоднозначності, іронії, гумору та акценту. Аналіз та класифікацію почуттів почали розробляти з багатьох причин. Наприклад, для відстеження зросту та спаду популярності певного продукту, для порівняння ставлень онлайн-клієнтів до ряду продуктів тощо. 5 Об’єктом дослідження є методи та алгоритми формування систем рекомендацій фільмів на основі користувацьких оцінок та відгуків. Предметом дослідження є рекомендаційні системи та методи аналізу тональності відгуків користувачів соціальних мереж. Метою дослідження є підвищення ефективності методів аналізу даних на основі тональності відгуків користувачів соціальних мереж, що, в свою чергу, дозволяє поліпшити роботу рекомендаційної системи фільмів на основі аналізу текстових відгуків користувачів соціальних мереж. Методи дослідження: • аналіз; • аналогія; • дедукція; • емпіричні: експериментальна перевірка ефективності розробленого програмного забезпечення; • індукція; • синтез. Результати та їх наукова новизна: 1. Проаналізовано існуючі рекомендаційні системи та рішення аналізу тональності тексту. 2. Запропоновано новий метод генерації рекомендацій для користувачів. 3. Покращено алгоритм формування рекомендацій на основі поєднання аналізу тональності користувацьких відгуків та класичних алгоритмів. Галузь застосування. Результати даної роботи можуть бути використані для покращення рекомендаційних систем шляхом визначення та врахування тональності коментарів користувачів. 6 Практична цінність отриманих в роботі результатів полягає в тому, що запропонований алгоритм формування рекомендаційної системи дозволяє ефективно виконувати відносно швидку обробку великих об’ємів даних і на їх основі формувати список рекомендацій кінцевому користувачеві. Також використання аналізу тональності відгуків із соціальних мереж дозволяє робити списки рекомендацій більш точними, що суттєво вплине на якість інформації, яку отримує кінцевий користувач. Результати роботи розробленого алгоритму дозволяють точніше фільтрувати дані та ефективно використовувати ресурси і пам'ять мобільних пристроїв, що підвищує якість програмного продукту. А, відповідно, і його подальший розвиток та поширення. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на V Міжнародній науково-технічній конференції «Сучасні методи, інформаційне, програмне та технічне забезпечення систем керування організаційно-технічними та технологічними комплексами» (Київ, 22-23 листопада 2018 р.), а також на ХXIV Міжнародній інтернет-конференції «Новини науки ХХІ століття» (Вінниця, 23 листопада 2018 р.). Структура та обсяг роботи. Магістерська дисертація складається зі вступу, трьох розділів, висновків, списку використаних джерел та додатків. У вступі подано загальну характеристику роботи, зроблено оцінку сучасних методів формування рекомендацій, обґрунтовано актуальність напряму досліджень, сформульовано мету і задачі досліджень, показано наукову новизну отриманих результатів і практичну цінність роботи. У першому розділі проаналізовано існуючі методи аналізу даних та формування рекомендацій на їх основі. Розглянуто переваги та недоліки платформ для обробки даних та можливість їх використання для мобільних 7 платформ. Проаналізовано вплив тональності відгуків користувачів на формування списків рекомендацій. У другому розділі запропоновано підхід до побудови системи рекомендації на базі Spark із урахуванням аналізу тональності відгуків користувачів. У третьому розділі досліджено поєднання класичних методів, що використовуються у сучасних рекомендаційних системах, та методу аналізу тональності коментарів користувачів соціальних мереж. Сформовано пропозицію побудови попереднього та фінального списку рекомендацій. У висновках проаналізовано отримані результати роботи. У додатках наведено презентацію, лістинг розробленого програмного продукту, копії публікацій та довідка про впровадження. Магістерська дисертація виконана на 80 аркушах, містить 4 додатки та посилання на список використаних літературних джерел з 51 найменувань. У роботі наведено 7 рисунків та 3 таблиці.Theme urgency. The volume of data in the world is growing, and its rate of growth exceeds the rate of growth of resources that are necessary for the processing such big amounts of data. Today mankind is completely absorbed by the information space: films, books, articles, news, etc., and it is difficult to determine which product is more suitable for a particular person. Therefore, there is a need for technologies that can quickly process big volumes of data and allocate only information that is useful to a particular user. One of the most powerful technologies for solving this kind of problems is recommendation systems. Recommendation systems are systems that determine preferences and interests of users and provide relevant guidance based on these data. Such data may include user ratings, private information, social networking, geographic location, etc. In recent years, many studies have been conducted to analyze and classify texts and data, and further categorize them based on the trained model. However, more and more research is being done on the analysis of text data in order to determine how a person represents his "feelings" about a particular subject or information. This led to the development of a sentiment analysis and its classification systems. Success analysis and classification uses complex algorithms, because thoughts can be expressed in a subtle and complex way, including the usage of informal language (slang), ambiguity, irony, humor and accent. The analysis and classification of feelings began to develop for several reasons. For example, to track the growth of popularity or a denial of a particular product, to compare online customer position to a number of products, and more. Object of research is the methods and algorithms of creating movie recommendation systems based on user ratings and reviews. Subject of research is recommendation systems and sentiment analysis methods that analyze the connotation of feedback from social networks users. 10 Research objective is to improve the recommendation system of films based on the analysis of text responses of social networks users and to offer solutions for increasing the effectiveness of data analysis methods based on the connotation of feedback from social networks users. Research methods: • analysis; • analogy; • deduction; • empirical: experimental verification of the effectiveness of the software developed; • induction; • synthesis Results and scientific novelty: 1. The existing reference systems and the analysis of the tone of the text are analyzed. 2. A new method of generating recommendations for users is proposed. 3. The algorithm of recommendation generation is improved on the basis of a combination of sentiment analysis of user reviews and classical algorithms. Field of application. The results of this work can be used to improve advisory systems by defining and taking into account the tone of user comments. Practical value of the results obtained in the work is that the proposed algorithm for the formation of the advisory system allows efficiently execute relatively fast processing of large volumes of data and, on the basis of them, to formulate a list of recommendations to the end user. Also, the use of tone feedback analysis from social networks allows making lists of recommendations more precise, which will significantly affect the quality of information received by the end user. 11 The results of the developed algorithm allow more accurate data filtering and efficient use of resources and memory of mobile devices, which enhances the quality of the software product. And, accordingly, and its further development and distribution. Approbation. The main provisions and results of the work were presented and discussed at the V International Scientific and Technical Conference "Modern methods, information, software and technical support of control systems for organizational, technological and technological complexes" (Kyiv, November 22- 23, 2018), as well as at XXIV International Internet Conference "Science News of the 21st Century" (Vinnytsya, November 23, 2018). Structure and content of the thesis. The master's dissertation consists of an introduction, three sections, conclusions, list of used sources and applications. The introduction provides a general description of the work, assesses the modern methods of forming recommendations, substantiates the relevance of the research direction, formulates the purpose and objectives of the research, shows the scientific novelty of the results obtained and the practical value of the work. In the first chapter the existing methods of data analysis and the creation of recommendations on their basis are analyzed. The advantages and disadvantages of platforms for data processing and the possibility of their use for mobile platforms are considered. The influence of the response of users on the formation of recommendations lists has been analyzed. In the second chapter it is proposed to follow an approach to building a Sparkbased recommendation system based on the analysis of the responsiveness of user feedback. In the third chapter it is explored the combination of classical methods used in modern advisory systems, and a method for analyzing the tone of comments of users of social networks. The proposal for constructing the preliminary and final list of recommendations has been formed. 12 In the conclusions the results of work are analyzed. In the appendixes following items are included: a presentation, a listing of the software product developed, a copy of the publications, and a certificate of implementation. The thesis is presented in 80 pages, it contains 4 appendixes and 51 references to the used information sources. 7 figures and 3 tables are given in the thesis.Актуальность темы. Объем данных в мире растет, и скорость его роста превышает скорость роста ресурсов, необходимых для обработки этих данных. Сегодня человечество полностью поглощено информационным пространством: фильмы, книги, статьи, новости и т.д., и трудно определить, какой продукт больше подходит конкретному человеку. Соответственно, появилась потребность в технологиях, которые могут оперативно обрабатывать большие объемы данных и выделять только ту информацию, которая является полезной для конкретного пользователя. Одними из самых мощных технологий решения таких задач являются рекомендательные системы. Рекомендательные системы — это системы, которые определяют преимущества и интересы пользователя и обеспечивают соответствующие списки рекомендаций относительно этих данных. Такими данными могут быть оценки пользователей, частная информация пользователя, коммуникация в социальных сетях, географическое расположение пользователей и тому подобное. В последние годы много исследований проводилось с целью анализа и классификации текстов и данных, и последующей классификации их на категории на основе обученной модели. Однако появляется все больше исследований по анализу текстовых данных для определения того, как человек представляет свои «чувства» относительно определенного предмета или информации. Это привело к развитию анализа тональности отзывов и систем их классификации. Анализ и классификация тональности отзывов используют сложные алгоритмы, поскольку мысли можно выразить тонкими и сложными 14 методами, включая использование неформальной речи (сленг), неоднозначности, иронии, юмора и акцента. Анализ и классификацию чувств начали исследовать по нескольким причинам. Например, для отслеживания роста и спада популярности определенного продукта, для сравнения отношений онлайн-клиентов к ряду продуктов и тому подобное. Объектом исследования являются методы и алгоритмы формирования систем рекомендаций фильмов на основе пользовательских оценок и отзывов. Предметом исследования является рекомендательные системы и методы анализа тональности отзывов пользователей социальных сетей. Целью исследования является улучшить работу рекомендательной системы фильмов на основе анализа текстовых отзывов пользователей социальных сетей и предложить решения для повышения эффективности методов анализа данных на основе тональности отзывов пользователей социальных сетей. Методы исследования: • анализ; • аналогия; • дедукция; • эмпирические: экспериментальная проверка эффективности разработанного программного обеспечения; • индукция; • синтез. 15 Результаты и их научная новизна: 1. Проанализированы существующие рекомендательные системы и решения анализа тональности текста. 2. Предложен новый метод генерации рекомендаций для пользователей. 3. Улучшен алгоритм формирования рекомендаций на основе сочетания анализа тональности пользовательских отзывов и классических алгоритмов. Область применения. Результаты данной работы могут быть использованы для улучшения рекомендательных систем путем определения и учета тональности комментариев пользователей. Практическая ценность полученных в работе результатов заключается в том, что предложенный алгоритм формирования рекомендательной системы позволяет эффективно выполнять относительно быструю обработку больших объемов данных и на их основе формировать список рекомендаций конечному пользователю. Также использование анализа тональности отзывов из социальных сетей позволяет делать списки рекомендаций более точными, что существенно повлияет на качество информации, которую получает конечный пользователь. Результаты работы разработанного алгоритма позволяют точнее фильтровать данные и эффективно использовать ресурсы и память мобильных устройств, повышает качество программного продукта. А, соответственно, его дальнейшее развитие и распространение. Апробация работы. Основные положения и результаты работы были представлены и обсуждались на V Международной научно-технической конференции «Современные методы, информационное, программное и техническое обеспечение систем управления организационно-техническими и технологическими комплексами» (Киев, 22-23 ноября 2018), а также на ХXIV 16 международной интернет-конференции «Новости науки XXI века» (Винница, 23 ноября 2018). Структура и объем работы. Магистерская диссертация состоит из введения, трех глав, заключения, списка использованных источников и приложений. Во вступлении представлена общая характеристика работы, произведена оценка современных методов формирования рекомендаций, обоснована актуальность направления исследований, сформулированы цели и задачи исследований, показано научную новизну полученных результатов и практическую ценность работы. В первом разделе проанализированы существующие методы анализа данных и формирования рекомендаций на их основе. Рассмотрены преимущества и недостатки платформ для обработки данных и возможность их использования для мобильных платформ. Проанализировано влияние тональности отзывов пользователей на формирование списков рекомендаций. Во втором разделе предложен подход к построению системы рекомендации на базе Spark с учетом анализа тональности отзывов пользователей. В третьем разделе исследовано сочетание классических методов, используемых в современных рекомендательных системах, и метода анализа тональности комментариев пользователей социальных сетей. Сформирован предложение построения предварительного и финального списка рекомендаций. В выводах проанализированы полученные результаты работы. В приложениях приведены презентация, листинг разработанного программного продукта, копии публикаций и справка о внедрении. 17 Работа представлена на 80 страницах, содержит 4 приложения и ссылки на список использованных литературных источников из 51 наименования. В работе приведены 7 рисунков и 3 таблицы

    Identifying Expert Investors on Financial Microblog via Artificial Neural Networks

    In the recent years, thanks to social media platform, a plethora of information has been available to financial investors, that were traditionally dependent from financial institutions advisors. Strategies are now shared among web users, performances of stocks are commented in web communities and hints and suggestions are travelling on the internet with a fast pace, in a way that was unthinkable few years before. Several attempts have been made in the recent past, to predict Market movements and trends from activity of Financial Social Networks participants, and to evaluate if contributions from individuals with high level of expertise distinguish themselves from the rest of crowd. The Present Work is leveraging 6 years of tweets extracted from the financial platform StockTwits.com, deep diving in its content, and proposing a predictive Neural Network algorithm of Multi-Layer Perceptron type, based on features derived from text, social network and sentiment analysis. Users have been classified based on the performance achieved during the training, consistence of their prediction has been verified throughout the time and, finally, a trading strategy has been proposed based on following the top actors. The outcomes highlighted that expert investors are outperforming the wisdom of the crowd, and the trading schema put together generated a return of 38.6%, in 2015, when S&P500 had a slightly negative balance