    Кто и о чем говорит в «радостных» и «грустных» текстах: в поисках дискриминантных черт текстов разных эмоциональных тональностей

    This article focuses on the peculiarities of lexical and syntactical combinability of the Russian verb говорить (“to speak”) in Russian Internet texts of different emotion classes.The article aims to substantiate and validate the use of the established specific characteristics of the combinability of the lexeme as discriminant features serving to automatically detect eight emotional tonalities in Internet texts in Russian.The authors refer to a collection of texts found in the Подслушано (The Overhead) public page in the vk.com social network. Using the eight classes classification of emotions proposed by Lövheim, the researchers correlate each of the texts in their selection whose total volume is over a million tokens with a particular emotion by referring to the corresponding hashtags and the emotion mapping of the texts carried out by 36 assessors, Russian native speakers of 19–45 years old.The statistical analysis including term-frequency-inverse document frequency measure (TF-IDF) and analysis of lexeme frequency in eight sub-corpora proves that the Russian verb говорить does not have the same relevance in all sub-corpora, i.e. in four of them, it demonstrates a high relative frequency and a significant statistical specificity, but in the remaining four others it does not.Referring to the tools of corpus linguistics, the authors prove that to automatically attribute texts to a certain emotion class, it is essential to take into account the following peculiarities of lexical and syntactic combinability of the verb говорить: a high percentage of subjective syntactic connections, the frequency of particular lexemes (e.g. врач for the classes СТРАХ / УЖАС), and the total frequency of the lexemes belonging to one particular lexico-semantic group functioning as subject of the verbs; the frequency of separate collocations (e.g. когда люди говорят for the Злость / Гнев class); the frequency of separate syntaxemes (e.g. “с собой / себе lemma [говорить]” for the ГРУСТЬ / Тоска class); the frequency of competing syntaxemes in the specific lexemes and collocations in the position of its subject, the frequency of the syntaxemes “lemma [говорить], что” и “lemma [говорить]: (direct speech)”, marking the author’s proneness to focus on the content of what is being said in the form of direct and reported speech.After having been applied as parameters to run the classifier, the discriminate features increased the accuracy of classification for some emotion classes of texts.Статья посвящена рассмотрению специфики лексической сочетаемости и синтаксической комбинаторики глагольной лексемы говорить в русскоязычных интернет-текстах, принадлежащих различным эмоциональным классам.Целью публикации является обоснование валидности использования выявленных специфических характеристик сочетаемости и комбинаторики лексемы в качестве дискриминантных черт для автоматического определения 8 эмоциональных тональностей в интернет-текстах на русском языке.В качестве материала исследования выступает коллекция текстов, отобранных из паблика «Подслушано» в социальной сети «ВКонтакте».Используя восьмичастную классификацию эмоций, предложенную Г. Лёвхеймом, авторы соотносят каждый из текстов выборки объемом более 1 млн токенов с определенной эмоцией посредством опоры на соответствующие хештеги и эмоциональную разметку текстов, осуществленную 36 асессорами, носителями русского языка от 19 до 45 лет.Применение метода TF-IDF взвешивания, а также учет значений относительной частотности лексем в 8 сформированных эмоциональных подкорпусах текстов показали, что статус лексемы говорить неравноценен в разных подкорпусах: в 4 из них она имеет высокие относительную частотность и показатели статистической специфичности, а в оставшихся 4 подкорпусах — нет.С помощью использования инструментов корпусной лингвистики доказано, что значимыми для автоматической атрибуции текстов к тому или иному эмоциональному классу оказываются следующие особенности лексической сочетаемости и синтаксической комбинаторики глагола говорить: высокий процент субъектных синтаксических связей; частотность конкретных лексем (например, врач для класса Страх / Ужас) и суммарная частотность лексем одной конкретной лексико-семантической группы в позиции субъекта при глаголе; частотность отдельной коллокации (например, когда люди говорят для класса Злость / Гнев); частотность отдельных синтаксем (например, «с собой / себе lemma [говорить]» — для класса ГРУСТЬ / Тоска); частотность конкурирующих синтаксем «lemma [говорить], что» и «lemma [говорить]: (прямая речь)», маркирующая склонность автора текста фокусироваться на содержании говоримого в форме прямой или косвенной речи.Будучи применены в качестве параметров, подаваемых на вход компьютерному классификатору текстов, данные дискриминантные черты оказали влияние на точность атрибуции текстов к тому или иному эмоциональному классу

    Separating News from Opinion in Social Media using Machine learning

    Automatic Detection of Modality with ITGETARUNS

    In this paper we present a system for modality detection which is then used for Subjectivity and Factuality evaluation. The system has been tested lately on a task for Subjectivity and Irony detection in Italian tweets , where the performance was 10th and 4th, respectively, over 27 participants overall. We will focus our paper on an internal evaluation where we considered three national newspapers Il Corriere, Repubblica, Libero. This task was prompted by a project on the evaluation of press stylistic features in political discourse. The project used newspaper articles from the same sources over a period of three months, thus including latest political 2013 governmental crisis. We intended to produce a similar experiment and evaluate results in comparison with previous 2011 crisis. In this evaluation, we focused on Subjectivity, Polarity and Factuality which include Modality evaluation. Final graphs at the end of the paper will show results confirming our previous findings about differences in style, with Il Corriere emerging as the most atypical

    Location Based Sentiment Analysis of Products or Events over Social Media

    Nowadays social media has become a very momentous and trendy communication medium amongst all online surfers, users and data scientists because of the recent advancements in it. It constituted the study of information diffusion, user communication and user control over social networks. All types of users share their opinions on various aspects of day to day activities every day. Therefore social media web-sites are rich sources of data for opinion mining. Such data can be efficiently used for sentiment analysis. This research aims to analyze location based social media data to compute the popularity of the products/events. And this is achieved by integrating sentiment analysis, location based data analysis and machine learning approach. An application has been developed which captures the real time communication over social media sites and implements sentiment analysis on collected data. This research work uses publicly available and location enabled social media data. Analysis results are used to optimize the decision making

    Research on multi-modal sentiment feature learning of social media content

    社交媒体已成为现代社会舆论交流和信息传递的主要平台。针对社交媒体的情感分析对于舆论监控、商业产品导向和股市预测等都具有重大应用价值。但社交媒体内容的多模态性(文本、图片等)让传统的单模态情感分析方法面临许多局限,多模态情感分析技术对跨媒体内容的理解与分析具有重大的理论价值。 多模态情感分析区别于单模态方法的关键问题在于,如何综合利用形态各异的多模态情感信息,来获取整体的情感倾向性,同时考虑单个模态本身在情感表达上的性质。针对该问题,利用社交媒体上的多模态内容在情感表达上所具有的关联性、抽象层级性的特点,提出了一套面向社交媒体的多模态情感特征学习与融合方法,实现多模态情感分析,主要内容和创新点...Social media has become a main platform of public communication and information transmission. Therefore, social media sentiment analysis has great application values in many fields, such as public opinion monitoring, production marking, stock forecasting and so on. But the multi-modal characteristic of social media content (e.g. texts and images) significantly challenges traditional text-based sen...学位:工学硕士院系专业:信息科学与技术学院_模式识别与智能系统学号:3152013115327

    Sentiment Sentence Extraction Using a Hierarchical Directed Acyclic graph Structure and Bootstrap Approach

    PACLIC / The University of the Philippines Visayas Cebu College Cebu City, Philippines / November 20-22, 200

    Towards the Global SentiWordNet

    Стаття присвячена технології створення інтерактивного веб-додатка для аналізу тональності та об’єктивності тексту. Досліджені шляхи реалізації багатомовного сентимент-аналізу та визначені можливості візуалізації його результатів