8 research outputs found
Social Media, Topic Modeling and Sentiment Analysis in Municipal Decision Support
Many cities around the world are aspiring to become. However, smart
initiatives often give little weight to the opinions of average citizens.
Social media are one of the most important sources of citizen opinions. This
paper presents a prototype of a framework for processing social media posts
with municipal decision-making in mind. The framework consists of a sequence of
three steps: (1) determining the sentiment polarity of each social media post
(2) identifying prevalent topics and mapping these topics to individual posts,
and (3) aggregating these two pieces of information into a fuzzy number
representing the overall sentiment expressed towards each topic. Optionally,
the fuzzy number can be reduced into a tuple of two real numbers indicating the
"amount" of positive and negative opinion expressed towards each topic.
The framework is demonstrated on tweets published from Ostrava, Czechia over
a period of about two months. This application illustrates how fuzzy numbers
represent sentiment in a richer way and capture the diversity of opinions
expressed on social media
Automatic Identification of Slovak Text Author using Machine-Learning Methods
In today’s world aid of computers is needed to process large quantities of text data. One of the tasks that can be automated is text document classification. Most classification algorithms require numerical input. Because of that, methods for transforming text into numerical vectors, i.e. vectorization, had to be developed.
In this thesis we study different vectorization methods while solving a problem of author identification, using speeches made during Slovak national parliament meetings as training data. We compare well established bag-of-words family of vectorization methods with novel word-graph based approaches. Bag-of-words methods are considered intuitive but come with a number of disadvantages. Most notably, numerical vectors produced are sparse and high-dimensional. These issues are addressed by the word-graph based vectorization. Main goal of the thesis is to answer the question, whether these new approach is better for solving complex text classification problems.
Tested vectorization methods are further combined with multiple algorithms for training classification models. These combinations are then compared in terms of classification accuracy and training time. Two dataset variants are examined during experiments: first having similar number of documents for each class and second having significant differences in number of samples available for different authors.
The results show that bag-of-words provide better performance than originally proposed word-graph algorithm. We propose a set of modifications which, when applied, significantly improve classification accuracy. We find this modified model useful especially in combination with the decision tree classification method as it provides reasonable accuracy and the added benefit of easy interpretability.V dnešní době je k zpracování velkého množství textových dat nutná asistence počítačů. Jedním z úkolů, které je možné automatizovat, je klasifikace textových dokumentů. Většina algoritmů pro klasifikaci však vyžaduje číselný vstup. To znamená nutnost existence metod pro převod textu do do podoby číselných vektorů. Tento proces je často označován jako vektorizace.
V této práci studujeme různé způsoby vektorizace na ukázkovém problému identifikace autora textu. Jako trénovací data jsou použité přepisy vystoupení politiků v Národní radě Slovenské republiky. Zaměřujeme se na dva typy vektorizace: běžně používanou rodinu metod bag-of-words a nové přístupy založené na konstrukci tzv. word-grafu. Metody bag-of-words lze považovat za intuitivní, na druhou stranu jsou ale spojené s řadou nevýhod. Nejvýznamnější z nich je řídkost a vysoký počet dimenzí výsledného vektoru. Tyhle nedostatky se snaží word-graph metody odstranit. Hlavním cílem této práce je zjistit, jestli je tento nový přístup lepší pro řešení komplexních klasifikačních problémů.
Testované metody vektorizace jsou kombinovány s různými algoritmy pro trénovaní klasifikačních modelů. Tyto kombinace pak mezi sebou porovnáváme z pohledu přesnosti klasifikace a doby nutné pro natrénování. Použité jsou přitom dvě varianty datasetů: jeden s podobným počtem dokumentů pro každého autora, a druhý, kde se počet vzorků pro dostupných pro jednotlivé třídy značně liší.
Výsledky ukazují, že tradiční bag-of-words metody poskytují při klasifikaci větší přesnost než původní word-graph algoritmus. Z tohoto důvodu dále navrhujeme sadu modifikací, které značně přesnost klasifikace zvyšují. Tento upravený model považujeme za obzvláště užitečný v kombinaci s klasifikací pomocí rozhodovacích stromů. Tato varianta poskytuje relativně vysokou přesnost a unikátní benefit lehké interpretace modelu.157 - Katedra systémového inženýrstvívýborn
The Complex Evaluation of the Impact of COVID-19 Pandemic at Universities: A Soft Computing Approach
The COVID-19 pandemic impacted the educational process since the teaching process has been forced to go online in many countries. This enforced change revealed the weaknesses and strengths of the national educational systems and particular institutions. This article aims to analyse the impact of COVID-19 at selected European universities and assess the satisfaction of students, teachers, IT staff and management. This study is unique for its systematicity and complexity – it aggregates the opinions of all interested groups of stakeholders, distinguishes several time periods (before, during and after the pandemic), and allows the respondents to express hesitance in their evaluation. The evaluation model uses fuzzy sets to capture the uncertainty and to aggregate the opinions of different stakeholder groups. The empirical results show that most of the satisfaction development is the same or similar for all institutions examined. Then, the pandemic strongly influenced the satisfaction of all stakeholder groups at the universities examined. This impact was mostly negative, however, several lessons learnt have been revealed. Therefore, it was shown that it is highly beneficial to include these aspects to obtain a reliable picture of overall satisfaction
Analýza sentimentu a její aplikace pro manažerské rozhodování
Many cities around the world are aspiring to become Smart by deploying various information and communication technologies in order to support decision making. Smart City initiatives are often an interplay of local authorities and businesses involved in this industry.
The opinions of ordinary citizens are often given little weight. This could be due to the costs and difficulties associated with collecting and analyzing these opinions. Many cities use surveys, but this data collection method has many limitations, such as the enforcement of a closed set of questions and answers or limited temporal scope.
Free-form text published on social media could be used as a complementary source of citizen opinions. However, processing these data is even more difficult than evaluating survey results. Therefore, this dissertation proposes a novel social media analysis framework for municipal decision making. The framework consists of three main components. First, it uses topic modeling methods to identify topics discussed by social media users at a given location. Second, it uses sentiment analysis to determine the degree and orientation of the sentiment polarity of social media content. Third, it aggregates topic and sentiment information to provide an overall high-level view on the challenges and opportunities the municipality is facing.
The aggregation component is the main methodological contribution of the dissertation. It uses fuzzy sets to capture the uncertainty stemming from different people having different opinions on the same topic. The framework also determines the level of positive and negative opinion expressed towards each topic as a degree of similarity between the fuzzy set representing sentiment towards a specific topic and fuzzy sets representing positive and negative opinion.
The functionality of the framework is demonstrated on synthetic data and more importantly on real-world data extracted from Twitter for two Czech cities: Ostrava and Brno. Several conclusions useful for municipal decision making are drawn from the analysis. The framework is then compared with a naive approach, and it is shown that it provides more information. Finally, a the dissertation presents a simple web application that illustrates how the framework results can be presented in a user-friendly form.Mnoho měst na celém světě se snaží stát městy "chytrými", a proto ve velkém rozsahu nasazují různé informační a komunikační technologie, které jím pomáhají v rozhodování. Tyto "chytré" iniciativy jsou ale často výsledkem vyjednávaní pouze dvou skupin: místních autorit a firem, které v tomto odvětví působí. Názory obyvatel hrají pouze malou roli. To může být způsobené vysokými náklady a náročností sběru a vyhodnocování těchto názorů. Mnoho měst k tomuto účelů využívá dotazníky. Tato metoda má ale své nedostatky, jakými jsou například omezená množina otázek a možných odpovědí nebo časové limitace.
Jako doplňkový zdroj názorů obyvatel je možné použít sociální sítě, které často obsahují volně psaný text. Zpracování těchto dat ale může být ještě náročnější než zpracování dotazníků. Cílem této disertační práce je proto vytvoření metodologického rámce poskytujícího rozhodovatelům na úrovni měst pohled na názory obyvatel na sociálních sítích. Navrhovaný rámec se skládá ze tří části: (1) identifikace témat, které jsou předmětem diskuse na sociálních sítích pomocí tzv. topic modeling metod, (2) určení orientace a stupně polarity názorů pomocí metod pro analýzu sentimentu a (3) agregace informací o tématech a sentimentu poskytující regionální samosprávě přehled o problémech a příležitostech, kterým obyvatele čelí.
Agregační komponenta představuje hlavní metodologický přínos disertace. Pomocí fuzzy množin zachycuje nejistotu plynoucí z rozdílných názorů obyvatel na stejné téma. Rámec navíc umožňuje stanovení úrovně pozitivního a negativního sentimentu vůči danému tématu. Tato úroveň se počítá jako míra podobnosti mezi fuzzy množinou reprezentující sentiment vůči specifickému tématu a fuzzy množinami reprezentujícími pozitivní a negativní sentiment.
Funkčnost rámce je demonstrována na syntetických i reálných datech, která byla získaná ze sociální sítě Twitter pro dvě český města: Ostravu a Brno. Z analýzy pomocí navrženého rámce bylo možné pro samosprávy získat několik konkrétních doporučení. Rámec byl taky porovnán s naivním přístupem, v porovnaní s který poskytuje pro rozhodovatele víc informací. Na závěr byla vytvořena jednoduchá webová aplikace prezentující výsledky analýzy ve formě přívětivé pro koncové uživatele.157 - Katedra systémového inženýrstvívyhově
Cleaning, extraction of text and transformation of web pages into vertical format
This thesis deals with the topic of extraction of text from web page, recognition of important contents and its transformation to vertical format, which can be used as a suitable input for other natural language processing tasks. It analyzes the existing solution and its components with emphasis on its disadvantages and describes the design and implementation of new solution based on obtained knowledge
Cleaning, extraction of text and transformation of web pages into vertical format
This thesis deals with the topic of extraction of text from web page, recognition of important contents and its transformation to vertical format, which can be used as a suitable input for other natural language processing tasks. It analyzes the existing solution and its components with emphasis on its disadvantages and describes the design and implementation of new solution based on obtained knowledge
Linguistic summaries in evaluating elementary conditions, summarizing data and managing nested queries
Data users are generally interested in two types of aggregated information: summarization of the selected attribute(s) for all considered entities, and retrieval and evaluation of entities by the requirements posed on the relevant attributes. Less statistically literate users (e.g. domain experts) and the business intelligence strategic dashboards can benefit from the linguistic summarization, i.e. a summary like the most of customers are middle-aged can be understood immediately. Evaluation of the mandatory and optional requirements of the structure P-1 and most of the other posed predicates should be satisfied is beneficial for analytical business intelligence dashboards and search engines in general. This work formalizes the integration of aforementioned quantified summaries and quantified evaluation into the concept of database queries to empower their flexibility by, e.g. the nested quantified query conditions on hierarchical data structures. Next, this approach contributes to the mitigation of the empty answer problem in data retrieval tasks. Thus, the strategic and analytical dashboards as well as query engines might benefit from the proposed approach. Finally, the obtained results are illustrated on examples, the internal and external trustworthiness is elaborated, and the future research topics and applicability are discussed.Web of Science31485684
Automatic Classification of Semantic Units in Case Law
Příspěvek popisuje experiment se strojovým učením, kdy na minimálním datasetu bylo pomocí kombinace známých algoritmů strojového učení dosaženo relativně vysoké úspěšnosti klasifikace významových celků. Významovými celky se zde rozumí např. hlavička, procesní historie a argumentace stran.This paper describes a machine learning experiment that showed relatively high- fidelity classification of denotation segments on aminimal dataset using a combination of known machine learning algorithms. By denotation segments we mean segments such as header, proceeding history and party argumentation