7 research outputs found

    Aspects of Sentiment Analysis

    Get PDF
    Analýza sentimentu je podúloha zpracování přirozeného jazyka, která se obecně zabývá automatickou extrakcí a analýzou pocitů, názorů, emocí a přesvědčení vyjádřených v psaném textu. Analýza sentimentu se stala hlavní oblastí výzkumu již od počátku nového tisíciletí. Dopad analýzy sentimentu lze pozorovat v mnoha praktických aplikacích, od analýzy recenzí produktů až po předpovědi prodeje a akciových trhů pomocí monitorování sociálních médií. Abychom správně identifikovali sentiment obsažený v textu, musíme dostatečně pochopit význam (sémantiku) textu. Sémantika věty s obrazným vyjádřením však může být zcela odlišná od téže věty s doslovným významem. Nesprávná interpretace obrazných vyjádření, jako je ironie, sarkasmus a metafora, představuje závažný problém v oblasti analýzy sentimentu. Náš výzkum zahrnuje tvorbu datových zdrojů jak pro analýzu sentimentu na úrovni dokumentů, tak pro aspektově orientovanou analýzu sentimentu, dále pak experimenty s předzpracováním dat, výběrem příznaků, různými příznaky například s využitím sémantických modelů, neuronovými sítěmi, klasifikátory a průkopnický výzkum detekce sarkasmu v češtině. V práci zkoumáme také dopad použití obrazných vyjádření na analýzu sentimentu.NeobhájenoSentiment analysis is a sub-field of natural language processing. Generally, it deals with an automatic extraction and analysis of sentiments, opinions, emotions, and beliefs expressed in written text. Sentiment analysis has become a mainstream research field since the early 2000s. Its impact can be seen in many practical applications, ranging from analysing product reviews to predicting sales and stock markets using social media monitoring. In order to correctly identify the sentiment hidden in a text, we need to sufficiently understand the meaning (semantics) of the text. However, the semantics of a sentence with figurative language can be quite different from the same sentence with literal meaning. Misinterpreting figurative language such as irony, sarcasm, and metaphor represents a significant challenge in sentiment analysis. This thesis studies document-level sentiment analysis, aspect-based sentiment analysis, sarcasm detection, and the impact of figurative language on sentiment analysis. We place special emphasis on the Czech language. Our research includes the creation of data resources for both document-level and aspect-based sentiment analysis, experiments with data preprocessing, feature selection, various features e.g. using semantic models, neural networks, classifiers, and pioneer research into sarcasm detection in Czech. We also explore the impact of figurative language on sentiment analysis

    Aspects of sentiment analysis: technical report no. DCSE/TR-2015-04

    No full text
    This report introduces the task of sentiment analysis, describes the core problems and presents the formal definition of sentiment analysis. The basic machine learning algorithms for text classification are described as well as the most commonly used features for sentiment analysis. Brief overview of distributional semantics is presented. Related work and the state-of-the-art approaches to sentiment analysis are thoroughly described and sorted by the granularity level of sentiment analysis. Great emphasis is on the sentiment analysis in the Czech environment

    Hodnotící datové sady pro mezijazykovou sémantickou textovou podobnost

    No full text
    Systémy sémantické textové podobnosti (STS) odhadují míru významové podobnosti mezi dvěma větami. Mezijazyčné systémy STS odhadují míru významové podobnosti mezi dvěma větami, z nichž každá je v jiném jazyce. Nejmodernější algoritmy obvykle využívají přístupy s učitelem, které je obtížné použít pro jazyky s nedostatečnými zdroji. Každý přístup však musí mít k vyhodnocení výsledků anotovaná data. V tomto článku představujeme nové anotované datasety pro vícejazyčné a jednojazyčné STS pro jazyky, kde takové sady zatím nejsou k dispozici. Na těchto datech dále prezentujeme výsledky několika nejmodernějších metod, které lze použít jako základ pro další výzkum. Věříme, že tento článek nejen rozšíří současný výzkum STS pro další jazyky, ale také podpoří soutěž na těchto nových hodnotících datech.Semantic textual similarity (STS) systems estimate the degree of the meaning similarity between two sentences. Cross-lingual STS systems estimate the degree of the meaning similarity between two sentences, each in a different language. State-of-the-art algorithms usually employ a strongly supervised, resource-rich approach difficult to use for poorly-resourced languages. However, any approach needs to have evaluation data to confirm the results. In order to simplify the evaluation process for poorly-resourced languages (in terms of STS evaluation datasets), we present new datasets for cross-lingual and monolingual STS for languages without this evaluation data. We also present the results of several state-of-the-art methods on these data which can be used as a baseline for further research. We believe that this article will not only extend the current STS research to other languages, but will also encourage competition on this new evaluation data

    Metody strojového učení pro ověřování faktů v západoslovanských jazycích

    No full text
    Detekce tzv. fake news a úzce souvisejícího ověřování faktů získala v poslední době velkou pozornost. Výzkum možností automatizace těchto úloh byl již částečně proveden v anglickém jazyce, ale pro ostatní jazyky existuje pouze několik výzkumných článků (např. (Baly et al., 2018)) a nejsme si vědomi žádného výzkumu pro západoslovanské jazyky. V tomto článku představujeme dataset pro češtinu, polštinu a slovenštinu. Dále jsou v článku popsány základní experimenty s tímto datasetem, které poskytují referenční výsledky pro další výzkum.Fake news detection and closely-related fact-checking have recently attracted a lot of attention. Automatization of these tasks has been already studied for English. For other languages, only a few studies can be found (e.g. (Baly et al., 2018)), and to the best of our knowledge, no research has been conducted for West Slavic languages. In this paper, we present datasets for Czech, Polish, and Slovak. We also ran initial experiments which set a baseline for further research into this area

    UWB at SemEval 2014 and 2016

    Get PDF
    International Workshop on Semantic Evaluation (SemEval) is an on-going series of evaluations of NLP (Natural Language Processing) algorithms, organized by Association for Computational Linguistics (ACL), the internation-al scientific society which hold the major NLP conferences. The evaluations are intended to explore different aspects of meaning in a natural language. The re-sults of NLP algorithms are compared with human judgments. The submitted systems from research teams across the world are compared in terms of perfor-mance. Our research team actively participates in the SemEval exercises. This paper summarizes our results in the area of semantic textual similarity and as-pect-based sentiment analysis. In 2014 and 2016 our systems were among the best performing in both mentioned tasks

    Restaurant Reviews CZ ABSA corpus v2

    No full text
    Restaurant Reviews CZ ABSA - 2.15k reviews with their related target and category The work done is described in the paper: https://doi.org/10.13053/CyS-20-3-246

    Computación y Sistemas Unsupervised Methods to Improve Aspect-Based Sentiment Analysis in Czech

    No full text
    Abstract. We examine the effectiveness of several unsupervised methods for latent semantics discovery as features for aspect-based sentiment analysis (ABSA). We use the shared task definition from SemEval 2014. In our experiments we use labeled and unlabeled corpora within the restaurants domain for two languages: Czech and English. We show that our models improve the ABSA performance and prove that our approach is worth exploring. Moreover, we achieve new state-of-the-art results for Czech. Another important contribution of our work is that we created two new Czech corpora within the restaurant domain for the ABSA task: one labeled for supervised training, and the other (considerably larger) unlabeled for unsupervised training. The corpora are available to the research community
    corecore