34 research outputs found

    Update Summarization

    Get PDF

    Método fuzzy para a sumarização automática de texto com base em um modelo extrativo (FSumm)

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2015.A sumarização automática de texto procura condensar o conteúdo do documento, extraindo as informações mais relevantes. Esse processo normalmente é executado através de métodos computacionais que incorporam o método estatístico e o linguístico. O rápido desenvolvimento das tecnologias emergentes e a crescente quantidade de informação disponível inserem novos desafios para esta área de pesquisa. Um desses desafios está na identificação das sentenças mais informativas no momento da geração do sumário. Como a tarefa de sumarizar informações de texto traz consigo a incerteza inerente à linguagem natural, a lógica fuzzy pode ser aplicada nessa tarefa para contribuir nos resultados gerados. Portanto, esta dissertação propõe um método de sumarização automática de texto utilizando a lógica fuzzy para a classificação das sentenças. O método foi desenvolvido por meio da técnica de sumarização extrativa ao qual se associam tarefas de Recuperação de Informação (RI) e de Processamento de Linguagem Natural (PLN). Para a avaliação deste método, considerou-se um corpus de textos em língua portuguesa e uma ferramenta que automatiza o processo. A ferramenta de avaliação analisa a sobreposição das unidades textuais entre os sumários automáticos e o modelo humano, dadas pelas medidas de precisão, cobertura e medida-f. Foram realizados experimentos que demonstram a efetividade do método na classificação da informatividade das sentenças.Abstract : Automatic text summarization attempts to condense the document content, extracting the most relevant information. This process is usually performed by computational methods such as statistical and linguistic. The rapid development of emerging technologies and the increasing amount of information available insert new research challenges. One of these challenges is to identify the most informative sentences at the time of the summary generation. The textual information summarization task brings with it the uncertainty inherent in natural language where fuzzy logic can be applied and contribute to the results. Therefore, this dissertation proposes a method of automatic text summarization using fuzzy logic to the classification of sentences. The method was developed by extractive summarization techniques which are associated with information retrieval tasks (IR) and natural language processing (NLP). The evaluation method considers a corpus of Brazilian Portuguese news texts and a tool for evaluation of summaries. The assessment tool analyzes the text units overlaps between automatic summaries and human model producing measures (precision, recall, F-measure) that express the informativeness of the summaries. We also present experiments showing the effectiveness of our method in the informativeness sentences classification

    Sumarização Personalizada e Subjectiva de Texto

    Get PDF
    Um texto pode ser sumarizado ou resumido, isto é, o seu assunto ou conceito pode ser representado de uma forma mais sucinta. A representação mais comum de um sumário é a escrita, pois é constantemente produzida pelas pessoas, quando estas querem descrever uma determinado assunto. Ao longo dos últimos anos o uso da Internet tem vindo a massificar-se e com isso a quantidade de informação disponível nesta enorme rede, aumentou exponencialmente, sendo este acontecimento denominado como sobrecarga de informação. Isto levanta uma série de problemas, entre eles a procura de informação relevante, sobre um determinado tema. Quando alguém procura essa informação pretende encontrá-la de forma eficiente, ou seja, rápido e que aborde diretamente o assunto pretendido. Quanto ao assunto, existem algumas formas de procurar o mesmo, já em relação à celeridade da pesquisa, deparamo-nos com uma quantidade enorme de informação que por vezes difere daquilo que procuramos, sendo muito demoroso o processo de leitura de toda essa informação. Uma das formas de resolver esse problema é resumir o conteúdo do texto encontrado, para que assim possamos de uma forma mais rápida ter uma noção sobre o tema do texto encontrado. Na área da sumarização existem várias técnicas que possibilitam a obtenção de um sumário mais específico. Esta dissertação tem como base a combinação de algumas das técnicas estudadas ao longo do tempo, tais como, relevância e informatividade das palavras, objetividade, segmentação em tópicos e no uso de palavras que representem o domínio do texto. Numa abordagem estatística destacam-se a relevância dos termos de um texto, que é calculada através da frequência dos termos presentes nesse texto e num corpus,a extração das palavraschave que serão encontradas através da sua relevância no texto e a posição das frases no documento que consoante o seu tipo, pode ser calculado de diversas formas, neste caso, sendo avaliado com textos noticioso, foi implementada uma heurística posicional que atribui mais relevância a frases cimeiras. A abordagem baseada na subjectividade de um texto é implementada recorrendo a um conjunto de dados textuais conhecido como SentiWordNet [BES10]. Foi ainda implementada uma abordagem híbrida em que se combinam total ou parcialmente os métodos referidos anteriormente. De modo a proceder à avaliação do sistema foram utilizados dois conjuntos de dados noticiosos. Um destes conjuntos de dados é proveniente da Document Understanding Conference, datado de 2001, o outro é o corpus TeMário. Para que os sumários produzidos pudessem ser avaliados automaticamente, foi utilizada uma implementação em linguagem JAVA da ferramenta ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Após a comparação dos resultados do método híbrido com os restantes, com e sem identificação dos tópicos ficou evidenciado que a heurística posicional das frases obtém melhores resultados, pelo que os métodos híbridos onde esta característica tem peso superior às restantes, tanto para quando o texto é separado em tópicos como no caso contrário, de uma forma geral, obtém melhores resultados. O melhor desempenho no total dos resultados é obtido com o método híbrido, atribuindo maior peso à componente da heurística posicional da frase, sem identificação dos tópicos.A text can be summarized or abstracted, ie, its subject or concept can be represented in a more succinct form. The most common representation of a summary is written, because it is constantly produced by people when they want to describe a particular subject. Over the last years, the use of Internet has come to popularize and therewith the amount of information available in this huge network, has increased exponentially, and this event is called as "information overload". This raises a set of problems, among them the search for relevant information on a given theme. When someone searches for this information he/she want to find it efficiently, ie, fast and directly address the intended subject. For the theme, there are some ways to find it, as compared to the speed of research, we are faced with an enormous amount of information which sometimes differs from what we search, being very slow the process of reading all this information. One way to solve this problem is to summarize the contents of the text found, so we can a faster way to get a sense on the subject of the text found. In the area of summarization, various techniques exist which allow to obtain a more specific shape. This dissertation is based on the combination of some techniques, studied over time, such as relevance and informativeness of the words, objectivity, segmentation in topics and in the use a set of words that represent the domain of the text. In statistical approach is highlighted the relevance of the terms of a text, which is calculated from the frequency of terms present in a text and corpus, the extraction of domain words that will be encountered by their relevance in the text and the position of the phrases in the document, that depending on type, can be calculated in different ways, in this case, being evaluated with news texts, was implemented a positional heuristic that assigns more importance to sentences in the text top. The approach based in subjectivity of a text is implemented using a set of textual data known as SentiWordNet [BES10]. It was also implemented a hybrid approach that combines all or a set of the methods mentioned above. In order to realize an evaluatiuon of the system, two sets of news data was used. One of these data are from the Document Understanding Conference, dated 2001 and other is TeMário corpus. For summaries produced could be evaluated automatically, was used an implementation in JAVA language, of tool ROUGE (Recall-Oriented Evaluation Understudy for Gisting). After comparing the results of the hybrid method with the other, with and without identification of topics, was showed that the positional heuristic of sentences obtained better results, so that the hybrid methods where this feature has top weight to the others, both when the text is separated into topics or not, in general, performs better. The best performance in overall results are obtained with the hybrid method, assigning greater weight to the positional heuristic phrase, without identification of the component threads

    Representação de textos e arquitetura de redes neurais profundas mistas usando uma abordagem de evolução gramatical

    Get PDF
    Orientador: Aurora PozoTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 02/09/2022Inclui referências: p. 98-107Área de concentração: Ciência da ComputaçãoResumo: A classificação de texto é um das tarefas do Processamento de Linguagem Natural (do inglês, Natural Language Processing (NLP)). Seu principal objetivo é rotular elementos textuais, tais como frases, questões, parágrafos e documentos. Em NLP, muitas abordagens têm alcançado resultados promissores sobre essa tarefa. Abordagens baseadas em Redes Profundas têm sido constantemente usadas neste contexto, em especial as Redes Neurais Profundas (do inglês, Deep Neural Network (DNNs)) adicionam a habilidade de extração de características e a criação de um modelo de aprendizagem. A escala crescente e complexidade das arquiteturas DNN colocaram novos desafios para projetar e configurar DNNs. Em termos gerais, este trabalho está alinhado às tarefas de classificação de texto e como melhorar a performance de modelos já consolidados na literatura. Nossa hipótese é que a performance de modelos de classificação de texto pode ser incrementada em duas frentes complementares: 1) Representação de texto como aprimoramento contextual; e 2) Construção de modelos especializados no domínio do texto. Neste contexto, este estudo é dividido em duas partes principais: Primeiramente é apresentado uma abordagem para gerar representações de textos refinadas e semanticamente mais coesas. Para avaliar este modelo realizamos experimentos de classificação de texto consolidados na literatura que colocam à prova o modelo de representação. Em seguida, é apresentado uma aplicação da abordagem baseada em gramática evolutiva para o desenho de DNNs usando modelos baseados em Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTM) e Graph Neural Networks (GNNs) aplicadas à tarefa de Classificação de Texto. Propõe-se, portanto, diferentes gramáticas, que foram definidas para capturar as características de cada tipo de rede, propondo também algumas combinações entre elas, analisando seu impacto nas arquiteturas de redes produzidas e no desempenho dos modelos gerados. Os resultados em ambas as frentes alcançam valores animadores e oferecem direções promissoras de pesquisas futuras, pois mostram que as representações de textos ganham significativos pontos semânticos e as arquiteturas projetadas têm desempenho comparável ao de suas contrapartes. Na melhor das arquiteturas, foi possível melhorar os resultados de uma rede neural estruturada manualmente em 8,18 pontos percentuais o projeto de representação de texto proposto neste trabalho.Abstract: Text classification is one of the Natural Language Processing (NLP) tasks. Its main objective is to label textual elements, such as phrases, queries, paragraphs, and documents. In NLP, several approaches have achieved promising results regarding this task. Deep Learning-based approaches have been widely used in this context, with deep neural networks (DNNs) adding the ability to generate a representation of the data and a learning model. The increasing scale and complexity of DNN architectures was expected, posing new challenges to designing and configuring DNNs. In general terms, this work is aligned with text classification tasks and how to improve the performance of models already consolidated in the literature. Our hypothesis is that the performance of text classification models can be increased on two complementary fronts: 1) Text representation as contextual enhancement; and 2) Construction of specialized models in the text domain. So, this study is divided into two parts: Firstly we present a new approach to refine a text in order to create a comphreensive text representation model. Secondly, we present a application of a grammar-based evolutionary approach to the design of DNNs using models based on Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTM), and Graph Neural Networks (GNNs). We propose different grammars, which were defined to capture the features of each type of network, also proposing some combinations, verifying their impact on the produced designs and performance of the generated models. The results on both fronts reach encouraging values and offer promising directions for future research, as they show that text representations gain significant semantic points and the designed architectures have performance comparable to their counterparts. In the best of architectures, it was possible to improve the results of a manually structured neural network by 8.18 percentage points using the text representation project proposed in this work

    Sistema autonômico para detecção de mudanças em eventos a partir de notícias

    Get PDF
    Topic Detection and Tracking (TDT) has been a topic of many researches since it was defined in the late 90’s and early 2000’s and the main goal is to identify real-world events from non-structured information. Autonomic Computing, in the same way, has been growing since the early 2000’s and is designated for systems which are capable of measuring its own performance automatically, used in latest and modern technologies. Many works were developed in both topics, nevertheless only a few unite these two important concepts, minimizing human intervention to analyze non-structured information. The present work aims to create an autonomic system for change detection in events from news articles.Detecção e Rastreio de Tópicos (TDT) tem sido um tema de bastante pesquisas desde que foi definido no final dos anos 90 e começo dos anos 2000 e tem por objetivo identificar eventos do mundo real a partir de informação não-estruturada. Computação Autonômica, do mesmo modo, também tem crescido bastante à partir dos anos 2000 e é designado para sistemas que tem capacidade de medir seu próprio desempenho automaticamente, sendo aplicado nas mais modernas tecnologias. Muitos trabalhos foram desenvolvidos em ambos os temas, porém poucos que unissem estes dois importantes conceitos, reduzindo assim a necessidade de intervenção humana na importante tarefa de analisar informações não-estruturadas. O presente trabalho tem por objetivo criar um sistema autonômico para detecção de modificações em eventos a partir de notícias

    Uso de processamento de linguagem natural para detecção de alérgenos em alimentos a partir da lista de ingredientes

    Get PDF
    TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.A evolução da inteligência artificial tem potencializado a automação de tarefas cotidianas, tornando as máquinas cada vez mais integradas às atividades humanas. Este trabalho propõe a aplicação de processamento de linguagem natural e ontologias para aprimorar a leitura e interpretação de rótulos de alimentos, uma tarefa crucial para o acompanhamento nutricional e prevenção de reações alérgicas. Tendo em vista que a prevalência de alergias alimentares tem crescido significativamente no mundo, torna-se essencial a existência de meios precisos para identificação de suas substâncias causadoras nas listas de ingredientes dos produtos alimentícios. O estudo motivou a elaboração de um modelo que, empregando as técnicas mencionadas, facilita a interpretação automatizada de rótulos, analisando e detectando substâncias alergênicas e seus derivados. Além disso, foram conduzidos experimentos para discernir as técnicas mais eficazes dentro da área de PLN para realizar a tarefa de detecção de alérgenos nas listas de ingredientes. Os resultados desses experimentos contribuem para o aprimoramento do modelo e oferecem panoramas para demais estudos, promovendo conscientização e segurança no consumo alimentar de pessoas alérgicas

    Caracterização estética do texto

    Get PDF
    Atualmente, a vasta quantidade de textos online à disposição de qualquer organização ou indivíduo tornou-se um enorme desafio. O consumidor/leitor encontra-se num labirinto de informações não estruturada (texto) em constante crescimento, muita dela de baixa qualidade. Em vários domínios, o leitor enfrenta um desafio ainda maior, sempre que necessitar de selecionar informações textuais confiáveis e de alta qualidade. É um processo trabalhoso, geralmente atingindo uma eficácia limitada. A avaliação sistemática e a seleção de documentos de alta qualidade tornaram-se uma tarefa impossível de ser executada manualmente por qualquer ser humano. Portanto, o objetivo principal deste trabalho foi explorar os marcadores linguísticos que permitem uma caracterização efetiva da qualidade e estética contida no texto. Assim, apresentamos aqui uma análise exploratória e comparativa de um conjunto de vinte e um marcadores para avaliar a qualidade e a estética no texto. Também medimos o desempenho de auto-semelhança desses marcadores, em corpora, através de estimadores eficientes do parâmetro de Hurst. Quanto ao material experimental, reunimos e usamos dois corpora diferentes em termos de qualidade de escrita. Um corpus com alto padrão de qualidade, contendo obras clássicas da literatura, incluindo várias obras-primas do Prêmio Nobel. O outro com texto de qualidade inferior, vindo de vários internautas, incluindo textos escritos em blogs e por autores mais jovens e inexperientes. Os marcadores experimentados são agrupados em cinco tipos: vocabulário, coesão, coerência, complexidade sintática e figura de linguagem. As medições forneceram resultados muito interessantes, levando-nos a concluir que existem marcadores linguísticos de alta qualidade, muito úteis para distinguir entre textos bons e maus. O uso desses marcadores permitirá a implementação de sistemas capazes de realizar essa classificação, de forma automática e com alta qualidade.Nowadays the vast amount of online text at the disposal of any organization or individual has become a huge challenge. The consumer/reader finds itself in a maze of constantly growing unstructured information (text), much of it of poor quality. In several domains, the reader faces an even greater challenge, whenever he needs to select reliable and high-quality textual information. It is a laborious process, usually reaching a limited effectiveness. Systematically assessing and selecting high quality documents have become an impossible task to be performed manually by any human being. Therefore, the main goal of this work was to explore the linguistic markers that enable an effective characterization of the quality and aesthetics contained in text. Thus, we present here an exploratory and comparative analysis of a set of twenty-one markers for assessing the quality and aesthetics in text. We have also measured the Self-Similarity performance of these markers, in corpora, through efficient estimators of the Hurst parameter. As for the experimental material, we have assembled and used two different corpora in terms of writing quality. One corpus having high quality standards, containing classic works of literature, including several Nobel-Prize masterpieces. The other one with text of inferior quality, coming from multiple internauts, including text written in blogs and by younger and inexperienced authors. The experimented markers are grouped in five types: vocabulary, cohesion, coherence, syntactic complexity and figure of speech. Measurements provided very interesting results, leading us to conclude that there are high quality linguistic markers very useful for distinguishing between good and bad texts. The use of these markers will enable the implementation of systems capable of performing this classification, automatically and with high quality

    Framework baseado em conhecimento para análise de rede de colaboração científica

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2015.Entender a configuração da colaboração científica em um ambiente de Pesquisa e Desenvolvimento (P&D) permite a tomada de decisão em vários níveis, desde o individual até o estratégico. Análise de Redes Sociais (ARS) é um dos métodos utilizados analisar redes de colaboração científica. Nele uma rede é usualmente representada como um grafo ou matriz, o que carece de semântica e não permite que sejam analisadas características adicionais dessa rede. Ao analisar exclusivamente a estrutura da rede através das métricas de ARS, não contemplando o conteúdo dos artefatos oriundos da colaboração, perde-se um insumo importante que pode contribuir nesta análise. Percebe-se também que tarefas de análise de rede de colaboração científica são intensivas em conhecimento, pois requerem o conhecimento de um especialista, nem sempre disponível, de como realizar as tarefas. Conduzido pela abordagem metodológica Design Science Research, este trabalho apresenta uma proposição de representação ontológica de conhecimentos necessários ? conhecimento de domínio, conhecimento de tarefa e solução de tarefa ? para a realização de um conjunto de dezoito tarefas de análise de rede de colaboração, juntamente com um conjunto de artefatos para armazenamento e recuperação de dados dessas representações combinados em um framework de conhecimento para análise de rede de colaboração científica. A abordagem de modelagem de conhecimento é inspirada na noção de Problem-Solved Method (PSM) e utiliza a técnica de decomposição de tarefa (task-structure). O framework oferece artefatos de representação de conhecimento e módulos de implementação que podem ser reutilizados em outros contextos ou aplicações. Ele foi avaliado junto a gestores de Programas de Pós-Graduação onde verificou-se que as tarefas são relevantes e que os resultados possuem um grau de confiança alto. As ações de gestão propostas para as tarefas indicam a aplicabilidade como instrumento de gestão pois seus resultados evidenciam a realidade de um contexto de colaboração científica, baseado em produções em coautoria, e podem ser utilizados como insumo para a tomada de decisão por gestores, pesquisadores e comunidade do ambiente analisado.Abstract : Understanding the configuration of scientific collaboration in a research and development (R&D) environment enables decision making at various levels, from the individual to the strategic. Social Network Analysis (SNA ) is one of the methods used to analyze scientific collaboration networks. In it, a network is usually represented as a graph or matrix , which lacks semantics and do not allow additional features of this network to be analyzed. By analyzing exclusively the structure of the network while not contemplating the content of the artifacts resulting from the collaboration, one may lose an important input that can contribute to the analysis of such network. It may also be noted that the analysis tasks of scientific collaboration networks are knowledge intensive because they require the knowledge of an expert, not always available, as to how to perform the tasks. Based on the arguments presented and guided by methodological approach named Design Science Research, this work presents a proposition of ontological knowledge representation - domain knowledge, task knowledge and task solution - required to carry out a set of eighteen tasks for analysis of collaboration along with a set of artifacts for storing and retrieving data from these representations combined into a knowledge framework for scientific collaboration network analysis. The knowledge modeling approach is inspired by the notion of Problem Solved-Method (PSM) and uses the task decomposition technique (task-structure). The framework provides knowledge representation artifacts and implementation modules that can be reused in other contexts or applications. He was evaluated by Graduate Program coordinators where it was found that the tasks are relevant, and that the results have a high level of reliability. The actions of management proposals for the tasks indicate the applicability as a management tool because their results show the reality of a scientific collaboration context, based on co-authorship, and can be used as input for decision making by managers, researchers and community of the analyzed environment

    Análise de brand equity sob a perspectiva do consumidor nas mídias sociais por meio da mineração de opinião e análise de redes sociais

    Get PDF
    Orientadora : Profª. Drª. Denise Fukumi TsunodaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Ciência, Gestão e Tecnologia da Informação. Defesa: Curitiba, 10/12/2015Inclui referências : f. 224-235Área de concentração: Gestão da informaçãoResumo: As redes sociais online expandiram suas "fronteiras virtuais", tornando a Internet mais um ambiente de interação social do que uma ferramenta de pesquisa. Entretanto, mesmo antes do surgimento e expansão das mídias sociais, profissionais da área de marketing estiveram interessados em identificar a percepção dos consumidores em relação às marcas, o que passou a ser conceituado como equidade da marca baseada no consumidor. Assim, modelos operacionais foram propostos para viabilizar essa tarefa. Esses modelos, contudo, podem ser dispendiosos e de aplicação inconveniente. Buscando solucionar esse problema, esse trabalho teve como objetivo analisar a equidade da marca na perspectiva do consumidor a partir das mídias sociais. Para atingir esse objetivo, foram executadas as seguintes etapas: 1) levantamento das principais dimensões que compõem os modelos conceituais de equidade da marca; 2) proposta de um modelo preliminar para análise da equidade das marcas a partir das mídias sociais; 3) coleta dos dados referentes a quatro marcas de cosméticos presentes na rede social Twitter; 4) preparação dos dados, incluindo a atribuição de polaridade às publicações coletadas; 5) aplicação do modelo preliminar sobre os dados referentes as quatro marcas de cosméticos coletadas; 6) análise dos resultados do modelo preliminar e identificação de pontos de melhoria; 7) proposta de um novo modelo a partir dos pontos de melhoria identificados, contemplando cinco dimensões da equidade da marca; 8) coleta dos dados referentes a quatro marcas de indústrias automobilísticas presentes na rede social Twitter; 9) preparação dos dados, incluindo a atribuição de polaridade às publicações coletadas e categorização dos perfis em duas classes: consumidores e não-consumidores; 10) aplicação do modelo proposto sobre os dados referentes as quatro marcas de indústrias automobilísticas. A aplicação do modelo proposto tornou possível a análise de cinco dimensões da equidade da marca a partir de dados coletados da mídia social Twitter: conhecimento da marca, lealdade à marca, sentimento percebido, qualidade percebida e associações à marca; o procedimento de classificação de perfis em duas categorias (consumidores e não-consumidores) atingiu uma taxa de acerto de 86,5%, utilizando-se o algoritmo C4.5; a classificação de polaridade das publicações, por sua vez, atingiu uma precisão de 81,2%, com emprego da abordagem baseada em aprendizado de máquina, utilizando-se o algoritmo SVM Linear. Os resultados obtidos com a aplicação do modelo proposto demonstraram que a equidade das marcas pode ser analisada a partir de dados obtidos das redes sociais virtuais, levando à descoberta de como os consumidores percebem as marcas nesse ambiente, sem a necessidade de aplicação de questionários, viabilizando que diferentes marcas em diferentes contextos sejam analisadas a partir de critérios objetivos e replicáveis para cada um dos elementos de equidade da marca que compõem o modelo. Palavras-chave: CBBE; descoberta de conhecimento; análise de sentimentosAbstract: Online social networks expanded their "virtual borders", making the Internet more an environment of social interaction than a research tool. However, even before the emergence and expansion of social media, marketing professionals were interested in identifying the perception of consumers in relation to brands, which came to be conceptualized as consumer-based brand equity. Thus, operational models have been proposed to facilitate this task. These models, however, can be expensive and inconvenient. To overcome this problem, this study aimed to analyze the brand equity from a consumer perspective from social networks through the use of opinion mining techniques and social network analysis. To achieve this goal, the following steps were performed: 1) the main dimensions that make up the conceptual models of brand equity were surveyed; 2) a preliminary model for analysis of the brand equity from the social media has been proposed; 3) data related to four cosmetic brands from the Twitter were collected; 4) the data were prepared, including the assignment of polarity to the collected publications; 5) the preliminary model was applied to the data collected related to the four cosmetic brands 6) the results obtained from the application of the preliminary model were analyzed and areas for improvement were identified; 7) a model was proposed from the identified points of improvement, covering five dimensions of brand equity; 8) data related to four brands of car manufacturers were collected from the Twitter; 9) the data has been prepared, including the assignment of polarity to the collected publications and the categorization of the profiles into two classes: consumers and non-consumers; 10) the proposed model was applied to the data related to four brands of the automotive industries. The application of the proposed model made possible the analysis of five brand equity dimensions from data collected from Twitter: brand awareness, brand loyalty, perceived sentiment, perceived quality and brand associations; the profile classification process into two categories (consumers and non-consumers) had a 86.5% hit rate, using the C4.5 algorithm; polarity classification of publications, in turn, has reached an accuracy of 81.2% with use of approach based on machine learning, using the linear SVM algorithm. The results obtained from the application of the model show that the brand equity can be analyzed from data obtained from virtual social networks, leading to the discovery of how consumers perceive brands in this environment without the need for questionnaires, enabling different brands in different contexts are analyzed by objective and replicable criteria for each of the brand equity elements that make up the model. Key-words: CBBE; knowledge discovery; sentiment analysi

    Monitorização da Reputação de Entidades Ligadas à Wikipédia

    Get PDF
    Com o aumento da utilização de redes sociais e o grande volume de dados gerados, tem sido cada vez mais necessário investir na análise e exploração desses dados com o intuito de extrair informações com diferentes objetivos. O propósito deste trabalho é apresen- tar os resultados derivados da construção de uma plataforma para extrair informações do Twitter e fornecer ao utilizador desta plataforma dados pré-processados, e apresen- tados no formato de gráficos, disponibilizados por meio de uma interface user frindely, a qual possibilita ao usuário analisar e gerar conclusões sobre os dados apresentados. A plataforma desenvolvida utiliza dados provindos do Twitter a qual, com um comando fornecido pelo utilizador, recupera informações (tweets) para serem aplicados em algorit- mos para recuperar dados semelhantes, encontrar entidades nomeadas, efetuar análise de sentimento, obter as principais keywords dos tweets agrupados e com o objetivo princi- pal, aplicar algoritmos de entity link para fornecer resultados mais ricos a cada entidade encontrada com a utilização do Wikipédia.The surge in social network activity and vast volume of data generated by these systems has raised the significance of exploring and analysing this data in order to gather useful information regarding a particular field of interest. This paper introduces a platform that extracts, pre-processesses, and presents information through graphs in a user-friendly data interface that effectively facilitates the analysis and decision making process for its user. Given a user input (one or multiple keywords and/or hashtags), the proposed plat- form retrieves data (tweets) from Twitter, grouping similar data and analysing sentiment through specified algorithms. Furthermore, the main keywords are identified and entity link algorithms are used to enrich the data presented with relevant Wikipedia articles
    corecore