1,176 research outputs found

    Multilingual sentiment analysis in social media.

    Get PDF
    252 p.This thesis addresses the task of analysing sentiment in messages coming from social media. The ultimate goal was to develop a Sentiment Analysis system for Basque. However, because of the socio-linguistic reality of the Basque language a tool providing only analysis for Basque would not be enough for a real world application. Thus, we set out to develop a multilingual system, including Basque, English, French and Spanish.The thesis addresses the following challenges to build such a system:- Analysing methods for creating Sentiment lexicons, suitable for less resourced languages.- Analysis of social media (specifically Twitter): Tweets pose several challenges in order to understand and extract opinions from such messages. Language identification and microtext normalization are addressed.- Research the state of the art in polarity classification, and develop a supervised classifier that is tested against well known social media benchmarks.- Develop a social media monitor capable of analysing sentiment with respect to specific events, products or organizations

    Sentiment analysis applied to tourism: exploring the tourist generated content in the case of a wellness tourism destination

    Get PDF
    Sentiment analysis applied to tourist-generated content through social media is one of the many sources of information for travellers in the case of a wellness tourism destination. The objectives of exploring tourist-generated content are to analyse the sentiments expressed on social media, in this research about wellness tourism destinations, based on destination reviews, and to identify the motivations that lead tourists to look for this kind of services in the Algarve destination The analysis of the hotel reviews exposes the tourist's opinion of the wellness destination and the grading of the infrastructural facilities and the acclaimed services in the categories of the tourist wellness destination. In attaining the objectives, quantitative approach methods were used to review 1,294 comments manually extracted from TripAdvisor and apply text mining algorithms to assess the sentiment expressed in the comments. The result shows that the three key extracted words frequently used by all categories of the component in the Algarve wellness destination are “bird”, “day”, “experience”, “Faro”, “fish”, “great”, “horse”, “love”, “market”, “massage”, “nice”, “old”, “park”, “Pinetree”, “place”, “relax”, “ride”, “spa”, “time”, “town”, “visit” and “walk”, also revealed some categories of a hotel into the services of spas and massage in the tourist wellness destination mainly satisfy the desire of the tourist. Exploring generated content with sentiment analysis helped to stimulate opinion on destinations with wellness facilities, revealing how the wellness of individuals at tourism destinations are generally satisfied based on keywords that illustrated opinions, shows diverse opinion, which shows that expectations are being met from the comments in TripAdvisor. It also widens the destination management organisation's (DMO) knowledge of the sustainability of destination infrastructures due to tourist views and opinions on destinations. However, generated review content which may be changed due to implicit factors, sometimes gives a psychological time frame view of the individual reviewer.A análise de sentimentos efetuada aos conteúdos gerados pelo turista nas redes sociais é uma das muitas fontes de informação consultadas pelos viajantes, permite visualizar os testemunhos de outros turistas que já visitaram os mesmos destinos. Através de avaliações efetuadas nas plataformas de social mídia, sobre infraestruturas existentes nos destinos turísticos, como no caso de um destino de saúde e bem-estar, permite estudar os principais motivos pelos quais estas regiões suscitam um sentimento mais positivo que outros, associado à experiência turística, com ou sem valor acrescentado pelos gestores do destino. A diversidade de opiniões, que por vezes é em função das expectativas que estão a ser satisfeitas, ou não, expressas através dos comentários gerados no TripAdvisor, podem contribuir para a sustentabilidade de infraestruturas de apoio ao turismo, que inclui, entre outras, instalações culturais tangíveis e intangíveis. Face ao exposto, os objetivos da presente dissertação são: (i) analisar o sentimento expresso nos conteúdos turísticos gerados pelos viajantes nas redes sociais sobre o destino turístico de saúde e bem-estar, (ii) avaliar o sentimento do turista sobre as componentes que caracterizam este tipo de destino e (iii) identificar as motivações que levam os viajantes a optar pelo Algarve, como um destino de turismo de saúde e bem-estar, que compreende dezasseis municípios com atrações e especificidades únicas. Para analisar o sentimento expresso nos comentários, foi necessário recorrer a uma metodologia própria de mineração de texto, cujo processo envolveu a recolha de dados, pré-processamento, extração de características, aplicação do algoritmo de análise de sentimento e por fim avaliação dos resultados. As avaliações foram extraídas manualmente e categorizadas em Número da Entidade (ID), Nome (Nome), Cidade onde está localizada (Cidade), País (País), Categoria (Categoria) Número de estrelas (Estrela) e número de avaliações (Número de avaliações). No conjunto de entidades foram considerados hotéis e infraestruturas selecionados pelas suas características: classificação e serviços turísticos adicionais prestados na área. De acordo com a revisão da literatura, as componentes consideradas e analisadas no que se refere a um destino de saúde e bem-estar foram dez, nomeadamente: Termas, Spas, Cuidados de corpo e mente, Turismo Médico, Ambiente Natural, Espiritualidade, Cultura, Enogastronomia, Desporto e Eventos. Neste contexto, foram identificados os hotéis e infraestruturas considerados como representativos de cada tipo de instalação que caracteriza este tipo de turismo e em seguida foram extraídos comentários do TripAdvisor. A seleção recaiu sobre as seguintes instalações: Caldas de Monchique (Monchique), Zensation - Body & Soul (Albufeira), Mercado de Loulé (Loulé), Moinhos Velhos Juice Detox & Yoga Retreat (Lagos), Old Town Faro (Faro), Pinetrees Horse Riding (Almancil), Ria Formosa Natural Park (Olhão), Swan Day Spa (Alvor) e Zoomarine Algarve (Albufeira). O pré-processamento envolveu a limpeza de elementos indesejados, transformação, tokenização, normalização e filtragem de texto. Na avaliação do resultado, a análise de sentimento foi também aplicada a duas dimensões (palavras extraídas e associadas em cada categoria), que foram comparadas com o comentário correspondente para determinar qual o sentimento associado a cada entidade considerada na investigação. Para atingir os objetivos, foram utilizados métodos de abordagem quantitativa para rever 1,294 comentários extraídos manualmente do TripAdvisor e nos quais foram aplicados algoritmos de mineração de texto para avaliar o sentimento expresso nos mesmos. O resultado destacou como as palavras-chave de comentários positivos: “bird”, “day”, “experience”, “Faro”, “fish”, “great”, “horse”, “love”, “market”, “massage”, “nice”, “old”, “park”, “Pinetree”, “place”, “relax”, “ride”, “spa”, “time”, “town”, “visit” e “walk”, Também, evidenciou que o sentimento associado a “spas”, “luxo”, “massage” e “sauna” obtiveram os valores mais elevados, no que se refere ao sentimento positivo. Os resultados expressaram de forma clara a aceitabilidade e popularidade perante os turistas, do Algarve como destino de saúde e bem-estar, onde se destacaram os termos “spas” e “cuidados de corpo e mente”, “ambiente natural” e “desporto” com desvio padrão de 0.4 e 0.3, com média de 4.7 par cada termo. Mostra que destinos de saúde e bem-estar com desporto (golfe), natureza e paisagem são características positivas neste tipo de destino. Além disso, as avaliações geradas durante os meses de inverno: janeiro, fevereiro, março, novembro e dezembro apresentaram valores mais altos. O estudo revelou, ainda, que algumas das categorias associadas ao destino de bem-estar turístico satisfazem o desejo do turista, principalmente, no que refere aos serviços de spas e massagem oferecidos pelos hotéis. A extração de comentários manualmente, apesar de ser uma limitação, concedeu ao investigador a possibilidade de confirmar questões relacionadas com a inclusão de taxas escondidas, com o tempo gasto no acesso à área de destino e às instalações turísticas, as atitudes do staff, prestação seletiva de serviços sem regras padrão, sem correlação entre o serviço anunciado e o prestado. A exploração de conteúdos gerados pelos turistas, em conjunto com análise de sentimentos, permitiu adquirir conhecimento sobre a perceção dos turistas sobre o destino, assim como revelou que o bem-estar dos mesmos nos destinos turísticos é geralmente satisfatório e expresso através de comentários diversos nas redes sociais que manifestam sentimentos, o que mostra que as expectativas foram satisfeitas. Para além disso, também permitem à organização de gestão de destinos (DMO) conhecer as potencialidades e desafios identificados pelos turistas. As categorias de instalações associadas a um destino de saúde e bem-estar, podem ajudar a melhorar a sua viabilidade económica através da gestão do sector turístico, contribuindo para o PIB, bem como permite identificar áreas que necessitam de especial atenção por parte dos governantes, como os eventos e o turismo médico. Contudo, o conteúdo gerado pelos turistas pode ser alterado devido a fatores implícitos, como a visão psicológica do estado do revisor individual ou o tempo que caracteriza o destino no momento. Assim, para futuros estudos, o processo de mineração de texto deverá ser efetuado de forma automática e em diversas fontes de informação, de modo que inclua mais instalações e constituído por mais comentários, especialmente no turismo médico que não foram analisados, uma vez que não existiam

    Information retrieval and text mining technologies for chemistry

    Get PDF
    Efficient access to chemical information contained in scientific literature, patents, technical reports, or the web is a pressing need shared by researchers and patent attorneys from different chemical disciplines. Retrieval of important chemical information in most cases starts with finding relevant documents for a particular chemical compound or family. Targeted retrieval of chemical documents is closely connected to the automatic recognition of chemical entities in the text, which commonly involves the extraction of the entire list of chemicals mentioned in a document, including any associated information. In this Review, we provide a comprehensive and in-depth description of fundamental concepts, technical implementations, and current technologies for meeting these information demands. A strong focus is placed on community challenges addressing systems performance, more particularly CHEMDNER and CHEMDNER patents tasks of BioCreative IV and V, respectively. Considering the growing interest in the construction of automatically annotated chemical knowledge bases that integrate chemical information and biological data, cheminformatics approaches for mapping the extracted chemical names into chemical structures and their subsequent annotation together with text mining applications for linking chemistry with biological information are also presented. Finally, future trends and current challenges are highlighted as a roadmap proposal for research in this emerging field.A.V. and M.K. acknowledge funding from the European Community’s Horizon 2020 Program (project reference: 654021 - OpenMinted). M.K. additionally acknowledges the Encomienda MINETAD-CNIO as part of the Plan for the Advancement of Language Technology. O.R. and J.O. thank the Foundation for Applied Medical Research (FIMA), University of Navarra (Pamplona, Spain). This work was partially funded by Consellería de Cultura, Educación e Ordenación Universitaria (Xunta de Galicia), and FEDER (European Union), and the Portuguese Foundation for Science and Technology (FCT) under the scope of the strategic funding of UID/BIO/04469/2013 unit and COMPETE 2020 (POCI-01-0145-FEDER-006684). We thank Iñigo Garciá -Yoldi for useful feedback and discussions during the preparation of the manuscript.info:eu-repo/semantics/publishedVersio

    Preprocessing models for speech technologies : the impact of the normalizer and the grapheme-to-phoneme on hybrid systems

    Get PDF
    Um dos usos mais promissores e de crescimento mais rápido da tecnologia de linguagem natural corresponde às Tecnologias de Processamento da Fala. Esses sistemas usam tecnologia de reconhecimento automático de fala e conversão de texto em fala para fornecer uma interface de voz para aplicações de conversão. Com efeito, esta tecnologia está presente em diversas situações do nosso quotidiano, tais como assistentes virtuais em smartphones (como a SIRI ou Alexa), ou sistemas de interação por voz em automóveis. As tecnologias de fala evoluíram progressivamente até ao ponto em que os sistemas podem prestar pouca atenção à sua estrutura linguística. Com efeito, o Conhecimento Linguístico pode ser extremamente importante numa arquitetura de fala, particularmente numa fase de pré-processamento de dados: combinar conhecimento linguístico em modelo de tecnologia de fala permite produzir sistemas mais confiáveis e robustos. Neste sentido, o pré-processamento de dados é uma etapa fundamental na construção de um modelo de Inteligência Artificial (IA). Se os dados forem razoavelmente pré-processados, os resultados serão consistentes e de alta qualidade (García et al., 2016). Por exemplo, os sistemas mais modernos de reconhecimento de fala permitem modelizar entidades linguísticas em vários níveis, frases, palavras, fones e outras unidades, usando várias abordagens estatísticas (Jurafsky & Martin, 2022). Apesar de treinados sobre dados, estes sistemas são tão mais precisos quanto mais eficazes e eficientes a capturarem o conhecimento linguístico. Perante este cenário, este trabalho descreve os métodos de pré-processamento linguístico em sistemas híbridos (de inteligência artificial combinada com conhecimento linguístico) fornecidos por uma empresa internacional de Inteligência Artificial (IA), a Defined.ai. A start-up concentra-se em fornecer dados, modelos e ferramentas de alta qualidade para IA., a partir da sua plataforma de crowdsourcing Neevo. O utilizador da plataforma tem acesso a pequenas tarefas de anotação de dados, tais como: transcrição, gravação e anotação de áudios, validação de pronúncia, tradução de frases, classificação de sentimentos num texto, ou até extração de informação a partir de imagens e vídeos. Até ao momento, a empresa conta com mais de 500,000 utilizadores de 70 países e 50 línguas diferentes. Através duma recolha descentralizada dos dados, a Defined.ai responde à necessidade crescente de dados de treino que sejam justos, i.e., que não reflitam e/ou amplifiquem os padrões de discriminação vigentes na nossa sociedade (e.g., de género, raça, orientação sexual). Como resultado, a Defined.ai pode ser vista como uma comunidade de especialistas em IA, que produz sistemas justos, éticos e de futuro. Assim, o principal objetivo deste trabalho é aprimorar e avançar a qualidade dos modelos de pré-processamento, aplicando-lhes conhecimento linguístico. Assim, focamo-nos em dois modelos linguísticos introdutórios numa arquitetura de fala: Normalizador e Grafema-Fonema. Para abordar o assunto principal deste estudo, vamos delinear duas iniciativas realizadas em colaboração com a equipa de Machine learning da Defined.ai. O primeiro projeto centra-se na expansão e melhoria de um modelo Normalizador pt-PT. O segundo projeto abrange a criação de modelos Grafema-Fonema (do inglês Grapheme-to-phoneme, G2P) para duas línguas diferentes – Sueco e Russo. Os resultados mostram que ter uma abordagem baseada em regras para o Normalizador e G2P aumenta a sua precisão e desempenho, representado uma vantagem significativa na melhoria das ferramentas da Defined.ai e nas arquiteturas de fala. Além disso, com os resultados obtidos no primeiro projeto, melhoramos o normalizador na sua facilidade de uso, aumentando cada regra com o respetivo conhecimento linguístico. Desta forma, a nossa pesquisa demonstra o valor e a importância do conhecimento linguístico em modelos de pré-processamento. O primeiro projeto teve como objetivo fornecer cobertura para diversas regras linguísticas: Números Reais, Símbolos, Abreviaturas, Ordinais, Medidas, Moeda, Datas e Hora. A tarefa consistia em expandir as regras com suas respetivas expressões normalizadas a partir de regras a seguir que teriam uma leitura não marcada inequívoca própria. O objetivo principal é melhorar o normalizador tornando-o mais simples, consistente entre diferentes linguagens e de forma a cobrir entradas não ambíguas. Para preparar um modelo G2P para dois idiomas diferentes - Sueco e Russo - quatro tarefas foram realizadas: 1. Preparar uma análise linguística de cada língua, 2. Desenvolver um inventário fonético-fonológico inicial, 3. Mapear e converter automaticamente o léxico fonético para DC-Arpabet (o alfabeto fonético que a Defined.ai construiu), 4. Rever e corrigir o léxico fonético, e 4. Avaliar o modelo Grafema-Fonema. A revisão dos léxicos fonéticos foi realizada, em consulta com a nossa equipa da Defined.ai, por linguistas nativos que verificaram se os inventários fonéticos-fonológicos seriam adequados para transcrever. Segundo os resultados de cada modelo, nós avaliamos de acordo com 5 métricas padrão na literatura: Word Error Rate (WER), Precision, Recall, F1-score e Accuracy. Adaptamos a métrica WER para Word Error Rate over normalizable tokens (WERnorm) por forma a responder às necessidades dos nossos modelos. A métrica WER (ou taxa de erro por palavra) foi adaptada de forma a contabilizar tokens normalizáveis, em vez de todos os tokens. Deste modo, a avaliação do normalizador, avalia-se usando um conjunto de aproximadamente 1000 frases de referência, normalizadas manualmente e marcadas com a regra de normalização que deveria ser aplicada (por exemplo, números reais, símbolos, entre outros). De acordo com os resultados, na versão 2 do normalizador, obtivemos discrepâncias estatisticamente significativas entre as regras. A regra dos ordinais apresenta a maior percentagem (94%) e as abreviaturas (43%) o menor percentual. Concluímos também um aumento significativo no desempenho de algumas das regras. Por exemplo, as abreviaturas mostram um desempenho de 23 pontos percentuais (pp.) superior. Quando comparamos as duas versões, concluímos que a versão 2 do normalizador apresenta, em média, uma taxa de erro 4 pp. menor sobre os tokens normalizáveis em comparação com a versão 1. Assim, o uso da regra dos ordinais (94% F1-score) e da regra dos números reais (89% F1-score) é a maior fonte de melhoria no normalizador. Além disso, em relação à precisão, a versão 2 apresenta uma melhoria de, em média, 28 pp em relação à versão 1. No geral, os resultados revelam inequivocamente uma melhoria da performance do normalizador em todas as regras aplicadas. De acordo com os resultados do segundo projeto, o léxico fonético sueco alcançou um WER de 10%, enquanto o léxico fonético russo um WER ligeiramente inferior (11%). Os inventários fonético-fonológicos suecos apresentam uma precisão maior (97%) do que os inventários fonético-fonológicos russos (96%). No geral, o modelo sueco G2P apresenta um melhor desempenho (98%), embora a sua diferença ser menor quando comparado ao modelo russo (96%). Em conclusão, os resultados obtidos tiveram um impacto significativo na pipeline de fala da empresa e nas arquiteturas de fala escrita (15% é a arquitetura de fala). Além disso, a versão 2 do normalizador começou a ser usada noutros projetos do Defined.ai, principalmente em coleções de prompts de fala. Observamos que nossa expansão e melhoria na ferramenta abrangeu expressões que compõem uma proporção considerável de expressões normalizáveis, não limitando a utilidade da ferramenta, mas aumentando a diversidade que ela pode oferecer ao entregar prompts, por exemplo. Com base no trabalho desenvolvido, podemos observar que, ao ter uma abordagem baseada em regras para o Normalizador e o G2P, conseguimos aumentar a sua precisão e desempenho, representando não só uma vantagem significativa na melhoria das ferramentas da Defined.ai, como também nas arquiteturas de fala. Além disso, a nossa abordagem também foi aplicada a outras línguas obtendo resultados muito positivos e mostrando a importância da metodologia aplicada nesta tese. Desta forma, o nosso trabalho mostra a relevância e o valor acrescentado de aplicar conhecimento linguístico a modelos de pré-processamento.One of the most fast-growing and highly promising uses of natural language technology is in Speech Technologies. Such systems use automatic speech recognition (ASR) and text-to-speech (TTS) technology to provide a voice interface for conversational applications. Speech technologies have progressively evolved to the point where they pay little attention to their linguistic structure. Indeed, linguistic knowledge can be extremely important in a speech pipeline, particularly in the Data Preprocessing phase: combining linguistic knowledge in a speech technology model allows producing more reliable and robust systems. Given this background, this work describes the linguistic preprocessing methods in hybrid systems provided by an Artificial Intelligence (AI) international company, Defined.ai. The startup focuses on providing high-quality data, models, and AI tools. The main goal of this work is to enhance and advance the quality of preprocessing models by applying linguistic knowledge. Thus, we focus on two introductory linguistic models in a speech pipeline: Normalizer and Grapheme-to-Phoneme (G2P). To do so, two initiatives were conducted in collaboration with the Defined.ai Machine Learning team. The first project focuses on expanding and improving a pt-PT Normalizer model. The second project covers creating G2P models for two different languages – Swedish and Russian. Results show that having a rule-based approach to the Normalizer and G2P increases its accuracy and performance, representing a significant advantage in improving Defined.ai tools and speech pipelines. Also, with the results obtained on the first project, we improved the normalizer in ease of use by increasing each rule with linguistic knowledge. Accordingly, our research demonstrates the added value of linguistic knowledge in preprocessing models

    Big data warehouse framework for smart revenue management

    Get PDF
    Revenue Management’s most cited definitions is probably “to sell the right accommodation to the right customer, at the right time and the right price, with optimal satisfaction for customers and hoteliers”. Smart Revenue Management (SRM) is a project, which aims the development of smart automatic techniques for an efficient optimization of occupancy and rates of hotel accommodations, commonly referred to, as revenue management. One of the objectives of this project is to demonstrate that the collection of Big Data, followed by an appropriate assembly of functionalities, will make possible to generate a Data Warehouse necessary to produce high quality business intelligence and analytics. This will be achieved through the collection of data extracted from a variety of sources, including from the web. This paper proposes a three stage framework to develop the Big Data Warehouse for the SRM. Namely, the compilation of all available information, in the present case, it was focus only the extraction of information from the web by a web crawler – raw data. The storing of that raw data in a primary NoSQL database, and from that data the conception of a set of functionalities, rules, principles and semantics to select, combine and store in a secondary relational database the meaningful information for the Revenue Management (Big Data Warehouse). The last stage will be the principal focus of the paper. In this context, clues will also be giving how to compile information for Business Intelligence. All these functionalities contribute to a holistic framework that, in the future, will make it possible to anticipate customers and competitor’s behavior, fundamental elements to fulfill the Revenue Managemen

    A sentiment analysis model to evaluate people’s opinion about artificial intelligence

    Get PDF
    Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsWith the use of internet, people are much more able to express and share what they think about a certain topic, their ideas and so on. Facebook and Twitter social networks, YouTube, online review sites like Zomato, online news sites or personal blogs are platforms that are usually used for this purpose. Every business wants to know what people think about their products; many people and politicians want to know the prediction for political elections; sometimes it can be useful to understand how opinions are distributed in some controversial themes. Thus, the analysis of textual data is also a need to stay competitive. In this work, through Sentiment Analysis techniques, different opinions from different online sources regarding to artificial intelligence are analyzed - a controversial field that have been a target of some debate in recent years. First, it is done a careful revision of the concept of Sentiment Analysis and all the involved techniques and processes such as data preprocessing, feature extraction and selection, sentiment classification approaches and machine learning algorithms – Naïve Bayes, Neural Networks, Random Forest, Support Vector Machine, Logistic Regression, Stochastic Gradient Descent. Based on previous works, the main conclusions, regarding to which techniques work better in which situations, are highlighted. Then, it is described the followed methodology in the application of Sentiment Analysis to artificial intelligence as a controversial field. The auxiliary tool used for this work is Python. In the end, results are presented and discussed
    corecore