17 research outputs found

    Social Media Text Processing and Semantic Analysis for Smart Cities

    Get PDF
    With the rise of Social Media, people obtain and share information almost instantly on a 24/7 basis. Many research areas have tried to gain valuable insights from these large volumes of freely available user generated content. With the goal of extracting knowledge from social media streams that might be useful in the context of intelligent transportation systems and smart cities, we designed and developed a framework that provides functionalities for parallel collection of geo-located tweets from multiple pre-defined bounding boxes (cities or regions), including filtering of non-complying tweets, text pre-processing for Portuguese and English language, topic modeling, and transportation-specific text classifiers, as well as, aggregation and data visualization. We performed an exploratory data analysis of geo-located tweets in 5 different cities: Rio de Janeiro, S\~ao Paulo, New York City, London and Melbourne, comprising a total of more than 43 million tweets in a period of 3 months. Furthermore, we performed a large scale topic modelling comparison between Rio de Janeiro and S\~ao Paulo. Interestingly, most of the topics are shared between both cities which despite being in the same country are considered very different regarding population, economy and lifestyle. We take advantage of recent developments in word embeddings and train such representations from the collections of geo-located tweets. We then use a combination of bag-of-embeddings and traditional bag-of-words to train travel-related classifiers in both Portuguese and English to filter travel-related content from non-related. We created specific gold-standard data to perform empirical evaluation of the resulting classifiers. Results are in line with research work in other application areas by showing the robustness of using word embeddings to learn word similarities that bag-of-words is not able to capture

    Screw-semantic content analysis for repair and evaluation of web accessibility

    Get PDF
    Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2017A Internet tem continuamente vindo a ser integrada no nosso quotidiano, tanto num ambiente profissional, como num de entretenimento. Tornou-se um recurso importante para as nossas atividades diárias, desde o trabalho à recreação. Isto significa que cada vez mais as pessoas navegam na WWW. Contudo, existem muitos tipos de utilizadores e alguns deles sofrem de deficiências, restringindo a sua experiência de utilização. Isto leva a que haja uma procura por umaWeb mais acessível para todos os tipos de utilizadores. No entanto, este processo seria mais difícil se não houvessem normas que recomendassem especificações para os sites seguirem e cumprirem, a fim de torná-los mais acessíveis. Felizmente, há uma organização designada pelas siglas WAI, Web Accessibility Initiative, que estabelece essas especificações como um conjunto de diretrizes (por exemplo, WCAG, Web Content Accessibility Guidelines), afim de ajudar no desenvolvimento das páginas web. Para ajudar os desenvolvedores, há também ferramentas como QualWeb, TotalValidator, entre outras, que permitem que os sites sejam avaliados de acordo com as diretrizes mencionadas acima, fornecendo resultados específicos. No entanto, a maioria destas ferramentas não obtém resultados com base na semântica de uma página e só conseguem fazer avaliações de sintaxe. Por exemplo, essas aplicações não avaliam se as descrições das imagens são realmente descritoras das mesmas. Nestes casos, a maioria das ferramentas pede ao desenvolvedor/utilizador para verificar manualmente. Além disso, nenhuma ferramenta conhecida consegue executar avaliações de acessibilidade Web e reparação automática. A reparação automática ajuda os utilizadores e programadoresWeb a navegar sem restrições, reparando no mesmo instante, e a transcrever de uma forma mais acessível o código, respetivamente. Assim, o principal tópico desta pesquisa é a análise de conteúdo Web semântico para melhorar a acessibilidade da Web e a sua reparação automática. Cada etapa de desenvolvimento, descrita nesta tese, será integrada no Qualweb, um avaliador de acessibilidade Web que pode realizar análise de conteúdo dinâmico. Neste documento é apresentado, primeiramente, um estudo sobre as tecnologias e metodologias existentes para a avaliação semântica e reparação de código nas páginas Web e algumas noções necessárias para o entendimento do trabalho que foi realizado. É também descrito como funciona o Qualweb e a sua arquitetura, pelo que é a ferramenta principal a beneficiar deste estudo. Relativamente ao trabalho, é apresentada uma ferramenta capaz de efetuar avaliações semânticas e geração de descrições sob conteúdo da Web, para fins de acessibilidade web, designada por Screw. Estes conteúdos irão corresponder a elementos de uma página Web que, resumidamente, poderão ser conteúdos textuais, referências a imagens e elementos/atributos do DOM que descrevam estas informações. Desta forma irão haver dois tipos de entrada no sistema, o elemento a ser descrito e a sua descrição. Este elemento poderá ser textual ou uma imagem, no entanto para verificar a semalhança semântica entre dois tipos de contéudos diferentes (imagem e texto) é necessário converter a imagem para texto, através de interpretadores que oferecem um conjunto de conceitos, que de alguma forma descrevem a imagem. Após este processo, para cada conceito é retirada a relação semântica com a descrição e com um conjunto de domínios existentes no sistema e o mesmo acontece entre a descrição e os mesmos domínios. Estes domínios são uma componente importante do sistema, pois oferecem um conjunto de dados que contextualizam tanto os conceitos como a descrição. Isto é, se a descrição e um conceito estiverem semânticamente relacionados com um mesmo domínio, então existe uma probabilidade de estes dois estarem também semanticamente relacionados. Isto irá fortalecer a relação semântica entre o conteúdo a ser descrito e a descrição. Após obter estes valores é aplicado um algoritmo que irá ditar se a descrição descreve ou não o contéudo. Para cada conceito e domínio existe, então, um valor semântico que os relaciona. Se a descrição tive algum valor relacional com esse mesmo domínio, então é aplicada uma fórmula de máximo entre, o valor da relação entre o conceito e o domínio e o valor da relação entre o conceito e a descrição. Após efetuar isto para todos os conceitos, é feita uma média de todos os valores acima de 0, isto é, que sejam positivos. Esta média irá corresponder à relação semântica entre a descrição e o conteúdo a ser descrito. Para além disto, é contado o número de vezes em que não existe relação entre os conceitos e a descrição, se este número estiver acima de um percentil, 0.6, então significa que não existe relação semântica entre a descrição e a imagem. A descrição é considerada boa ou má, se o valor obtido, pela média, está acima ou abaixo de um limite, 0.14. No fim, este algoritmo irá retornar a média e o veredito,“true” para uma boa descrição ou “false’ para uma má descrição. A estrutura de Screw é constituída por um conjunto de módulos distintos, distribuídos pelos dois processos principais, avaliação e reparação. O sistema baseia-se num Web service, permitindo interoperabilidade para ser usado não só pelo Qualweb, mas também por outras ferramentas. Além desta característica, a modularidade foi outro aspeto relevante no desenvolvimento do sistema, evitando dependências entre módulos e facilitando os desenvolvimentos sobre este. O algoritmo apresentado é distribuído pelos módulos da avaliação: Processador de Recuperação de Informações Semânticas (SIRP), Gestor de Domínio (DM) e Inspetor de Relações (RI). O SIRP é responsável por colecionar informações resumidas sobre o conteúdo, isto é, através de interpretadores e sumarizadores é fornecido um conjunto de conceitos que representam o conteúdo em palavras, no caso das imagens, ou versões resumidas, no caso de texto. O DM é responsável por obter a aproximação semântica entre domínios com a descrição e com os conceitos fornecidos pelo SIRP. Os domínios são uma componente importante do sistema, pois valorizam a relação entre os parâmetros avaliados, no sentido em que, se um dado conceito está relacionado com um certo domínio e a descrição também, então o domínio reforça a relação semântica destes dois. O RI dá a aproximação semântica entre a descrição e os conceitos, relacionando-os também com os valores obtidos no DM. O último passo da avaliação é oferecer o resultado final por meio dos módulos anteriores. O descritor do conteúdo será positivo ou negativo de acordo com o valor obtido pelo algoritmo, caso seja maior ou menor que um determinado limite, respetivamente. Na parte de reparação existem duas fases: a fase de obtenção de novas descrições e a fase de avaliação e comparação de valores. A primeira fase reúne uma série de frases geradas por serviços externos ao sistema (atualmente); a segunda fase, avalia cada uma das novas descrições com o módulo de avaliação do Screw e compara os valores de cada um com todos os valores existentes, até encontrar o melhor valor que seja acima do mesmo limite do algoritmo. Caso não haja nenhuma descrição cujo o valor seja positivo, é gerada uma descrição estática com os três melhores conceitos retirados do SIRP e que representam a imagem. A operação das interpretações, sumarizações, aproximação semântica e geração de novas descrições é suportada por um conjunto de serviços externos ao sistema, nomeadamente Clarifai, Indico e Swoogle. Estes serviços não são estacionários, isto é, podem ser alterados de acordo com a necessidade do desenvolvimento, beneficiando da modularidade do sistema. Foram realizados dois estudos neste trabalho, através de questionários online, os quais permitiram definir os melhores parâmetros do algoritmo, de forma a otimizar o seu melhor desempenho. Para além disso, estes serviram para entender a qualidade das avaliações feitas pelo sistema e também serviram para entender a qualidade das descrições de imagens atualmente naWeb. Esses estudos basearam-se em avaliações humanas sobre um conjunto de imagens e os seus textos alternativos (relativo ao atributo “alt”), para comparação entre as suas classificações e os resultados do sistema. O primeiro estudo permitiu afinar o algoritmo até atingir a melhor correlação possível, sendo que o melhor caso atingiu os 0,58, o que significa que é uma associação forte. No mesmo estudo são fornecidas os cinco melhores conceitos fornecidos pelo SIRP e a conclusão é que estas palavras nem sempre representam as imagens em questão. No segundo estudo, foram avaliadas todas as descrições geradas pelo módulo de reparação, no qual revelou que as frases geradas pelo sistema são no geral insuficientes como alternativas à descrição original. Por outro lado, no contexto da Web, existem muitas situações em que não existe qualquer tipo de descrição das imagens, o que afeta a leitura efetuada pelos leitores de ecrã. Apesar do valor não ser muito positivo, este módulo consegue gerar descrições que podem ser inseridas em atributos que não existem. Por fim, esta framework acabou por ser incluída no Qualweb, para integrar novas perspetivas de avaliação da acessibilidade Web providas de avaliações semânticas. Isto é, como foi mencionado o Qualweb só realizava avaliações sintáticas e esta integração permitiu introduzir e/ou melhorar técnicas relativas a estes problemas, como por exemplo a identificação e descrição dos “alts” nas imagens. Para além desta ferramenta, foi desenvolvido um plugin para o Google Chrome, que através dos resultados tanto do Qualweb como do Screw, concretiza reparações às páginas Web relativas às técnicas que exigem avaliação semântica de imagens.The Internet has continuously found its way into our everyday lives, both in a professional setting as well as in entertainment. It has become an important resource for our daily activities, from work to recreation. This means that increasingly more people are browsing theWWW. There are many types of users and some of them suffer from impairments, constraining their user experience. This leads to the pursuit of an accessible Web for all types of users. This process is aided with a set of guidelines (e.g. WCAG) established by a organization, W3C. These guidelines aside from being a useful guide for Web developers, they are also used byWeb accessibility tools that evaluateWeb pages in order to check issues. However most of these tools cannot resort to a page’s semantics and can only make syntactic evaluations. Also, they are not capable to repairing them. Therefore, this two subjects are the main objectives covered in this study: semantic evaluation and repair for web accessibility. For this purpose a tool called Screw is presented, which performs semantic evaluations to verify the relation between Web content (text and images) and their descriptions, applying an algorithm. For the repair mechanism, it generates new descriptions when the originals are considered bad by the tool. To support this development, two studies were carried, one for the algorithm’s optimization and the other one to verify the quality of Screw’s assessments, after the algorithm has been adjusted. For Web accessibility, Screw is integrated in Qualweb, a Web accessibility evaluator, in order to improve its evaluations to a new stage with semantic evaluation. Additionally, a plugin for Google Chrome browser was developed to repairWeb pages in real time, according to Qualweb and Screw’s results

    Screw-semantic content analysis for repair and evaluation of web accessibility

    Get PDF
    Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2017A Internet tem continuamente vindo a ser integrada no nosso quotidiano, tanto num ambiente profissional, como num de entretenimento. Tornou-se um recurso importante para as nossas atividades diárias, desde o trabalho à recreação. Isto significa que cada vez mais as pessoas navegam na WWW. Contudo, existem muitos tipos de utilizadores e alguns deles sofrem de deficiências, restringindo a sua experiência de utilização. Isto leva a que haja uma procura por umaWeb mais acessível para todos os tipos de utilizadores. No entanto, este processo seria mais difícil se não houvessem normas que recomendassem especificações para os sites seguirem e cumprirem, a fim de torná-los mais acessíveis. Felizmente, há uma organização designada pelas siglas WAI, Web Accessibility Initiative, que estabelece essas especificações como um conjunto de diretrizes (por exemplo, WCAG, Web Content Accessibility Guidelines), afim de ajudar no desenvolvimento das páginas web. Para ajudar os desenvolvedores, há também ferramentas como QualWeb, TotalValidator, entre outras, que permitem que os sites sejam avaliados de acordo com as diretrizes mencionadas acima, fornecendo resultados específicos. No entanto, a maioria destas ferramentas não obtém resultados com base na semântica de uma página e só conseguem fazer avaliações de sintaxe. Por exemplo, essas aplicações não avaliam se as descrições das imagens são realmente descritoras das mesmas. Nestes casos, a maioria das ferramentas pede ao desenvolvedor/utilizador para verificar manualmente. Além disso, nenhuma ferramenta conhecida consegue executar avaliações de acessibilidade Web e reparação automática. A reparação automática ajuda os utilizadores e programadoresWeb a navegar sem restrições, reparando no mesmo instante, e a transcrever de uma forma mais acessível o código, respetivamente. Assim, o principal tópico desta pesquisa é a análise de conteúdo Web semântico para melhorar a acessibilidade da Web e a sua reparação automática. Cada etapa de desenvolvimento, descrita nesta tese, será integrada no Qualweb, um avaliador de acessibilidade Web que pode realizar análise de conteúdo dinâmico. Neste documento é apresentado, primeiramente, um estudo sobre as tecnologias e metodologias existentes para a avaliação semântica e reparação de código nas páginas Web e algumas noções necessárias para o entendimento do trabalho que foi realizado. É também descrito como funciona o Qualweb e a sua arquitetura, pelo que é a ferramenta principal a beneficiar deste estudo. Relativamente ao trabalho, é apresentada uma ferramenta capaz de efetuar avaliações semânticas e geração de descrições sob conteúdo da Web, para fins de acessibilidade web, designada por Screw. Estes conteúdos irão corresponder a elementos de uma página Web que, resumidamente, poderão ser conteúdos textuais, referências a imagens e elementos/atributos do DOM que descrevam estas informações. Desta forma irão haver dois tipos de entrada no sistema, o elemento a ser descrito e a sua descrição. Este elemento poderá ser textual ou uma imagem, no entanto para verificar a semalhança semântica entre dois tipos de contéudos diferentes (imagem e texto) é necessário converter a imagem para texto, através de interpretadores que oferecem um conjunto de conceitos, que de alguma forma descrevem a imagem. Após este processo, para cada conceito é retirada a relação semântica com a descrição e com um conjunto de domínios existentes no sistema e o mesmo acontece entre a descrição e os mesmos domínios. Estes domínios são uma componente importante do sistema, pois oferecem um conjunto de dados que contextualizam tanto os conceitos como a descrição. Isto é, se a descrição e um conceito estiverem semânticamente relacionados com um mesmo domínio, então existe uma probabilidade de estes dois estarem também semanticamente relacionados. Isto irá fortalecer a relação semântica entre o conteúdo a ser descrito e a descrição. Após obter estes valores é aplicado um algoritmo que irá ditar se a descrição descreve ou não o contéudo. Para cada conceito e domínio existe, então, um valor semântico que os relaciona. Se a descrição tive algum valor relacional com esse mesmo domínio, então é aplicada uma fórmula de máximo entre, o valor da relação entre o conceito e o domínio e o valor da relação entre o conceito e a descrição. Após efetuar isto para todos os conceitos, é feita uma média de todos os valores acima de 0, isto é, que sejam positivos. Esta média irá corresponder à relação semântica entre a descrição e o conteúdo a ser descrito. Para além disto, é contado o número de vezes em que não existe relação entre os conceitos e a descrição, se este número estiver acima de um percentil, 0.6, então significa que não existe relação semântica entre a descrição e a imagem. A descrição é considerada boa ou má, se o valor obtido, pela média, está acima ou abaixo de um limite, 0.14. No fim, este algoritmo irá retornar a média e o veredito,“true” para uma boa descrição ou “false’ para uma má descrição. A estrutura de Screw é constituída por um conjunto de módulos distintos, distribuídos pelos dois processos principais, avaliação e reparação. O sistema baseia-se num Web service, permitindo interoperabilidade para ser usado não só pelo Qualweb, mas também por outras ferramentas. Além desta característica, a modularidade foi outro aspeto relevante no desenvolvimento do sistema, evitando dependências entre módulos e facilitando os desenvolvimentos sobre este. O algoritmo apresentado é distribuído pelos módulos da avaliação: Processador de Recuperação de Informações Semânticas (SIRP), Gestor de Domínio (DM) e Inspetor de Relações (RI). O SIRP é responsável por colecionar informações resumidas sobre o conteúdo, isto é, através de interpretadores e sumarizadores é fornecido um conjunto de conceitos que representam o conteúdo em palavras, no caso das imagens, ou versões resumidas, no caso de texto. O DM é responsável por obter a aproximação semântica entre domínios com a descrição e com os conceitos fornecidos pelo SIRP. Os domínios são uma componente importante do sistema, pois valorizam a relação entre os parâmetros avaliados, no sentido em que, se um dado conceito está relacionado com um certo domínio e a descrição também, então o domínio reforça a relação semântica destes dois. O RI dá a aproximação semântica entre a descrição e os conceitos, relacionando-os também com os valores obtidos no DM. O último passo da avaliação é oferecer o resultado final por meio dos módulos anteriores. O descritor do conteúdo será positivo ou negativo de acordo com o valor obtido pelo algoritmo, caso seja maior ou menor que um determinado limite, respetivamente. Na parte de reparação existem duas fases: a fase de obtenção de novas descrições e a fase de avaliação e comparação de valores. A primeira fase reúne uma série de frases geradas por serviços externos ao sistema (atualmente); a segunda fase, avalia cada uma das novas descrições com o módulo de avaliação do Screw e compara os valores de cada um com todos os valores existentes, até encontrar o melhor valor que seja acima do mesmo limite do algoritmo. Caso não haja nenhuma descrição cujo o valor seja positivo, é gerada uma descrição estática com os três melhores conceitos retirados do SIRP e que representam a imagem. A operação das interpretações, sumarizações, aproximação semântica e geração de novas descrições é suportada por um conjunto de serviços externos ao sistema, nomeadamente Clarifai, Indico e Swoogle. Estes serviços não são estacionários, isto é, podem ser alterados de acordo com a necessidade do desenvolvimento, beneficiando da modularidade do sistema. Foram realizados dois estudos neste trabalho, através de questionários online, os quais permitiram definir os melhores parâmetros do algoritmo, de forma a otimizar o seu melhor desempenho. Para além disso, estes serviram para entender a qualidade das avaliações feitas pelo sistema e também serviram para entender a qualidade das descrições de imagens atualmente naWeb. Esses estudos basearam-se em avaliações humanas sobre um conjunto de imagens e os seus textos alternativos (relativo ao atributo “alt”), para comparação entre as suas classificações e os resultados do sistema. O primeiro estudo permitiu afinar o algoritmo até atingir a melhor correlação possível, sendo que o melhor caso atingiu os 0,58, o que significa que é uma associação forte. No mesmo estudo são fornecidas os cinco melhores conceitos fornecidos pelo SIRP e a conclusão é que estas palavras nem sempre representam as imagens em questão. No segundo estudo, foram avaliadas todas as descrições geradas pelo módulo de reparação, no qual revelou que as frases geradas pelo sistema são no geral insuficientes como alternativas à descrição original. Por outro lado, no contexto da Web, existem muitas situações em que não existe qualquer tipo de descrição das imagens, o que afeta a leitura efetuada pelos leitores de ecrã. Apesar do valor não ser muito positivo, este módulo consegue gerar descrições que podem ser inseridas em atributos que não existem. Por fim, esta framework acabou por ser incluída no Qualweb, para integrar novas perspetivas de avaliação da acessibilidade Web providas de avaliações semânticas. Isto é, como foi mencionado o Qualweb só realizava avaliações sintáticas e esta integração permitiu introduzir e/ou melhorar técnicas relativas a estes problemas, como por exemplo a identificação e descrição dos “alts” nas imagens. Para além desta ferramenta, foi desenvolvido um plugin para o Google Chrome, que através dos resultados tanto do Qualweb como do Screw, concretiza reparações às páginas Web relativas às técnicas que exigem avaliação semântica de imagens.The Internet has continuously found its way into our everyday lives, both in a professional setting as well as in entertainment. It has become an important resource for our daily activities, from work to recreation. This means that increasingly more people are browsing theWWW. There are many types of users and some of them suffer from impairments, constraining their user experience. This leads to the pursuit of an accessible Web for all types of users. This process is aided with a set of guidelines (e.g. WCAG) established by a organization, W3C. These guidelines aside from being a useful guide for Web developers, they are also used byWeb accessibility tools that evaluateWeb pages in order to check issues. However most of these tools cannot resort to a page’s semantics and can only make syntactic evaluations. Also, they are not capable to repairing them. Therefore, this two subjects are the main objectives covered in this study: semantic evaluation and repair for web accessibility. For this purpose a tool called Screw is presented, which performs semantic evaluations to verify the relation between Web content (text and images) and their descriptions, applying an algorithm. For the repair mechanism, it generates new descriptions when the originals are considered bad by the tool. To support this development, two studies were carried, one for the algorithm’s optimization and the other one to verify the quality of Screw’s assessments, after the algorithm has been adjusted. For Web accessibility, Screw is integrated in Qualweb, a Web accessibility evaluator, in order to improve its evaluations to a new stage with semantic evaluation. Additionally, a plugin for Google Chrome browser was developed to repairWeb pages in real time, according to Qualweb and Screw’s results

    Social media analytics and the role of twitter in the 2014 South Africa general election: a case study

    Get PDF
    A dissertation submitted to the Faculty of Science, University of the Witwatersrand, Johannesburg, in fulfilment of the requirements for the degree of Master of Science., University of the Witwatersrand, Johannesburg, 2018Social network sites such as Twitter have created vibrant and diverse communities in which users express their opinions and views on a variety of topics such as politics. Extensive research has been conducted in countries such as Ireland, Germany and the United States, in which text mining techniques have been used to obtain information from politically oriented tweets. The purpose of this research was to determine if text mining techniques can be used to uncover meaningful information from a corpus of political tweets collected during the 2014 South African General Election. The Twitter Application Programming Interface was used to collect tweets that were related to the three major political parties in South Africa, namely: the African National Congress (ANC), the Democratic Alliance (DA) and the Economic Freedom Fighters (EFF). The text mining techniques used in this research are: sentiment analysis, clustering, association rule mining and word cloud analysis. In addition, a correlation analysis was performed to determine if there exists a relationship between the total number of tweets mentioning a political party and the total number of votes obtained by that party. The VADER (Valence Aware Dictionary for sEntiment Reasoning) sentiment classifier was used to determine the public’s sentiment towards the three main political parties. This revealed an overwhelming neutral sentiment of the public towards the ANC, DA and EFF. The result produced by the VADER sentiment classifier was significantly greater than any of the baselines in this research. The K-Means cluster algorithm was used to successfully cluster the corpus of political tweets into political-party clusters. Clusters containing tweets relating to the ANC and EFF were formed. However, tweets relating to the DA were scattered across multiple clusters. A fairly strong relationship was discovered between the number of positive tweets that mention the ANC and the number of votes the ANC received in election. Due to the lack of data, no conclusions could be made for the DA or the EFF. The apriori algorithm uncovered numerous association rules, some of which were found to be interest- ing. The results have also demonstrated the usefulness of word cloud analysis in providing easy-to-understand information from the tweet corpus used in this study. This research has highlighted the many ways in which text mining techniques can be used to obtain meaningful information from a corpus of political tweets. This case study can be seen as a contribution to a research effort that seeks to unlock the information contained in textual data from social network sites.MT 201
    corecore