205 research outputs found

    DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013.Esta dissertação apresenta uma solução chamada DeepEC (DeepWeb Extraction and Cataloguing Process) para realizar a extração e catalogação de dados relevantes em bancos de dados presentes na Deep Web, também denominados de bancos de dados escondidos. Essas informações são extraídas a partir de um conjunto de páginas HTML geradas a partir de consultas definidas sobre formulários Web. A intenção é adquirir conhecimento sobre esses bancos de dados e, consequentemente, permitir buscas estruturadas sobre esse conteúdo escondido. Experimentos comprovaram a eficácia da abordagem proposta. Comparado com trabalhos relacionados, as contribuições desta dissertação são a realização conjunta e sequencial de um processo de extração e catalogação dos dados de bancos de dados escondidos, um processo de extração automático com suporte de uma base de conhecimento e um processo de catalogação que gera registros estruturados e é capaz de realizar a detecção de atributos cujos valores não estão presentes nos dados extraídos. Abstract : This work presents an approach called DeepEC (Deep Web Extraction and Cataloguing Process) that performs the extraction and cataloging of relevant data presented in Deep Web databases, also called hidden databases. This information is extracted from a set of HTML pages generated by queries posed on web forms. The intention is to obtain knowledge about these databases and thus enable structured queries over this hidden content. Experiments have shown the effectiveness of the proposed approach. Compared to related work, the contributions of this paper are the simultaneous process of data extraction and cataloging of hidden databases, an automatic extraction process with a knowledge base support, and a cataloging process that generates structured records and it is able to detect attribute values that are missing in the extracted data

    qFex: um crawler para busca e extração de questionários de pesquisa em documentos HTML

    Get PDF
    TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.O grande aumento na disponibilidade da Internet pelo mundo abriu as portas para uma forma mais fácil e abrangente de se fazer pesquisas e estudos utilizando questionários online. Alguns dos problemas na criação de tais questionários envolvem: decidir quais perguntas fazer, como faze-las e como organiza-las. Visando isso, este artigo aborda o desenvolvimento de um Web Crawler e de um Extrator que juntos, são capazes de gerar um banco de dados de questionários que pode servir para a análise desses dados e/ou como uma base de exemplos para geração de novos questionários ou ainda para o reuso de questões já existentes.The large increase in Internet availability around the world has opened the doors to an easier and more comprehensive way of doing research and studies using online questionnaires. Some of the problems in creating such questionnaires involve: deciding what questions to ask, how to ask them, and how to organize them. Aiming at this, this article discusses the development of a Web Crawler and an Extractor that together, are capable of generating a database of questionnaires that can be used for the analysis of this data and / or as a basis of examples for generating new questionnaires or still for the reuse of existing questions

    Extração e Combinação por Similaridade: Um estudo de caso nas redes de supermercados em Florianópolis

    Get PDF
    TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação.Com a ascensão do comércio eletrônico, para bens de consumo básicos, a quantidade de ofertas na qual o consumidor final pode optar ao realizar compras de Supermercados aumentou muito. Considerando o cenário econômico brasileiro, cada vez mais se opta por formas de realizar economia financeira. Hoje em dia, é possível encontrar diversas ferramentas e plataformas online que realizam comparações de preços de produtos, mas a maioria das ferramentas disponíveis são focadas em eletrônicos, eletrodomésticos e outros bens que não são consumíveis. A proposta deste trabalho de conclusão de curso consiste em criar uma ferramenta para auxiliar a identificar, catalogar e classificar produtos similares através de diversos pontos de vendas de supermercados de Florianópolis. A solução proposta conta com o desenvolvimento de uma API que age como um Web scraper a fim de realizar a extração de preços de produtos de supermercados, que disponibilizam serviço de vendas online, localizados em Florianópolis. Os dados passam por um processo de transformação e normalização. Após o pré-processamento, os dados são processados por etapas definidas como integração e indexação, onde os dados extraídos são comparados através de algoritmos de similaridades a fim de combinar os produtos identificados como similares e salvar estas combinações. A ferramenta irá construir uma base de dados indexada e consolidada que facilitará a comparação de preços entre diferentes supermercados.With the rise of electronic commerce, for basic consumer goods, the number of websites offer in which the final consumer can choose when making purchases from groceries stores has increased. Considering the Brazilian economic scenario, often more ways are being chosen to achieve financial savings. Nowadays, you can find several online tools and platforms that perform product price comparisons, but most of the tools available are focused on electronics, appliances and other goods that are not consumables. The purpose of this article is to develop a tool that will help to identify, catalog and classify similar products through different groceries stores. An api that acts as a Web scraper in order to extract prices from online retailers’ products, located in Florianópolis. The data will undergo a process of transformation and normalization then will the data goes through the steps of indexing and integrations, in order to identify and combine similar products. The tool will build an indexed database that will facilitate the comparison of prices between different groceries stores

    Estudo comparativo de abordagens semi-supervisionadas para análise de sentimentos em tweets

    Get PDF
    Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.Existem várias abordagens para desenvolver métodos de aprendizado de máquina volta- dos para análise de sentimentos. Há uma carência, no entanto, de estudos e conjuntos de dados usando tweets na língua portuguesa para análise de sentimentos. Adicionalmente, visto a dificuldade de se encontrar conjuntos de dados rotulados para a implementação, abordagens semi-supervisionadas podem ser uma alternativa para contornar este prob- lema, podendo-se usar conjuntos de dados com apenas uma parte dos dados rotulados. Este trabalho faz uma comparação de diferentes métodos de aprendizado de máquina semi-supervisionados em relação à métodos supervisionados, aplicados à análise de sen- timentos para, entre outros fins, detecção e classificação de polaridades de textos, e suas variadas formas de implementação e análise. Para esse propósito, uma metodologia é proposta para a classificação de sentimentos em tweets utilizando dois conjuntos de da- dos, sendo um criado inteiramente de tweets na língua Portuguesa, relacionados à Uni- versidade de Brasília, e também um conjunto de tweets em língua Inglesa. Os tweets foram rotulados em positivo, negativo ou neutro, à fim de que se possa utilizar méto- dos de aprendizado de máquina supervisionados e semi-supervisionados. Basicamente o método consiste nas etapas de pré-processamento dos dados, extração de características e classificação utilizando os modelos Support Vector Machines (SVM), Naive Bayes, La- bel Propagation e k-Nearest Neighbors (KNN). Por fim, a performance dos classificadores é avaliada utilizando a F1-Score, levando às conclusões em relação à eficácia do apren- dizado semi-supervisionado comparado ao supervisionado, afim de entender melhor como a abordagem semi-supervisionada se comporta neste cenário.There are several approaches that consider machine learning methods in the sentiment analysis field. However, there is a lack of studies and datasets in Portuguese in this scope. Additionally, due to the complexity to find labeled datasets for the studies, semi- supervised approaches can be an alternative to study this problem, making it possible to employ datasets with only part of labeled data. This work makes a comparison of different semi-supervised machine learning methods in relation to supervised methods, for sentiment analysis tasks. Specifically, the key idea is to detect and classify tweets according to predefined polarities, as well as, analyzing their various forms of implementation and analysis. For this purpose, a methodology is proposed to classify sentiments in tweets using two corpora, in which one was created from Portuguese tweets, collected from profiles related to the University of Brasilia, while the other one is constituted by tweets in English language. The tweets were classified as positive, negative or neutral, by considering supervised and semi-supervised machine learning techniques. Respectively, data pre-processing, feature extraction and classifica- tion were performed using the models Support Vector Machines (SVM), Naive Bayes, Label Propagation and k-Nearest Neighbors (KNN). Finally, the classifier’s performance is analysed using F1-Score, leading to conclusions regarding the effectiveness of semi- supervised learning compared to supervised learning, in order to better understand the behavior of semi-supervised approaches in this scenario

    Uma abordagem para a identificação automática de problemas de usabilidade em interfaces de sistemas web através de reconhecimento de padrões

    Get PDF
    Recently, some systems have been transferred to the web-based platform. Many services and applications, including those of power systems simulating and planning and automation systems, are developed with Internet-based interface. Usability is mainly a characteristic of the interface and is associated with the functionalities of the systems. It describes how well a product can be used for its intended purpose by its users with efficiency, effectiveness and satisfaction. This paper presents the application of pattern recognition techniques in automatic detection and classification of usability problems in the interface of a web system. The initial focus of this work is focused on identifying potential usability problems in web forms. The potential usability problems of the web form are defined based on the recommendations described in the literature. The tasks performed by the user are obtained through analysis of user interaction stored in log files. The classification of tasks which are performed as expected and what are considered potential usability problems is performed by an Artificial Neural Network.CAPESRecentemente, alguns sistemas estão sendo transferidos para a plataforma web. Muitos serviços e aplicações, incluindo sistemas de simulação e planejamento de energia e sistemas de automação, são desenvolvidos com interfaces baseadas na Internet. A usabilidade é a principal característica de uma interface e está associada com as funcionalidades de um sitema. Ela descreve o quão bem um produto pode ser utilizado para os fins propostos por seus usuários com eficácia, eficiência e satisfação. Este trabalho apresenta a aplicação de técnicas de Reconhecimento de Padrões na detecção e classificação automática de problemas de usabilidade na interface de um sistema web. O foco inicial do trabalho é centrado na identificação de possíveis problemas de usabilidade em formulários web. Os potenciais problemas de usabilidade do formulário web são definidos a partir das recomendações descritas na literatura. As tarefas realizadas pelo usuário são obtidas através da análise da interação do usuário armazenada em arquivos de log. A classificação de quais tarefas são realizadas conforme o esperado e quais são consideradas potenciais problemas de usabilidade é realizada através de uma Rede Neural Artificial

    System for Identifying Pests and Diseases in Soybean Crop through Natural Language Processing

    Get PDF
    The presence of technologies in the agronomic field has the purpose of proposing the best solutions to the challenges found in agriculture, especially to the problems that affect cultivars. One of the obstacles found is to apply the use of your own language in applications that interact with the user in Brazilian Agribusiness. Therefore, this work uses Natural Language Processing techniques for the development of an automatic and effective computer system to interact with the user and assist in the identification of pests and diseases in soybean crop, stored in a non-relational database repository to provide accurate diagnostics to simplify the work of the farmer and the agricultural stakeholders who deal with a lot of information. In order to build dialogues and provide rich consultations, from agriculture manuals, a data structure with 108 pests and diseases with their information on the soybean cultivar and through the spaCy tool, it was possible to pre-process the texts, recognize the entities and support the requirements for the development of the conversacional system

    Dismiss : uma abordagem para análise sociotécnica da desinformação digital

    Get PDF
    Orientador: Dr. Roberto PereiraTese (doutorado) - Universidade Federal do Paraná, Setor de Ciencias Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 28/08/2023Inclui referênciasÁrea de concentração: Ciência da ComputaçãoResumo: Essa tese aborda o desafio de entender e lidar com a desinformação digital como um fenômeno sociotécnico, ou seja, que envolve tanto aspectos das tecnologias utilizadas para comunicação quanto do contexto humano/social em que a desinformação ocorre. Os resultados de nosso mapeamento sistemático da literatura mostraram que projetistas de intervenções para mitigação da desinformação têm dificuldades em lidar com a natureza sociotécnica do fenômeno, tendem a utilizar abordagens disciplinares focadas nos aspectos técnicos da desinformação e abordam o fenômeno de forma segmentada. Essas dificuldades podem levar os projetistas à ignorarem aspectos relevantes para o entendimento do fenômeno e à soluções com potenciais prejudiciais, como a censura ou avisos invasivos. Nesse sentido, essa tese investiga meios para apoiar projetistas a compreenderem o fenômeno pela perspectiva sociotécnica, ajudando a caracterizar casos de desinformação digital e auxiliando no entendimento abrangente de problemas. Como solução, essa tese apresenta a Dismiss - uma aborDagem para análIse Sociotécnica de Deinformações DigItaiS. A Dismiss é fundamentada na Semiótica Organizacional, composta pelo Modelo Conceitual do Ciclo de Vida da Desinformação Digital, artefatos e materiais de apoio que amparam a análise sociotécnica da desinformação. A abordagem representa uma ferramenta epistêmica projetada para proporcionar a reflexão de seus utilizadores sobre as circunstâncias em que a desinformação ocorre, auxiliando na compreensão da origem e consequências da desinformação digital. A Dismiss foi avaliada de forma construtiva ao longo de seu desenvolvimento, usando métodos de grupo focal (11 encontros), estudos em pequena escala (7 casos), e oficinas de análise sociotécnica de casos de desinformação digital com representantes do público-alvo (3 oficinas). Os resultados dos grupos focais e estudos em pequena escala informaram o refinamento da abordagem, sua estrutura, componentes e métodos de aplicação. Os resultados das oficinas indicam a utilidade percebida da abordagem em apoiar a compreensão da desinformação como um fenômeno sociotécnico. Os resultados também indicaram aspectos que podem ser aprimorados na Dismiss, como a quantidade de passos, a explicação de artefatos, e a densidade dos materiais de apoio, informando melhoriasAbstract: This thesis addresses the challenge of understanding and dealing with digital misinformation as a sociotechnical phenomenon, meaning that it involves both aspects of the technologies used for communication and the human/social context in which misinformation occurs. The results of our systematic literature review showed that designers of interventions for mitigating misinformation face difficulties in dealing with the sociotechnical nature of the phenomenon. They tend to employ disciplinary approaches focused on the technical aspects of misinformation and often address the phenomenon in a fragmented manner. These difficulties can lead designers to overlook relevant aspects for understanding the phenomenon and result in potentially harmful solutions, such as censorship or invasive warnings. In this regard, this thesis investigates means to support designers in comprehending the phenomenon from a sociotechnical perspective, helping to characterize cases of digital misinformation and aiding in a comprehensive understanding of the issues. As a solution, this thesis presents Dismiss - an Approach for Sociotechnical Analysis of Digital Misinformation. Dismiss is grounded in Organizational Semiotics, comprised of the Conceptual Model of the Digital Misinformation Lifecycle, artifacts, and supporting materials that underpin the sociotechnical analysis of misinformation. The approach serves as an epistemic tool designed to facilitate users’ reflection on the circumstances in which misinformation occurs, assisting in understanding the origins and consequences of digital misinformation. Dismiss was constructively evaluated throughout its development, utilizing focus group methods (11 meetings), small-scale studies (7 cases), and workshops for the sociotechnical analysis of digital misinformation cases with representatives of the target audience (3 workshops). The results from the focus groups and small-scale studies informed the refinement of the approach, its structure, components, and application methods. The workshop results indicate the perceived utility of the approach in supporting the understanding of misinformation as a sociotechnical phenomenon. The results also highlighted aspects that can be improved in Dismiss, such as the number of steps, artifact explanations, and the density of supporting materials, providing insights for enhancement
    corecore