1,454 research outputs found

    Processamento de linguagem natural e classificação de textos em sistemas modulares

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Sistemas modulares são implementados de forma que cada componente possa, individualmente, alcançar seus objetivos e contribuir para o correto funcionamento do sistema. A extração de dados textuais de fontes online pode ter alterações e depende de fornecer meios simples de modificar apenas módulos individuais responsáveis por estas tarefas, adequando-se às atualizações das fontes de dados sem afetar o resto do sistema. Os processos devem estar adequados à dinâmica do ambiente que estão disponíveis, visando escalabilidade e processamento de forma eficiente. O ambiente é estocástico e força os diferentes módulos a serem o mais completos e generalistas possível e seus componentes facilmente manuteníveis. A língua portuguesa também é um grande desafio, devido sua heterogeneidade, a diversidade de fontes e de modos de escrita, este trabalho busca encontrar padrões e metodologias de normalização e limpeza de dados que sirvam também a outros contextos e a outras línguas. Esse trabalho propõe uma arquitetura com diversos módulos que realizem tarefas de captura de dados textuais, fluxos de pré-processamento de dados, extração de entidades de textos em linguagem natural, estruturação e formatação dos dados, armazenamento destes dados de forma eficiente e resiliente, processamento de linguagem natural, classificação de textos em na língua portuguesa. Esta arquitetura se baseia em um fluxo completo que contempla a obtenção, processamento e análise dos dados. Este trabalho também visa aplicar suas metodologias sobre dados governamentais, buscando gerar insumos para a identificação de comportamento de cartéis de empresas em obras públicas por meio de técnicas de aprendizado de máquina e inteligência artificial. Experimentos indicam resultados positivos para a estruturação de uma arquitetura que possa extrair os dados e processá-los corretamente, trazendo os indícios necessários para uma análise de dados e oferecendo informações para aprofundar no campo de conhecimento de aplicação do processamento de linguagem natural em sistemas modulares e inteligentes.Modular systems are implemented in a way that each component can individually achieve its objective and contribute to the correct functioning of the whole system. Extraction of textual data from online sources can have changes and the responsible modules for it should be easy to modify, adapting to updates in the data sources without affecting the rest of the system. Processes must be appropriate to the dynamics of the environment, aiming for scalability and efficient processing. The environment is stochastic and forces the different modules to be as complete and general as possible and their components easily maintainable. The Portuguese language is also a great challenge, due to its heterogeneity, diversity of sources and different modes of writing, this work seeks to find standards and methodologies for normalization and data cleansing that also serve other contexts and other languages. This work proposes an architecture with several modules that perform tasks of textual data capture, data preprocessing workflows, extraction of natural language text entities, structuring and formatting of data, efficient and resilient data storage, processing of natural language, classification of texts in Portuguese language. This architecture is based on a complete workflow that contemplates obtaining, processing and analyzing the data. This work also aims to apply its methodologies on government data, seeking to generate inputs for the identification of behavior of cartels through techniques of machine learning and artificial intelligence. Experiments indicate positive results for the structuring of an architecture that can extract the data and process it correctly, bringing the necessary tools for a data analysis and providing information to deepen in the field of application knowledge of natural language processing into modular and intelligente systems

    Extração de informação para busca semântica na web baseada em ontologias

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica.Sistemas de Recuperação de Informação (RI) prestam um papel fundamental na busca por páginas na Web. Entretanto, os resultados oferecidos por estes sistemas são pouco precisos, trazendo muitas informações que não condizem com o interesse do usuário. Isto ocorredevido à falta de semântica nas páginas da Web e nos critérios de busca adotados pelos sistemas de RI. Neste trabalho propomos um sistema de Extração de Informação (EI) baseado em ontologias. O objetivo é extrair informações de páginas previamente classificadas semanticamente pelo sistema MASTER-Web que é um sistema multiagente cognitivo para recuperação, classificação e extração de informação na Web. Ontologias são empregadas como formalismo de representação de conhecimento e permitem que o conhecimento seja discriminado em três tipos: conhecimento do domínio, conhecimento sobre a página Web e conhecimento sobre a informação a ser extraída. Regras de produção são usadas como representação do conhecimento sobre o processo de extração. A informação é tratada como um conjunto formado por dados que são extraídos individualmente e depois combinados de modo que componham uma informação consistente. Estes dois passos definem as duas fases da extração que são a extração individual e a integração. Na primeira fase os dados são extraídos individualmente e na segunda fase, os dados, que de alguma forma se relacionam, são unidos formando a informação. O sistema proposto permite portabilidade e reusabilidade do conhecimento, bem como flexibilidade na representação e manutenção do conhecimento sobre a extração. Experimentos foram feitos com o sistema visando avaliá-lo. Para validar os experimentos, os resultados obtidos foram confrontados com os resultados de um outro sistema de EI obtendo resultados bastante satisfatórios

    Fave: uma proposta para verifica??o de extratores de dados de p?ginas html

    Get PDF
    The constant growth of online services, for example, price and product comparison, content aggregators, among others, drives the demand for solutions for data extraction. In order for information from the Internet to be compared or grouped, it is first necessary to extract relevant data from web pages in a structured format. The techniques that provide data extraction are known as wrappers. Each wrapper is developed based on the HTML page and produces a set of structured information. But when an HTML page is modified, wrapper may stop working or works incorrectly. Currently there are several studies to perform the automatic adjustment of the data extraction system, procedure known as wrapper maintenance. This work presents some techniques of wrapper maintenance and proposes an improvement in the method of extractor automation based on the presented techniques.O constante crescimento de servi?os online, por exemplo, compara??o de pre?os e produtos, agregadores de conte?dos, entre outros, impulsiona a demanda por solu??es para a extra??o de dados. Para que informa??es oriundas internet possam ser comparadas ou agrupadas, ? necess?rio extrair os dados relevantes das p?ginas web em um formato estruturado. As t?cnicas que providenciam a extra??o de dados s?o conhecidas como wrappers. Cada wrapper ? desenvolvido usando como base a p?gina HTML e produz um conjunto de informa??es estruturadas. Por?m quando uma p?gina HTML ? modificada, o wrapper para de funcionar ou funciona de maneira incorreta. Atualmente j? existem diversos estudos para fazer o ajuste autom?tico do sistema de extra??o de dados, procedimento conhecido como wrapper maintenance. Este trabalho apresenta algumas t?cnicas de wrapper maintenance e prop?e uma melhoria no m?todo de automa??o de extratores tomando como base as t?cnicas apresentadas

    Customer Xperience - Análise de padrões de comportamento nas redes sociais para apoiar o setor do retalho

    Get PDF
    Esta dissertação tem como finalidade a criação de uma solução que permita entender padrões de comportamento social e criar fontes para guiar processos de: planeamento, preço, reaprovisionamento, alocação de stocks, layouts de loja, experiência do cliente em processos do Omni-channel e processos de campanhas direcionadasThis dissertation aims to create a solution to understand social behavior patterns and create sources to guide processes of: planning, pricing, replenishment, stock allocation, store layouts, customer experience in Omni-channel processes and processes of targeted campaign

    Uma ontologia para a descrição de conteúdos de testamentos

    Get PDF
    Dissertação de mestrado integrado em Engenharia InformáticaCada vez é mais notória a importância que as ontologias têm vindo a ganhar no que toca ao desenvolvimento de sistemas baseados em conhecimento. Para além de ainda haver alguma dificuldade em compreender o seu modo de implementação, a sua construção manual é muito dispendiosa tanto a nível de recursos como de tempo e, após a construção, é necessário manter a ontologia atualizada consoante os novos requisitos que poderão surgir. Nesta dissertação apresentamos, numa primeira parte, a definição de ontologia, a sua utilidade e algumas das metodologias que podem ser utilizadas na sua construção manual, analisando a sua evolução ao longo do tempo. Após esta introdução, apresentamos algumas técnicas de construção (semi-)automática de ontologias a partir de textos e abordamos o conceito de ontology learning, bem como tudo aquilo que este processo envolve. Além disso, enunciaremos alguns dos sistemas que fazem uso dessas mesmas técnicas. Por fim, apresentamos o trabalho desenvolvido na extração de uma ontologia a partir de um conjunto de textos relativos a testamentos antigos, que foram editados por Barros e Alves (2019) em O Livro dos Testamentos – Picote, 1780-1803, detalhando o processo de extração realizado para a ontologia pretendida, bem como apresentando as técnicas e ferramentas utlizadas. Neste processo, queremos relevar a importância da utilização de padrões léxico-sintáticos e o dependency parsing, que contribuíram de forma efetiva para a obtenção dos resultados que alcançámos.The importance that ontologies have gained in terms of knowledge-based systems develop ment is increasingly evident. In addition to the difficulties that still exist in understanding how to build ontologies, their manual construction is very costly not only in terms of resources but also in time and, after their construction, it is necessary to keep them updated according to new requirements that may arise. In this dissertation we’ll present, in the first part, the definition of ontology, its usefulness, and some methodologies for its manual cons truction as well as the possibility of its evolution. After this introduction to the concept of ontology some techniques for its (semi-) automatic construction from texts will be presented in which the concept of ontology learning will be introduced as well as everything that this process involves and some systems that make use of these techniques. Finally, will be presented the work developed in the extraction of an ontology from old testaments, which were edited by Barros and Alves (2019), O Livro dos Testamentos – Picote, detailing the process carried out to extract the ontology intended as well as presenting the techniques and tools used in this process. It is important to highlight, in this process, the importance of using lexical-syntactic patterns and the dependency parsing that effectively contributed to the achievement of the obtained results

    Uma Arquitetura de business intelligence para processamento analítico baseado em tecnologias semânticas e em linguagem natural

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011A necessidade de obtenção e uso de conhecimento para apoio à tomada de decisão motiva a convergência das novas gerações de Business Intelligence (BI) com os instrumentos da Engenharia do Conhecimento. Não obstante a aplicação de tecnologias semânticas e métodos de representação de conhecimento, as pesquisas de BI pouco exploram o uso de linguagem natural para a condução das análises. A metáfora de busca de informações conjeturada na Web Semântica revela-se como tendência para a área de BI. Assim, propõe-se uma arquitetura de BI em que a estratificação das informações estratégicas das fontes de dados corporativas é conduzida por meio da interpretação semântica de perguntas declaradas em linguagem natural. Esta arquitetura aproxima a área de BI da disciplina de Question Answering (QA) e dos formalismos oriundos da Web Semântica em uma abordagem interdisciplinar. Alguns recursos de representação de conhecimento, como ontologia, regras de inferência, padrões idiomáticos e heurísticas auxiliam os módulos funcionais da arquitetura na interpretação de perguntas e na obtenção de cubos OLAP. A demonstração da viabilidade da arquitetura é verificada em um estudo de caso relacionado ao domínio de C&T da Plataforma Lattes Institucional da UFSC. Uma interface analítica foi construída para permitir a entrada de perguntas em idioma português, a interação com o tomador de decisão para a resolução de ambigüidades e a visualização de hipercubos. Assim, tal como o modo de localização de informações já familiarizado por bilhões de usuários da Web, essa pesquisa proporciona um método inovador para auxiliar o processo decisório

    Definição e representação da corpora geoespacial para mapas indoor 3D a partir de nuvem de pontos

    Get PDF
    Orientador: Prof. Dr. Daniel Rodrigues dos SantosTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências da Terra, Programa de Pós-Graduação em Ciências Geodésicas. Defesa : Curitiba, 15/12/2022Inclui referências: p. 149-156Resumo: O termo corpora geoespaciais é definido como um conjunto de dados geoespaciais, sistematizados segundo determinados critérios de maneira que sejam representativos do espaço que se deseja mapear, e pode, a partir de concepções probabilísticas e combinatórias analisar a colocabilidade de um dado geoespacial em decorrência da descrição do ambiente de interesse, buscando revelar respostas a partir de observações estatísticas e identificação de padrões de uso para uma coleção de amostras digitais, fazendo parte da Programação da Linguagem Natural, subárea do Aprendizado de Máquina. No contexto tridimensional, corpora geoespaciais 3D podem ser formulados por conjuntos de nuvens de pontos LiDAR e apresentam alto custo computacional para armazenamento, manipulação e visualização. Além disso, não é um conjunto de dados estruturado e que apresente semântica. Para estruturar e extrair conhecimento formalizado destes corpora geoespaciais 3D é proposto um método de generalização cartográfica 3D usando aprendizado de máquina. A metodologia é baseada na Hipótese da Naturalidade aplicada sobre corpora geoespaciais 3D e na parcimônia da descrição geométrica de ambientes indoor. O método é dividido em 4 etapas. Primeiramente, a partir da análise de autossimilaridade estatística de corpora geoespaciais 3D foram propostos operadores de simplificação. Segundo, foram definidos aspectos semânticos dos corpora analisados para extração de corpora 3D especializados de elementos construtivos empregando uma estratégia de aprendizado de máquina. A terceira etapa consistiu na agregação e simplificação dos corpora conforme feições planas usando o algoritmo RANSAC. Finalmente, é aplicado uma estratégia de agregação de superfícies planas em subespaços, baseada na parcimônia da descrição. Os experimentos foram realizados em seis conjuntos de dados provenientes de um sistema LiDAR terrestre, no modo estático. Os resultados obtidos demonstraram que o aprendizado de máquina e a parcimônia da descrição, explorando a Hipótese da Naturalidade e o contexto da Linguagem Natural, auxiliaram na definição e representação estruturada de corpora geoespaciais 3D para ambientes indoor. Os operadores de simplificação reduziram a massividade do conjunto de pontos em 86%. Enquanto a sua aplicação associada ao processo de agregação estruturou e reduziu a massa de dados em 94%.Abstract: The term geospatial corpora is defined as a set of geospatial data, systematized according to certain criteria so that they are representative of the space to be mapped, and can, based on probabilistic and combinatorial concepts, analyze the collocation of a geospatial data in the occurrence of the description of the environment of interest, seeking to reveal answers from statistical observations and identification of usage patterns for a collection of fingerprints, as part of Natural Language Programming, subarea of Machine Learning. In the three-dimensional context, 3D geospatial corpora can be formulated by sets of LiDAR point clouds and present a high computational cost for storage, manipulation and visualization. Furthermore, it is not a structured and semantic dataset. To address this problem, a method for 3D cartographic generalization of LiDAR points clouds using deep learning is proposed. The proposed method is based on the naturalness hypothesis centered on LiDAR point clouds and parsimony of the geometric description of indoor environments. The contribution of the proposed four-fold. First, a set of operators for simplification tasks is defined from a LiDAR point clouds correlation statistical technique. Second, a deep learning technique is used for LiDAR point clouds semantic segmentation. Third, the RANSAC algorithm is executed to fit planar surfaces. Finally, a parsimony descriptor-based aggregation strategy is investigated. The proposed method was tested on six sets of LiDAR point clouds. The experimental results have demonstrated that by exploring the naturalness hypothesis centered on LiDAR point clouds, indoor environment modeling was successfully obtained for LoD2. The operators for simplification reduced the high volume of the LiDAR data by around 86%. On the other hand, the aggregation task showed that the LiDAR data can be reduced by around 94%

    Innovation management on knowledge intensive services : opportunities and challenges of Big Data

    Get PDF
    Orientador: Adriana BinDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de GeociênciasResumo: O tema central deste trabalho envolve as potencialidades de uso do Big Data para a inovação e gestão da inovação em Serviços Intensivos em Conhecimento (SICs). Ele tem como objetivo central a proposição de um referencial analítico para interpretar de que forma as características e efeitos do Big Data podem ser empregados na inovação em serviços e em sua gestão, assim como a aplicação deste referencial para o caso de uma empresa de serviços intensivos em conhecimento. Por um lado, entende-se que a discussão sobre inovação e gestão da inovação em serviços é ainda recente, carecendo de estudos empíricos mais aprofundados. Nos setores intensivos em conhecimento, esta lacuna é ainda mais proeminente. Por outro lado, entende-se que o tema do Big Data e a discussão de suas potencialidades para diferentes setores da sociedade, e, sobretudo, para as atividades econômicas, é também recente e crescentemente importante dado as possibilidades de extração de informações valiosas para os negócios. A hipótese central é de que existe um grande potencial para o uso de Big Data na inovação e em sua gestão no setor de serviços e, em especial, em serviços intensivos em conhecimento, cujo aproveitamento se concretiza a partir do estabelecimento de rotinas particulares para a promoção e o desenvolvimento de inovações em diferentes organizações. Para cumprir os objetivos do trabalho e testar sua hipótese central, a opção metodológica empregada foi a revisão bibliográfica e o estudo de caso. Neste trabalho estamos adotando como estudo de caso a empresa Serasa Experian. A escolha da Serasa justifica-se a partir de dois pontos centrais: por ser uma empresa que vem trabalhando e oferecendo serviços em que o produto principal é informação gerado à partir de análise de dados; e por que nos últimos anos a empresa vem se dedicado a incorporar o Big Data no seu portfolio de produtos. Os resultados deste trabalho indicam um forte potencial do uso do Big Data na gestão da inovação em serviços, muito embora a discussão conceitual e as evidências empíricas desta aproximação ainda sejam muito incipientes. Considerando a análise realizada na empresa Serasa Experian identificamos que a empresa incorporou o Big Data no seu portfolio de produtos e na melhoria de seus processos internos. No entanto, não vem utilizando o Big Data para a gestão da inovação. Como proposições futuras, é necessário desenvolver novos estudos que identifiquem em outras empresas, setores e contextos o uso do Big Data para a gestão da inovaçãoAbstract: The central theme of this work involves the use of Big Data capabilities for innovation and innovation management in Knowledge Intensive Services (KIS). Its main objectives are to propose an analytical framework to interpret how Big Data features and effects can be employed in innovation services and its management, as well as the application of this standard in the case of a knowledge intensive services company. On the one hand, it is understood that the discussion on innovation and innovation management in services is still new, lacking more in-depth empirical studies. In knowledge intensive sectors, this gap is even more prominent. On the other hand, it is understood that the theme of Big Data and the discussion of its potentialities for different sectors of society, and above all for economic activities, is also recent and increasingly important given the valuable information extraction opportunities for business. The central hypothesis is that there is great potential for the use of Big Data in innovation and its management in the service sector and in particular in knowledge intensive services, whose use is realized through the establishment of routines particular for the promotion and the development of innovations in different organizations. To meet the objectives of this study and test its central hypothesis, the methodological option chosen was literature review and case study. In this research, we are taking as a case study the company Serasa Experian. The choice of Serasa stems from two central points: it is a company which has been working and providing services whose main product is information generated from data analysis; and the fact that in recent years the company has been dedicated to incorporating Big Data in its product portfolio. These results indicate a strong potential for the use of Big Data in the management of innovation in services, although the conceptual discussion and empirical evidence of this approach are still very incipient. Considering the analysis performed in the company Serasa Experian we identified that the company incorporated Big Data in its product portfolio and in improving its internal processes. However, it has little use for the management of innovation. As future propositions, it is necessary to develop studies to identify other companies, sectors and contexts using Big Data in innovation managementMestradoPolitica Cientifica e TecnologicaMestre em Política Científica e TecnológicaCAPE
    corecore