5 research outputs found
Uma metodologia de caracterização de serviços de mineração de dados
Exportado OPUSMade available in DSpace on 2019-08-12T16:00:18Z (GMT). No. of bitstreams: 1
leonardochavesdutradarocha.pdf: 893569 bytes, checksum: 75261e37e86962fdf7d2c6f585945609 (MD5)
Previous issue date: 12Serviços Web estão se tornando um padrão para o desenvolvimento de um grande conjunto de aplicações que utilizam a Internet. Um exemplo desse tipo de aplicação é a mineração de dados, cujo objetivo é extrair informações úteis de um grande conjunto de dados. Um serviço Web de mineração de dados bem sucedido deve cumprir os requisitos de interação de uma tarefa de mineração de dados e os requisitos de processamento intensivo e armazenamento de grandes conjuntos de dados geralmente associados às técnicas empregadas. Nesta tese apresentamos uma metodologia para caracterização de serviços Web computacionalmente intensivos, em particular serviços de mineração de dados. Nossa metodologia de caracterização foca em ambos os lados do serviço, interativo e não interativo, bem como o relacionamento entre eles. Nós aplicamos nossa metodologia a um serviço de mineração de dados real, o Tamanduá. Os resultados mostram que há uma alta variabilidade entre os usuários em termos de comportamento, mas eles agem de forma similar com respeito à natureza das tarefas de mineração que eles requisitam e em como eles analisam os resultados. Nossos resultados também mostram que nós podemos dividir os usuários em dois grupos distintos, um grupo que utiliza o sistema de forma seqüencial e outro que apresenta um comportamento assíncrono, impondo uma demanda maior ao sistema. Esses resultados não só mostram a aplicabilidade de nossa proposta, mas também abre novas direções em termos de mecanismos de sustentação para esse tipo de sistema Web. Além disso, nós também determinamos modelos de distribuições estatísticas que podem ser utilizadas para a geração de cargas sintéticas com a finalidade de realizar uma detalhada análise de desempenho do sistema.Web services are becoming a standard for deploying a large spectrum of applications using the Internet. One example of such application is data mining, which aims to extract useful information from large sets of data. A successful data mining service must fulfill both interaction requirements of a data mining task, and the intensive processing and large storage requirements usually associated with the techniques employed. In this paper we present a methodology for characterizing computationally intensive Web services, in particular data mining services. Our characterization methodology focuses on both the interactive and non-interactive sides of the service, as well as their relationships. We applied our methodology on an actual data mining service, Tamanduá. The results show that there is a high variability among users in terms of their behavior, but they act similarly with respect to the nature of the data mining tasks they request and how they analyze the results. Our results also show that we are able to divide the users into two distinct groups, one that uses the system in a sequential fashion and other that presents an asynchronous behavior, placing a bigger demand on the system. These results not only show the applicability of our approach, but also open new directions in terms of system support mechanisms for such Web services. Further, we are also able to determine statistical distributions that may be used for generating synthetic workloads that would allow a detailed performance analysis of the system
Uso de contextos temporais para classificação de documentos
Exportado OPUSMade available in DSpace on 2019-08-12T14:17:31Z (GMT). No. of bitstreams: 1
leonardo_rocha.pdf: 1025198 bytes, checksum: 97c2de6e220a5913f8a73016f0056f6c (MD5)
Previous issue date: 6Devido à crescente quantidade de informação que vem sendo armazenada e acessada por meio da Web, Classificação Automática de Documentos (CAD) tem se tornado um importante tópico de pesquisa. CAD normalmente segue uma estratégia de aprendizado em que primeiro se constrói um modelo de classificação utilizando documentos pré-classificados e então aplica-se esse modelo para classificar os demais documentos. Um dos maiores desafios em CAD é que as características dos documentos e das classes às quais eles pertencem mudam ao longo do tempo, uma vez que novos documentos são criados, novas informações surgem, novos termos também são introduzidos e, conseqüentemente, as definições das classes podem mudar. Apesar da potencial redução de qualidade dos modelos de classificação associado com as mudanças relacionadas ao tempo, a maioria das técnicas atuais de CAD não consideram a evolução temporal das coleções de documentos. Assim, conforme veremos nesse trabalho, um importante desafio é construir modelos de classificação que sejam capazes de lidar com essa evolução temporal.As duas principais hipóteses desta tese são: (1) a evolução temporal das coleções de documentos afeta significativamente o desempenho dos classificadores automáticos de texto e (2) as dimensões que compõem essa evolução temporal podem ser exploradas de forma a construir melhores classificadores, mais eficientes e mais efetivos. Dessa forma, o objetivo dessa tese é caracterizar, quantificar e qualificar, o impacto da evolução temporal das coleções de documentos sobre os classificadores automáticos de documentos, identificando as dimensões que compõem esse impacto. Além disso, utilizando o conhecimento adquirido com essa caracterização, o objetivo é propor alternativas para que os problemas causados pela evolução temporal das coleções nos classificadores automáticos de documentos sejam minimizados. As principais contribuições desta tese são: (1) demonstração da existência e quantificação do impacto da evolução temporal em classificação automática de documentos, (2) identificação das dimensões que compõem a evolução temporal, (3) qualificação e quantificação de cada uma das dimensões identificadas, (4) criação de um modelo de seleção de contextos do conjunto de treinamento que minimize os efeitos temporais e (5) a instanciação e validação do modelo utilizando diferentes coleções de documentos e algoritmos de classificação.Due to the increasing amount of information being stored and accessible throughthe Web, Automatic Document Classification (ADC) has become an important research topic. ADC usually employs a supervised learning strategy, where we first build a classification model using pre-classified documents and then use it to classify unseen documents. One major challenge for ADC in many scenarios is that the characteristics of the documents and the classes to which they belong may change over time, since new documents are created, new information rise, new terms also are introduced and, consequently, the class definitions may change. Despite the potential quality reduction in the classification models associated with temporal-related changes, most of the current techniques for ADC are applied without taking into account the temporal evolution of the collection of documents. As we will see in this work, an important challenge in building classifiers is to deal with this temporal evolution.The two main hypotheses of this dissertation are: (1) the temporal evolution of the document collections significantly affects the performance of automatic document classifiers, and (2) the dimensions that compose this temporal evolution can be taken into account in order to build better classifiers, which are more efficient and effective. Thus, the goal of this thesis is to characterize, quantitatively and qualitatively, the impact of the temporal evolution of document collections on automatic document classifiers, identifying the dimensions that compose this impact. Moreover, based on this characterization, the goal is to propose alternate strategies that can be used to minimize the challenges associated with the temporal evolution of the collections on automatic document classifiers.The main expected contributions of this thesis are: (1) demonstration and quantification of the temporal evolution and how this affects automatic document classifiers, (2) identification of the effect dimensions that compose the temporal evolution, (3) quantification and qualification of each dimension identified, (4) design of a model to select contexts of the training set that minimize the temporal effects, and (5) the validation of this model using different document collections and classification algorithms
CluWords: Explorando Clusters Semânticos entre Palavras para Aprimorar Modelagem de Tópicos
Neste trabalho avançamos o estado-da-arte na modelagem de tópicos por meio de uma nova representação de documentos baseada em word embeddings pré-treinados para fatoração de matriz não-probabilística. Nossa estratégia, chamada CluWords, explora as palavras mais próximas em um determinado espaço word embedding pré-treinado para gerar meta-palavras que são capazes de melhorar a representação de documentos, tanto em termos de informações sintáticas quanto semânticas. Em nossa avaliação, considerando 12 bases de dados e 8 linhas de base, obtivemos melhoras na maioria dos casos, com ganhos de mais de 50%. Nosso método também é capaz de melhorar representação dos documentos para a tarefa de classificação automática