112 research outputs found

    Algoritmo de aprendizagem semi-supervisionada

    Get PDF
    Os dados etiquetados são essenciais para uma aprendizagem supervisionada. No entanto, estão frequentemente disponíveis apenas em pequenas quantidades, enquanto os dados não etiquetados podem ser abundantes. A utilização de dados não etiquetados juntamente com dados etiquetados é tanto de interesse teórico como prático. A eficiência da aprendizagem supervisionada é altamente dependente das instâncias etiquetadas. Contudo, ter um tamanho razoável de instâncias etiquetadas pode ser difícil, dispendioso e demorado de obter, uma vez que envolve necessariamente conhecimento especializado, tais como anotadores humanos. Este é um desafio comum na investigação em diversas áreas sendo mais comum na área da saúde, mais frequentemente fundamentado em estudos em que os participantes utilizam instrumentos de self-report. Nesta dissertação foi elaborado um algoritmo semi-supervisionado com recurso a dois classificadores, support vector machine e random-forest. Os resultados são promissores, tendo-se obtido um acréscimo de 5% no desempenho do algoritmo, relativamente aos algoritmos em separado e com a capacidade de etiquetar praticamente todos os dados.Labelled data are essential for supervised learning. However, they are often available only in small quantities, while unlabelled data may be abundant. Using unlabelled data together with labelled data is of both theoretical and practical interest. The efficiency of supervised learning is highly dependent on labelled instances. However, having a reasonable size of labelled instances may be difficult, expensive and time consuming to obtain since it necessarily involves expert knowledge, such as human annotators or filling self-reported questionnaires. This is a common challenge in health research, most often founded in studies where participants use self-report instruments. To address this issue, we can use semi-supervised learning methods that use both labelled and unlabelled data to construct a classifier and improve the classification performance. In this dissertation, a semi-supervised algorithm was developed using two classifiers: support vector machines and random forests. The results are promising, having achieved a 5% increase in the performance of the algorithm in comparison to the separately used algorithms and with the ability to label virtually all data

    Agrupamento de dados visual interactivo

    Get PDF
    Com a crescente geração, armazenamento e disseminação da informação nos últimos anos, o anterior problema de falta de informação transformou-se num problema de extracção do conhecimento útil a partir da informação disponível. As representações visuais da informação abstracta têm sido utilizadas para auxiliar a interpretação os dados e para revelar padrões de outra forma escondidos. A visualização de informação procura aumentar a cognição humana aproveitando as capacidades visuais humanas, de forma a tornar perceptível a informação abstracta, fornecendo os meios necessários para que um humano possa absorver quantidades crescentes de informação, com as suas capacidades de percepção. O objectivo das técnicas de agrupamento de dados consiste na divisão de um conjunto de dados em vários grupos, em que dados semelhantes são colocados no mesmo grupo e dados dissemelhantes em grupos diferentes. Mais especificamente, o agrupamento de dados com restrições tem o intuito de incorporar conhecimento a priori no processo de agrupamento de dados, com o objectivo de aumentar a qualidade do agrupamento de dados e, simultaneamente, encontrar soluções apropriadas a tarefas e interesses específicos. Nesta dissertação é estudado a abordagem de Agrupamento de Dados Visual Interactivo que permite ao utilizador, através da interacção com uma representação visual da informação, incorporar o seu conhecimento prévio acerca do domínio de dados, de forma a influenciar o agrupamento resultante para satisfazer os seus objectivos. Esta abordagem combina e estende técnicas de visualização interactiva de informação, desenho de grafos de forças direccionadas e agrupamento de dados com restrições. Com o propósito de avaliar o desempenho de diferentes estratégias de interacção com o utilizador, são efectuados estudos comparativos utilizando conjuntos de dados sintéticos e reais.With the rising generation, storage and dissemination of information in recent years, the previous problem of lack of information has become a problem of extracting useful knowledge from the information available. The visual representations of abstract information have been used to assist in interpreting the data and reveal otherwise hidden patterns. Information visualization seeks to enhance human cognition by leveraging human visual capabilities to make sense of abstract information, providing means by which humans with constant perceptual abilities can absorb increasing amounts of information. Data clustering techniques purpose is to partition a data set into several clusters, in which similar data is placed in the same cluster and dissimilar data in different clusters. More specifically, constrained clustering methods are intended to incorporate a priori knowledge in the clustering process, in order to improve data clustering quality and, simultaneously, find appropriate solutions to specific tasks or interests . This thesis studied the interactive visual clustering approach that allows the user, through interaction with a visual representation of information, to incorporate prior knowledge about the data domain in order to influence the resulting grouping to meet its objectives. This approach combines and extends interactive information visualization, force directed graph layout and constrained clustering techniques. With the purpose of evaluating the performance of different user interaction strategies, comparative studies using sets of synthetic and real data are performed

    Sistema de Previsão de Preço de Carros Usados através de Machine Learning

    Get PDF
    O avanço da Inteligência Artificial tem fomentado o lançamento de automóveis com especificações cada vez mais inovadoras e, consequentemente, a preços mais elevados. Tal aumento de preços conduz a uma maior procura na compra/venda de carros usados. Esta procura leva, muitas vezes, à atribuição de preços irrealistas aos mesmos, aumentando o número de fraudes neste setor, e a uma elevada discrepância nos preços praticados. Neste âmbito, a área de Machine Learning pode ter um papel preponderante, nomeadamente na elaboração de modelos de previsão de preços de carros usados. Assim, o objetivo do presente trabalho prendeu-se com a análise dos modelos já desenvolvidos neste contexto, do grau de precisão dos mesmos e com a criação de um modelo que colmatasse as falhas nos já existentes, de forma a se aumentar o referido grau de precisão. Neste contexto, foram testados os algoritmos RF, XGBoost, LightGBM, RL, MLP e CNN em quatro conjuntos de dados A, B, C e D. O conjunto de dados A possui 50 características e 57038 carros, o conjunto de dados B possui 30 características e 70253 automóveis, o conjunto de dados C possui 10 características e 192799 veículos e o conjunto de dados D possui as 13 características mais preponderantes e 144702 carros. Os algoritmos aplicados aos conjuntos de dados A, B e C foram testados duas vezes, com hiperparâmetros padrão e hiperparâmetros modificados. Todos os algoritmos dos quatro conjuntos de dados foram sujeitos a uma metodologia de 80% de treino e de 20% de testes e avaliados, maioritariamente, através das métricas R2, MSE, RMSE e MAE. Os algoritmos testados com os conjuntos de dados A, B e C obtiveram melhores resultados aquando da alteração de hiperparâmetros padrão, com a exceção do algoritmo MLP no conjunto de dados A e o algoritmo RL nos quatro conjuntos de dados. Dentro dos algoritmos testados, os algoritmos XGBoost e LightGBM foram os que apresentaram melhores resultados, tendo os mesmos sido muito idênticos entre si nos 4 conjuntos de dados. Entre os dois algoritmos, o XGBoost foi o que apresentou melhores resultados. Por fim, o algoritmo XGBoost do conjunto de dados A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) e D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) foram os que apresentaram melhores resultados entre os algoritmos testados, bem como quando comparados com os algoritmos estudados aquando da revisão do estado da arte.The development of Artificial Intelligence has fostered the launch of cars with increasingly innovative specifications and, consequently, at higher prices. Such price increases lead to a bigger demand for the purchase/sale of used cars. This demand often leads to the attribution of unrealistic prices to used cars, increasing the number of frauds in this setor, and a high discrepancy in prices. In this context, the area of Machine Learning can play a preponderant role, namely in the elaboration of used car price-prediction models. Thus, the goal of this study was to analyze the models already developed in this context, their precision level as well as the creation of a model that would fill the gaps in the existing models, to increase the referred precision level. In this context, the algorithms RF, XGBoost, LightGBM, RL, MLP, and CNN were tested on four data sets A, B, C, and D. Dataset A has 50 features and 57038 cars, dataset B has 30 features and 70253 cars, dataset C has 10 features and 192799 vehicles, and dataset D has the 13 most prevalent features and 144702 cars. The algorithms applied to datasets A, B, and C were tested twice, with default hyperparameters and modified hyperparameters. All algorithms of the four datasets were submitted to an 80% training and 20% testing methodology and mostly evaluated using the R2, MSE, RMSE, and MAE metrics. The algorithms tested with datasets A, B, and C obtained better results when changing default hyperparameters, except for the MLP algorithm of dataset A and RL algorithm of datasets, A, B, C, and D. XGBoost and LightGBM algorithms were the most successful ones, being their results very similar to each other in all 4 datasets. Among the two algorithms, XGBoost was the one that presented the best results. The algorithm XGBoost on datasets A (MAE=0.12892, RMSE=0.18947, MSE=0.03590, R2=0.96432) and D (MAE=0.12389, RMSE=0.18913, MSE=0.03577, R2=0.96404) were the ones that presented better results among the tested algorithms, as well as when compared with the algorithms studied when reviewing the state of the art

    Extração de características de RNAs não-codificadores longos utilizando o algoritmo Random Forest

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.RNAs não-codificantes longos (lncRNAs) são uma classe grande e diversificada de moléculas de RNAs não-codificadores (ncRNAs) com um comprimento de mais de 200 nucleotídeos. LncRNAs tem pouca capacidade de codificar proteínas. Muitos estudos confirmam que o genoma humano contém milhares de lncRNAs que estão envolvidos na regulação de genes e em diversos outros fenômenos nos mecanismos celulares. A identificação e classificação de ncRNAs não é simples, não sendo ainda conhecidas características determinantes para identificar e classificar ncRNAs. Com o advento das tecnologias de sequenciamento avançadas, grande quantidade de sequências não foram ainda analisadas. Neste trabalho, avaliamos características que podem ser utilizadas em métodos de aprendizagem de máquina para predizer lncRNAs. Em particular, usamos o Random Forest por ser um dos algoritmos de aprendizagem de máquina mais precisos disponíveis. Além disso, fornece estimativas de quais variáveis são importantes na classificação. Foi desenvolvido um estudo de caso para calcular a performance do modelo proposto para o Homo sapiens (humano). Neste trabalho, além de mostrar que o Random Forest é um algoritmo apropriado para construção de modelos preditivos, apresentando boa acurácia ao predizer transcritos de lncRNAs e PCTs corretamente, características que podem ser importantes para a classificação dos lncRNAs foram identificadas.Long non-coding RNAs (lncRNAs) are a large and diverse class of ncRNA molecules with a length of more than 200 nucleotides. LncRNAs have little ability to encode proteins. Many studies confirm that the human genome contains thousands of lncRNAs that are involved in the regulation of genes and in several other cellular mechanical phenomena. The identification and classification of ncRNAs is not simple, and determinant characteristics to identify and classify ncRNAs are not yet known. With the advent of high-through sequencing technologies, a large number of sequences were not yet analyzed. This research evaluates features that can be used in machine learning methods to predict lncRNAs. In particular, Random Forest was used as it provides one of the most accurate machine learning algorithms available. Moreover, it estimates of which variables are important to classification. A case study was developed to measure the performance of the proposed model for the Homo sapiens (human). In this work, besides showing that Random Forest is an appropriate algorithm for constructing predictive models while accurately predicting both lncRNAs and PCTs transcripts, characteristics that may be important for the classification of the lncRNAs were identified

    Sistema preditivo de melhoria de stocks da indústria cerâmica

    Get PDF
    O presente relatório advém da realização do estágio curricular na Aleluia Cerâmicas, S.A. sediada em Aveiro onde foram adquiridos conhecimentos sobre a indústria cerâmica e sobre as responsabilidades do planeamento de produção. Neste trabalho é feita uma breve introdução a empresa e a alguns dos seus produtos, seguido de um breve enquadramento teórico a conceitos aplicados. São também exploradas as tarefas realizadas no planeamento de produção assim como alguns projetos de melhoria desenvolvidos e aplicados. Paralelamente foi desenvolvido um sistema de previsão de stocks que analisa series temporais com algoritmos de machine learning como o ARIMA e Holt-Winters para o cálculo de previsões. Por fim são apresentados os resultados do sistema elaborado bem como as conclusões do relatório e sugeridas algumas otimizações futuras. Pretende-se com este relatório proporcionar ferramentas de otimização a diversos problemas da indústria cerâmica que possam ser aplicadas.The present report comes from the completion of a curricular internship at Aleluia Cerâmicas, S.A. based in Aveiro where knowledge about the ceramic industry and the responsibilities of production planning was acquired. In this work a brief introduction to the company and to some of its products is made, followed by a brief theoretical framing of the applied concepts. The tasks performed in production planning are also explored as well as improvement projects developed and applied. In parallel, a stock forecasting system was developed that analyzes time series with machine learning algorithms such as ARIMA and Holt-Winters to calculate forecasts. Finally, the results of the system developed are presented as well as the conclusions of the report and future optimizations are suggested. The aim of this report is to provide optimization tools for various problems in the ceramics industry that can be applied.Mestrado em Matemática e Aplicaçõe

    Framework de Apoio ao desenvolvimento da utilização de redes SDN com a integração de IA nos municípios portugueses

    Get PDF
    Mestrado em Engenharia Informática na Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Viana do CasteloA constante evolução tecnológica torna os serviços de uma rede e da Internet cada vez mais exigentes, pois o aumento exponencial do volume de dados tratados, assim como o volume de trafego de dados que circulam nas redes de computadores, exige o desenvolvimento de redes mais flexíveis, e eficientes e dinâmicas. Para responder a necessidade de redes mais flexíveis e dinâmicas, foi desenvolvido um novo conceito de arquitetura de rede conhecido como SDN - Rede Definida por Software. Estas redes dividem-se em três níveis: o plano de controlo, o plano de dados e o plano de gestão de rede. O plano de controlo da rede pode ser usado como o cérebro da rede. Desta forma, as redes SDN podem beneficiar dos recentes avanços na Inteligência Artficial (IA), que podem permitir melhorar as competências de aprendizagem da rede e melhorar o processo de tomada de decisão, tornando as redes mais eficientes e flexíveis. Tendo isso em conta, esta dissertação apresenta uma visão geral das aplicações das redes SDN e como estas redes podem beneficiar da aplicação de IA para um melhor funcionamento e mais eficaz. Atendendo a que os Municípios Portugueses disponibilizam e utilizam muitos serviços baseados e suportados em redes de computadores, é apresentada uma proposta de uma Framework para Apoio ao Desenvolvimento da Utilização de Redes SDN com a Integração de IA nos Municípios Portugueses. Para melhor compreender e identificar as lacunas existentes, dos municípios, ao nível de desenvolvimento tecnológico das redes informáticas e no conhecimento técnico dos seus recursos humanos a nível das redes SDN e qual o potencial benefício da sua integração com IA, foi realizado um inquérito que permitiu perceber o estado de conhe- cimento e das potencialidades dessas tecnologias nas instituições referidas. A Framework proposta permite ajudar a colmatar essas lacunas existentes, permitindo assim que seja alcançado o objetivo, no prazo de 5 a 6 anos, de que todos os municípios portugueses estejam ao mesmo nível, ou seja, conheçam as redes SDN e as suas potencialidades com a integração da IA, permitindo dessa forma uma mais eficaz e eficiente prestação de serviços aos cidadãos portugueses. A Framework está dividida em 4 partes: recursos humanos, tecnologia, estratégia e plano de ação.The constant technological evolution makes the services of a network and the Internet increasingly demanding, because the exponential increase in the volume of data treated, as well as the volume of data traffic circulating in computer networks, requires the development of more flexible, efficient and dynamic networks. To respond to the need for more exible and dynamic networks, a new concept of network architecture known as SDN-Software Defi ned Network was developed. These networks are divided into three levels: the control plan, the data plan and the network management plan. The network control plan can be used as the brain of the network. In this way, SDN networks can benefi t from recent advances in Arti cial Intelligence (AI), which can improve network learning skills and improve the decision-making process, making networks more efficient and flexible. Taking this into account, this dissertation provides an overview of the applications of SDN networks and how these networks can benefi t from the application of AI for better and more effective operation. Given that Portuguese municipalities provide and use many services based and supported in computer networks, a proposal for a Framework to Support the Development of The Use of SDN Networks with the Integration of AIin Por- tuguese Municipalities is presented. In order to better understand and identify the existing gaps of the municipalities, in the level of technological development of computer networks and in the technical knowledge of their human resources at the level of SDN networks and what the potential benefi t of their integration with AI, a survey was conducted that allowed us to understand the state of knowledge and the potential of these technologies in the institutions mentioned. The proposed Framework allows us to help fi ll these existing gaps, thus allowing the goal of 5 to 6 years to be achieved, that all Portuguese municipalities are at the same level, i.e., know the SDN networks and their potentialities with the integration of AI, thus allowing a more effctive and efficient provision of services to Portuguese citizens. The Frame work is divided into 4 parts: human resources, technology, strategy and action plan

    Redes neurais profundas para o problema de classificação

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2019.Este trabalho apresenta um estudo teórico e prático sobre modelos de Redes Neurais Profundas aplicados em problemas de classificação. Inicialmente, é feita uma abordagem sobre Aprendizado de Máquina e o seu método de validação mais utilizado. Nos fundamentos de Aprendizagem Profunda, entra-se em detalhes sobre os componentes principais de uma Rede Neural e as formas de pré-processamento e representações de dados para se trabalhar com estes modelos. Além disso, há um tópico que trata sobre a arquitetura das Redes Neurais Convolucionais, muito utilizadas em aplicações de Visão Computacional. O último tópico teórico faz uma introdução ao uso da Computação em Nuvem, uma tecnologia muito útil para se trabalhar com grandes bases de dados e utilizar processadores avançados. A última parte do trabalho apresenta os resultados de três aplicações de Redes Neurais Profundas para classificação, onde foram utilizadas bases de dados do tipo imagem, texto e áudio. Todas as aplicações foram realizadas utilizando-se computação em nuvem e tiveram resultados satisfatórios.This work presents a theoretical and practical study on the models of Deep Neural Networks applied in classification problems. Initially, an approach is taken on Machine Learning and its most commonly used validation method. In the Fundamentals of Deep Learning, we go into detail about the main components of a Neural Network and the forms of preprocessing and representations of data to work with these models. In addition, there is a topic that deals with the architecture of the Convolutional Neural Networks, much used in Computational Vision applications. The last theoretical topic is an introduction to the use of Cloud Computing, a very useful technology for working with large databases and using advanced processors. The last part presents the results of three applications of Deep Neural Networks for classification, where image, text and audio type databases were used. All applications were performed using cloud computing and had satisfactory results

    Mestrado em Desenvolvimento de Software e Sistemas Interativos

    Get PDF
    Este trabalho consiste no desenvolvimento de um sistema de reconhecimento de ruídos urbano, composto por duas aplicações, uma Android e outra Web. Através da aplicação Android, o sistema tem a capacidade de classificar amostras de áudio de sons urbanos, e registar essas classificações numa base de dados remota de incidentes. Estas funções são suportadas por um modelo de inteligência artificial, mais concretamente uma rede neuronal convolucional, integrada na aplicação. Na aplicação Web é possível uma posterior análise aos dados recolhidos pela primeira aplicação, no formato de gráficos e mapeamento, em função dos incidentes registados na base de dados remota. O sistema desenvolvido destina-se a um possível complemento dos sistemas de segurança já existentes.Abstrac: This work consists in the development of an urban noise recognition system, consisting of two applications, one Android and the other Web. Through the Android application, the system can classify audio samples of urban sounds and record those classifications in a remote incident database. These functions are supported by an artificial intelligence model, more specifically a convolutional neural network, integrated in the application. It is possible with the web application further analyze the data collected by the first application, in the format of graphics and mapping, according to the incidents registered in the remote database. The developed system is intended as a possible complement to the already developed system of security systems

    Estudo experimental de aprendizado de máquina para desenvolvimento de um classificador de texto de incidentes de grandes eventos

    Get PDF
    Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016Em sistemas de apoio ao gerenciamento de incidentes, em especial de grandes eventos, é importante que o operador do sistema tenha à sua disposição o máximo possível de informações que o auxiliem no processo de tomada de decisão. Nesse contexto, este trabalho utiliza métodos de aprendizado de máquina para desenvolver um classificador , automático de texto de incidentes a partir de incidentes reais da Copa das Confederações, evento realizado no Brasil em 2013, com o objetivo de auxiliar a tomada de decisão dos operadores que utilizam o sistema Pacificador do Exército Brasileiro. Foram estudados alguns métodos de aprendizado de máquina, juntamente com suas configurações, com a finalidade de criar um modelo de classificação. O Naive Bayes, a Máquina de Vetor de Suporte (SVM) e a Árvore de Decisão foram aplicados. Esse modelo é então disponibilizado por meio de uma interface Java, que reúne também informações estatísticas sobre cada categoria de incidentes.Considering incident management systems, in particular major events incidents, it is important that the system operator has at his disposal the maximum possible information to assist the decision process. In this context, this project applies machine learning methods to develop an automatic incident text classifier. The text set used is from the last Confederations Cup incidents, event held in Brazil in 2013, in order to assist the operator of the Brazilian Army’s Pacificador system. Some machine learning methods, together with their settings, were investigated in order to create a classifier model. The Naive Bayes, the Support Vector Machine (SVM) and the Decision Tree were applied. This model is available through a Java interface, which also includes statistical information on each category of incidents
    corecore