7 research outputs found

    A Particle Swarm Optimization-based Flexible Convolutional Auto-Encoder for Image Classification

    Full text link
    Convolutional auto-encoders have shown their remarkable performance in stacking to deep convolutional neural networks for classifying image data during past several years. However, they are unable to construct the state-of-the-art convolutional neural networks due to their intrinsic architectures. In this regard, we propose a flexible convolutional auto-encoder by eliminating the constraints on the numbers of convolutional layers and pooling layers from the traditional convolutional auto-encoder. We also design an architecture discovery method by using particle swarm optimization, which is capable of automatically searching for the optimal architectures of the proposed flexible convolutional auto-encoder with much less computational resource and without any manual intervention. We use the designed architecture optimization algorithm to test the proposed flexible convolutional auto-encoder through utilizing one graphic processing unit card on four extensively used image classification datasets. Experimental results show that our work in this paper significantly outperform the peer competitors including the state-of-the-art algorithm.Comment: Accepted by IEEE Transactions on Neural Networks and Learning Systems, 201

    Can Genetic Programming Do Manifold Learning Too?

    Full text link
    Exploratory data analysis is a fundamental aspect of knowledge discovery that aims to find the main characteristics of a dataset. Dimensionality reduction, such as manifold learning, is often used to reduce the number of features in a dataset to a manageable level for human interpretation. Despite this, most manifold learning techniques do not explain anything about the original features nor the true characteristics of a dataset. In this paper, we propose a genetic programming approach to manifold learning called GP-MaL which evolves functional mappings from a high-dimensional space to a lower dimensional space through the use of interpretable trees. We show that GP-MaL is competitive with existing manifold learning algorithms, while producing models that can be interpreted and re-used on unseen data. A number of promising future directions of research are found in the process.Comment: 16 pages, accepted in EuroGP '1

    Evolving Deep Convolutional Neural Networks by Variable-length Particle Swarm Optimization for Image Classification

    Full text link
    Convolutional neural networks (CNNs) are one of the most effective deep learning methods to solve image classification problems, but the best architecture of a CNN to solve a specific problem can be extremely complicated and hard to design. This paper focuses on utilising Particle Swarm Optimisation (PSO) to automatically search for the optimal architecture of CNNs without any manual work involved. In order to achieve the goal, three improvements are made based on traditional PSO. First, a novel encoding strategy inspired by computer networks which empowers particle vectors to easily encode CNN layers is proposed; Second, in order to allow the proposed method to learn variable-length CNN architectures, a Disabled layer is designed to hide some dimensions of the particle vector to achieve variable-length particles; Third, since the learning process on large data is slow, partial datasets are randomly picked for the evaluation to dramatically speed it up. The proposed algorithm is examined and compared with 12 existing algorithms including the state-of-art methods on three widely used image classification benchmark datasets. The experimental results show that the proposed algorithm is a strong competitor to the state-of-art algorithms in terms of classification error. This is the first work using PSO for automatically evolving the architectures of CNNs.Comment: accepted by IEEE CEC 201

    A Survey of Hyper-parameter Optimization Methods in Convolutional Neural Networks

    Get PDF
    Konvolüsyonel Sinir Ağları (KSA), katmanlarının en az bir tanesinde matris çarpımı yerine konvolüsyon işleminin kullanıldığı çok katmanlı yapay sinir ağlarının bir türüdür. Özellikle bilgisayarlı görü çalışmalarında çok başarılı sonuçlar elde edilse de KSA hala birçok zorluk içermektedir. Daha başarılı sonuçlar elde etmek için geliştirilen mimarilerin giderek daha derinleşmesi ve kullanılan görüntülerin giderek daha yüksek kalitede olmasıyla daha fazla hesaplama maliyetleri ortaya çıkmaktadır. Hem bu hesaplama maliyetlerinin düşürülmesi, hem de başarılı sonuçlar elde edilebilmesi, güçlü donanımların kullanılmasına ve kurulan ağın hiper-parametrelerin optimize edilmesine bağlıdır. Bu çalışmada, Genetik Algoritma, Parçacık Sürü Optimizasyonu, Diferansiyel Evrim ve Bayes Optimizasyonu gibi yöntemler ile KSA optimizasyonu gerçekleştirilen çalışmalar incelendi. Bu çalışmalarda optimize edilen hiper-parametreler, tanımlanan değer aralıkları ve elde edilen sonuçlar incelendi. Buna göre, KSA’ nın performansında en etkili hiper-parametrelerin filtre sayısı, filtre boyutu, katman sayısı, seyreltme oranı, öğrenme oranı ve yığın boyutu olduğu görülmüştür. Aynı veri kümelerinin kullanıldığı çalışmalar, elde edilen doğruluk değerleri açısından karşılaştırıldığında çoğu veri kümesi için en iyi doğruluk oranlarının popülasyon tabanlı yöntemlerden Genetik Algoritma ve Parçacık Sürü Optimizasyonu kullanılan çalışmalarda elde edildiği görülmüştür. Bu üst-sezgiseller ile elde edilen modellerin performanslarının “state of the art” modellerle yarışabilir durumda hatta bazen daha iyi oldukları görülmüştür. Yine üst-sezgisel kullanılan bazı çalışmalarda üretilen modellerin aşırı büyümesi engellenmiş; basit ve kolay eğitilebilir modeller üretilmiştir. Hesaplama maliyeti açısından çok avantajlı bu basit modeller ile literatürdeki karmaşık modellere çok yakın sonuçlar elde edilebilmiştir.Convolutional neural networks (CNN) are special types of multi-layer artificial neural networks in which convolution method is used instead of matrix multiplication in at least one of its layers. Although satisfactory results have been achieved by CNN especially in computer vision studies, they still have some difficulties. As the proposed network architectures become deeper with the aim of much better accuracy and the resolution of the input images increases, this results in a need for more computational power. Reducing the computational cost while at the same time still having high accuracy rates depend on the use of powerful equipments and the selection of hyper-parameter values in CNN. In this study, we examined methods like Genetic Algorithms, Particle Swarm Optimization, Differential Evolution and Bayes Optimization that has been used extensively to optimize CNN hyper-parameters, and also listed the hyper-parameters selected to be optimized in those studies, ranges of those parameter values and the results obtained by each of those studies. These studies reveal that the number of layers, number and size of the kernels at each layer, learning rate and the batch size parameters are among the hyper-parameters that affect the performance of the CNNs the most. When the studies that use the same datasets are compared in terms of accuracy, Genetic Algorithms and Particle Swarm Optimization which are both population-based methods achieve the best results for the majority of the datasets. It is also shown that the performance of the models found in these studies are competitive or sometimes better than those of the “state of the art” models. In addition, the CNNs produced in these studies are prevented from being overgrown by imposing limits on the hiper-parameter values. Thus simpler and easier to train models have been obtained. These computationally advantageous simpler models were able to achieve competitive results compared to complicated models

    Mikrokanonikal Optimizasyon Algoritması ile Konvolüsyonel Sinir Ağlarında Hiper Parametrelerin Optimize Edilmesi

    Get PDF
    Bilgisayarlı görü çalışmaları, günümüzde en çok ilgi duyulan ve üzerinde çalışma yapılan yapay zeka alanlarından biridir. Bilgisayarların insanlar gibi görüntüleri algılamasını, sınıflandırabilmesini ve yorumlayabilmesini sağlamak amacıyla geliştirilen özel derin öğrenme mimarileri bulunmaktadır. Bunlardan en çok kullanılan ve bu çalışmada da bahsedilecek olan mimari konvolüsyonel sinir ağları mimarisidir. Konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında popüler olarak kullanılan ve başarılı sonuçlar elde edilebilen özelleşmiş bir derin öğrenme yöntemidir. Derin öğrenme yöntemleri karşılaşılan problemlerin zorluğu nedeniyle yüksek hesaplama maliyetlerine neden olabilmektedir. Hesaplama maliyetinin düşürülmesi güçlü donanımların kullanılmasına, oluşturulan konvolüsyonel sinir ağı topolojilerindeki toplam parametre sayısının azaltılmasına ve konvolüsyonel sinir ağlarındaki hiper-parametreler için seçilen değerlere bağlıdır. Bu yüzden konvolüsyonel sinir ağlarında hiper-parametre optimizasyonu çalışmaları, ağın başarısını arttırmaya çalışırken, hesaplama maliyetini de düşük tutmaya çalışmaktadırlar. Bu tez çalışmasında ilk olarak daha önce konvolüsyonel sinir ağlarının optimize edilmesi için gerçekleştirilen optimizasyon çalışmaları incelendi. İncelenen çalışmalarda, konvolüsyonel sinir ağlarında hiper-parametrelerin optimizasyonu için sıklıkla üst-sezgisel algoritmaların ve istatistik tabanlı model bazlı algoritmaların kullanıldığı gözlemlendi. Özellikle Genetik Algoritma, Parçacık Sürü Optimizasyonu, Diferansiyel Evrim, Rastgele Arama ve Bayes Optimizasyonu gibi yöntemlerin, incelenen çalışmalarda sıklıkla kullanıldığı gözlemlendi. Bu çalışmalar başarı açısından incelendiklerinde genetik algoritma ve parçacık sürü optimizasyonu yöntemlerinin genel olarak hiper-parametre optimizasyonu gerçekleştirmeyen çalışmalara göre başarılı ve rekabetçi sonuçlar verdiği görüldü. Yapılan tez çalışmasında kullanılacak veri setleri, seçilecek optimizasyon yöntemi, hiper-parametreler ve değer aralıklarının belirlenmesi için incelenen çalışmalarda kullanılan veri setleri, hiper-parametreler ve bu hiper-parametreler için seçilen değer aralıkları göz önünde bulunduruldu. Yapılan çalışmalarda, farklı çalışmaları karşılaştırmak için elimizde parametre sayısı ve hesaplama zamanı bilgileri bulunmadığından sadece doğruluk oranı bilgisi performans karşılaştırması için kullanıldı. Daha önce yapılan bu çalışmalardan farklı olarak bu tez çalışmasında “Mikrokanonikal Optimizasyon” olarak adlandırılan bir yöntem kullanıldı. Seçilen optimizasyon yöntemi kullanılarak farklı boyutlarda konvolüsyonel sinir ağları oluşturuldu ve oluşturulan konvolüsyonel sinir ağlarının hiper-parametreleri optimize edilmeye çalışıldı. Seçilen optimizasyon algoritmasının çalışması sırasında üretilen konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında sıklıkla kullanılan MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) ve xii CIFAR10 veri setleri üzerinde test edildi. Elde edilen sonuçlar, hiç hiper-parametre optimizasyonu gerçekleştirmeyen ve state-of-the-art olarak adlandırılan çalışmalar ile doğruluk oranı ve parametre sayısı gibi değerler üzerinden karşılaştırıldı. Ek olarak, önerilen sezgisel yöntemin performansı, Bayesçi model tabanlı bir optimizasyon yöntemi olan Tree Parzen Estimator yöntemiyle karşılaştırılmıştır. Elde edilen sonuçlara bakıldığında, Konvolüsyonel sinir ağları için belirlenmesi gereken birçok hiper-parametre olmasına rağmen seyreltme oranı, filtre sayısı, öğrenme oranı ve yığın boyutu gibi hiper-parametrelerin oluşturulan modellerin başarısında önemli bir katkısı olduğu çıkarımına ulaşıldı.Computer vision is probably the most widely studied sub-area of artifical intelligence which has been drawing considerable interest of many researchers for years. There are special deep learning architectures developed to enable computers to perceive, classify and interpret images as humans. Convolutional neural networks are the most popular deep learning methods that can be used successfully in computer vision studies. Deep learning methods may result in high computational costs due to the difficulty of the problems encountered. This computational cost can only be reduce by careful selection of hyperparameters of the convolutional neural networks and the computational time can also be reduce by the use of powerful equipment. Therefore, in the studies that try to optimize hyperparameters in convolutional neural networks, the researchers try to increase the success rate of the network while at the same time try to keep the computational cost as low as possible. In this thesis, firstly a detailed literature review on the studies that perform hyperparameter optimization has been given. It has been observed that heuristic algorithms and statistics model based algorithms are among the most widely used methods for hyper-parameter optimization in convolutional neural networks. In particular, Genetic Algorithms, Particle Swarm Optimization, Differential Evolution, Random Search and Bayes Optimization methods are the most frequently used approaches. When we compare these methods in terms of their success rates, we see that the studies in which genetic algorithms and particle swarm optimization methods are used were able to achieve greater results than the studies that did not perform hyper-parameter optimization in general. In order to determine the optimization method to be used in the study along with the hyper-parameters and their value ranges, we benefited the studies in the literature. Moreover, the datasets used in this study are selected among the most widely used datasets in the literature. Most of the studies in the literature do not provide sufficient information about the number of parameters of the network and the computational time, therefore we took in the account accuracy as the performance measure. In this study, Microcanonical Optimization which is previously known in different areas was but not used in this concepts has been applied fort he hyperparameter optimization of convolutional neural networks. By this method, different network architectures has been created and the hyper-parameters of the network is optimized. The convolutional neural networks generated during the optimization process are trained on the MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) and CIFAR10 datasets, which are the most frequently used datasets in computer vision studies. The accuracy results are compared to the state-of-the-art architectures in which no hyper-parameter optimization has been performed. In addition, the performance of proposed heuristic method has been compared to Tree Parzen Estimator method which is a Bayesian model based optimization method. The results suggest that among the many hyperparameters dropout rate, feature map count, learning rate and batch size are among the most important parameters that directly affect the success of the networks

    Otimização de redes convolucionais para classificação de imagens

    Get PDF
    As redes convolucionais têm demonstrado eficácia na resolução de diversos tipos de problemas, nomeadamente classificação de imagens, reconhecimento ou localização de objetos, reconhecimento de som, entre outros. A elevada robustez destas redes permite a sua difusão em áreas de extrema importância para a sociedade, tal como a área biomédica, que inclui um vasto conjunto de tarefas de análise de imagens e diagnóstico clínico. Contudo, o sucesso destes modelos está dependente da identificação da estrutura e dos valores de outros hiperparâmetros, que melhor se ajustam à resolução de um problema específico, sendo que esta tarefa requer elevado esforço computacional e conhecimento pericial. De modo a reduzir estas dificuldades, este trabalho propõe uma metodologia de otimização autónoma dos hiperparâmetros de diferentes arquiteturas convolucionais. A metodologia baseia-se na utilização do algoritmo de inteligência coletiva, Particle Swarm Optimization (PSO), aplicado na otimização de quatro conhecidas arquiteturas convolucionais: AlexNet, VGGNet, ResNet e DenseNet e para resolução de três problemas de diagnóstico médico. Procurando-se identificar a solução que proporciona o melhor desempenho com a menor complexidade possível. Os resultados obtidos demonstraram a eficácia e a rapidez do PSO na identificação de soluções efetivas, sendo alcançados resultados superiores comparativamente a outras abordagens, em duas das três benchmarks em estudo. A técnica ensemble proposta permitiu a obtenção de um F1Score macroAVG de 91.1% e de 96.6%, respetivamente, para as benchmarks Breast Histopathology e Colorectal Histopathology. Os modelos estão disponíveis numa plataforma web que possibilita a realização de diagnósticos de imagens biomédicas, através do uso e da partilha de modelos convolucionais na plataforma. A plataforma demonstrou ser extremamente eficiente e célere na resposta ao diagnóstico de imagens, sendo obtidas as previsões num intervalo inferior a 10 segundos. O seu acesso é público e está disponível no repositório https://github.com/bundasmanu/ProjetoMestrado
    corecore