10 research outputs found

    Evolving Deep Convolutional Neural Networks by Variable-length Particle Swarm Optimization for Image Classification

    Full text link
    Convolutional neural networks (CNNs) are one of the most effective deep learning methods to solve image classification problems, but the best architecture of a CNN to solve a specific problem can be extremely complicated and hard to design. This paper focuses on utilising Particle Swarm Optimisation (PSO) to automatically search for the optimal architecture of CNNs without any manual work involved. In order to achieve the goal, three improvements are made based on traditional PSO. First, a novel encoding strategy inspired by computer networks which empowers particle vectors to easily encode CNN layers is proposed; Second, in order to allow the proposed method to learn variable-length CNN architectures, a Disabled layer is designed to hide some dimensions of the particle vector to achieve variable-length particles; Third, since the learning process on large data is slow, partial datasets are randomly picked for the evaluation to dramatically speed it up. The proposed algorithm is examined and compared with 12 existing algorithms including the state-of-art methods on three widely used image classification benchmark datasets. The experimental results show that the proposed algorithm is a strong competitor to the state-of-art algorithms in terms of classification error. This is the first work using PSO for automatically evolving the architectures of CNNs.Comment: accepted by IEEE CEC 201

    An optimized deep learning model for optical character recognition applications

    Get PDF
    The convolutional neural networks (CNN) are among the most utilized neural networks in various applications, including deep learning. In recent years, the continuing extension of CNN into increasingly complicated domains has made its training process more difficult. Thus, researchers adopted optimized hybrid algorithms to address this problem. In this work, a novel chaotic black hole algorithm-based approach was created for the training of CNN to optimize its performance via avoidance of entrapment in the local minima. The logistic chaotic map was used to initialize the population instead of using the uniform distribution. The proposed training algorithm was developed based on a specific benchmark problem for optical character recognition applications; the proposed method was evaluated for performance in terms of computational accuracy, convergence analysis, and cost

    Artificial Bee Colony optimization of Deep Convolutional Neural Networks in the context of Biomedical Imaging

    Full text link
    Most efforts in Computer Vision focus on natural images or artwork, which differ significantly both in size and contents from the kind of data biomedical image processing deals with. Thus, Transfer Learning models often prove themselves suboptimal for these tasks, even after manual finetuning. The development of architectures from scratch is oftentimes unfeasible due to the vastness of the hyperparameter space and a shortage of time, computational resources and Deep Learning experts in most biomedical research laboratories. An alternative to manually defining the models is the use of Neuroevolution, which employs metaheuristic techniques to optimize Deep Learning architectures. However, many algorithms proposed in the neuroevolutive literature are either too unreliable or limited to a small, predefined region of the hyperparameter space. To overcome these shortcomings, we propose the Chimera Algorithm, a novel, hybrid neuroevolutive algorithm that integrates the Artificial Bee Colony Algorithm with Evolutionary Computation tools to generate models from scratch, as well as to refine a given previous architecture to better fit the task at hand. The Chimera Algorithm has been validated with two datasets of natural and medical images, producing models that surpassed the performance of those coming from Transfer Learning

    Identification and Classification of Oil Palm Maturity Using Machine Learning Techniques

    Get PDF
    Oil palm is the main plantation crop in Indonesia, oil palm is the most efficient producer of vegetable oil. Oil palm fruit is one of the fruits that has a certain level of maturity in a relatively fast time. The distribution of oil palm fruit in various regions makes it important to identify and classify the maturity of oil palm fruit based on its maturity level. The degree of ripeness of the bunches at harvest is closely related to the oil content contained in the fruit. Accuracy problems are often encountered in research related to image classification. One challenge that arises is finding an appropriate representation of the data so that important structures of the data can be seen easily. One of the processes carried out to get better accuracy is the segmentation process. Through the use of proper segmentation techniques, the desired accuracy will be obtained. One of the techniques used in the segmentation method is to use the swarm optimization technique and its derivatives. In this study, identification and classification will be implemented using particle swarm optimization (PSO) at thresholding image segmentation in order to obtain better segmentation results when compared to the previous method. The classification is based on existing machine learning techniques, namely support vector machine (SVM). the accuracy rate for the classification of palm fruit maturity based on texture using the Support Vector Machine (SVM) method is obtained, which reaches 92.5%. From the accuracy obtained, it can be concluded that the method used to identify and classify in this study is good

    A Survey of Hyper-parameter Optimization Methods in Convolutional Neural Networks

    Get PDF
    Konvolüsyonel Sinir Ağları (KSA), katmanlarının en az bir tanesinde matris çarpımı yerine konvolüsyon işleminin kullanıldığı çok katmanlı yapay sinir ağlarının bir türüdür. Özellikle bilgisayarlı görü çalışmalarında çok başarılı sonuçlar elde edilse de KSA hala birçok zorluk içermektedir. Daha başarılı sonuçlar elde etmek için geliştirilen mimarilerin giderek daha derinleşmesi ve kullanılan görüntülerin giderek daha yüksek kalitede olmasıyla daha fazla hesaplama maliyetleri ortaya çıkmaktadır. Hem bu hesaplama maliyetlerinin düşürülmesi, hem de başarılı sonuçlar elde edilebilmesi, güçlü donanımların kullanılmasına ve kurulan ağın hiper-parametrelerin optimize edilmesine bağlıdır. Bu çalışmada, Genetik Algoritma, Parçacık Sürü Optimizasyonu, Diferansiyel Evrim ve Bayes Optimizasyonu gibi yöntemler ile KSA optimizasyonu gerçekleştirilen çalışmalar incelendi. Bu çalışmalarda optimize edilen hiper-parametreler, tanımlanan değer aralıkları ve elde edilen sonuçlar incelendi. Buna göre, KSA’ nın performansında en etkili hiper-parametrelerin filtre sayısı, filtre boyutu, katman sayısı, seyreltme oranı, öğrenme oranı ve yığın boyutu olduğu görülmüştür. Aynı veri kümelerinin kullanıldığı çalışmalar, elde edilen doğruluk değerleri açısından karşılaştırıldığında çoğu veri kümesi için en iyi doğruluk oranlarının popülasyon tabanlı yöntemlerden Genetik Algoritma ve Parçacık Sürü Optimizasyonu kullanılan çalışmalarda elde edildiği görülmüştür. Bu üst-sezgiseller ile elde edilen modellerin performanslarının “state of the art” modellerle yarışabilir durumda hatta bazen daha iyi oldukları görülmüştür. Yine üst-sezgisel kullanılan bazı çalışmalarda üretilen modellerin aşırı büyümesi engellenmiş; basit ve kolay eğitilebilir modeller üretilmiştir. Hesaplama maliyeti açısından çok avantajlı bu basit modeller ile literatürdeki karmaşık modellere çok yakın sonuçlar elde edilebilmiştir.Convolutional neural networks (CNN) are special types of multi-layer artificial neural networks in which convolution method is used instead of matrix multiplication in at least one of its layers. Although satisfactory results have been achieved by CNN especially in computer vision studies, they still have some difficulties. As the proposed network architectures become deeper with the aim of much better accuracy and the resolution of the input images increases, this results in a need for more computational power. Reducing the computational cost while at the same time still having high accuracy rates depend on the use of powerful equipments and the selection of hyper-parameter values in CNN. In this study, we examined methods like Genetic Algorithms, Particle Swarm Optimization, Differential Evolution and Bayes Optimization that has been used extensively to optimize CNN hyper-parameters, and also listed the hyper-parameters selected to be optimized in those studies, ranges of those parameter values and the results obtained by each of those studies. These studies reveal that the number of layers, number and size of the kernels at each layer, learning rate and the batch size parameters are among the hyper-parameters that affect the performance of the CNNs the most. When the studies that use the same datasets are compared in terms of accuracy, Genetic Algorithms and Particle Swarm Optimization which are both population-based methods achieve the best results for the majority of the datasets. It is also shown that the performance of the models found in these studies are competitive or sometimes better than those of the “state of the art” models. In addition, the CNNs produced in these studies are prevented from being overgrown by imposing limits on the hiper-parameter values. Thus simpler and easier to train models have been obtained. These computationally advantageous simpler models were able to achieve competitive results compared to complicated models

    Mikrokanonikal Optimizasyon Algoritması ile Konvolüsyonel Sinir Ağlarında Hiper Parametrelerin Optimize Edilmesi

    Get PDF
    Bilgisayarlı görü çalışmaları, günümüzde en çok ilgi duyulan ve üzerinde çalışma yapılan yapay zeka alanlarından biridir. Bilgisayarların insanlar gibi görüntüleri algılamasını, sınıflandırabilmesini ve yorumlayabilmesini sağlamak amacıyla geliştirilen özel derin öğrenme mimarileri bulunmaktadır. Bunlardan en çok kullanılan ve bu çalışmada da bahsedilecek olan mimari konvolüsyonel sinir ağları mimarisidir. Konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında popüler olarak kullanılan ve başarılı sonuçlar elde edilebilen özelleşmiş bir derin öğrenme yöntemidir. Derin öğrenme yöntemleri karşılaşılan problemlerin zorluğu nedeniyle yüksek hesaplama maliyetlerine neden olabilmektedir. Hesaplama maliyetinin düşürülmesi güçlü donanımların kullanılmasına, oluşturulan konvolüsyonel sinir ağı topolojilerindeki toplam parametre sayısının azaltılmasına ve konvolüsyonel sinir ağlarındaki hiper-parametreler için seçilen değerlere bağlıdır. Bu yüzden konvolüsyonel sinir ağlarında hiper-parametre optimizasyonu çalışmaları, ağın başarısını arttırmaya çalışırken, hesaplama maliyetini de düşük tutmaya çalışmaktadırlar. Bu tez çalışmasında ilk olarak daha önce konvolüsyonel sinir ağlarının optimize edilmesi için gerçekleştirilen optimizasyon çalışmaları incelendi. İncelenen çalışmalarda, konvolüsyonel sinir ağlarında hiper-parametrelerin optimizasyonu için sıklıkla üst-sezgisel algoritmaların ve istatistik tabanlı model bazlı algoritmaların kullanıldığı gözlemlendi. Özellikle Genetik Algoritma, Parçacık Sürü Optimizasyonu, Diferansiyel Evrim, Rastgele Arama ve Bayes Optimizasyonu gibi yöntemlerin, incelenen çalışmalarda sıklıkla kullanıldığı gözlemlendi. Bu çalışmalar başarı açısından incelendiklerinde genetik algoritma ve parçacık sürü optimizasyonu yöntemlerinin genel olarak hiper-parametre optimizasyonu gerçekleştirmeyen çalışmalara göre başarılı ve rekabetçi sonuçlar verdiği görüldü. Yapılan tez çalışmasında kullanılacak veri setleri, seçilecek optimizasyon yöntemi, hiper-parametreler ve değer aralıklarının belirlenmesi için incelenen çalışmalarda kullanılan veri setleri, hiper-parametreler ve bu hiper-parametreler için seçilen değer aralıkları göz önünde bulunduruldu. Yapılan çalışmalarda, farklı çalışmaları karşılaştırmak için elimizde parametre sayısı ve hesaplama zamanı bilgileri bulunmadığından sadece doğruluk oranı bilgisi performans karşılaştırması için kullanıldı. Daha önce yapılan bu çalışmalardan farklı olarak bu tez çalışmasında “Mikrokanonikal Optimizasyon” olarak adlandırılan bir yöntem kullanıldı. Seçilen optimizasyon yöntemi kullanılarak farklı boyutlarda konvolüsyonel sinir ağları oluşturuldu ve oluşturulan konvolüsyonel sinir ağlarının hiper-parametreleri optimize edilmeye çalışıldı. Seçilen optimizasyon algoritmasının çalışması sırasında üretilen konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında sıklıkla kullanılan MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) ve xii CIFAR10 veri setleri üzerinde test edildi. Elde edilen sonuçlar, hiç hiper-parametre optimizasyonu gerçekleştirmeyen ve state-of-the-art olarak adlandırılan çalışmalar ile doğruluk oranı ve parametre sayısı gibi değerler üzerinden karşılaştırıldı. Ek olarak, önerilen sezgisel yöntemin performansı, Bayesçi model tabanlı bir optimizasyon yöntemi olan Tree Parzen Estimator yöntemiyle karşılaştırılmıştır. Elde edilen sonuçlara bakıldığında, Konvolüsyonel sinir ağları için belirlenmesi gereken birçok hiper-parametre olmasına rağmen seyreltme oranı, filtre sayısı, öğrenme oranı ve yığın boyutu gibi hiper-parametrelerin oluşturulan modellerin başarısında önemli bir katkısı olduğu çıkarımına ulaşıldı.Computer vision is probably the most widely studied sub-area of artifical intelligence which has been drawing considerable interest of many researchers for years. There are special deep learning architectures developed to enable computers to perceive, classify and interpret images as humans. Convolutional neural networks are the most popular deep learning methods that can be used successfully in computer vision studies. Deep learning methods may result in high computational costs due to the difficulty of the problems encountered. This computational cost can only be reduce by careful selection of hyperparameters of the convolutional neural networks and the computational time can also be reduce by the use of powerful equipment. Therefore, in the studies that try to optimize hyperparameters in convolutional neural networks, the researchers try to increase the success rate of the network while at the same time try to keep the computational cost as low as possible. In this thesis, firstly a detailed literature review on the studies that perform hyperparameter optimization has been given. It has been observed that heuristic algorithms and statistics model based algorithms are among the most widely used methods for hyper-parameter optimization in convolutional neural networks. In particular, Genetic Algorithms, Particle Swarm Optimization, Differential Evolution, Random Search and Bayes Optimization methods are the most frequently used approaches. When we compare these methods in terms of their success rates, we see that the studies in which genetic algorithms and particle swarm optimization methods are used were able to achieve greater results than the studies that did not perform hyper-parameter optimization in general. In order to determine the optimization method to be used in the study along with the hyper-parameters and their value ranges, we benefited the studies in the literature. Moreover, the datasets used in this study are selected among the most widely used datasets in the literature. Most of the studies in the literature do not provide sufficient information about the number of parameters of the network and the computational time, therefore we took in the account accuracy as the performance measure. In this study, Microcanonical Optimization which is previously known in different areas was but not used in this concepts has been applied fort he hyperparameter optimization of convolutional neural networks. By this method, different network architectures has been created and the hyper-parameters of the network is optimized. The convolutional neural networks generated during the optimization process are trained on the MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) and CIFAR10 datasets, which are the most frequently used datasets in computer vision studies. The accuracy results are compared to the state-of-the-art architectures in which no hyper-parameter optimization has been performed. In addition, the performance of proposed heuristic method has been compared to Tree Parzen Estimator method which is a Bayesian model based optimization method. The results suggest that among the many hyperparameters dropout rate, feature map count, learning rate and batch size are among the most important parameters that directly affect the success of the networks
    corecore