10 research outputs found

    Visual detection of blemishes in potatoes using minimalist boosted classifiers

    Get PDF
    This paper introduces novel methods for detecting blemishes in potatoes using machine vision. After segmentation of the potato from the background, a pixel-wise classifier is trained to detect blemishes using features extracted from the image. A very large set of candidate features, based on statistical information relating to the colour and texture of the region surrounding a given pixel, is first extracted. Then an adaptive boosting algorithm (AdaBoost) is used to automatically select the best features for discriminating between blemishes and non-blemishes. With this approach, different features can be selected for different potato varieties, while also handling the natural variation in fresh produce due to different seasons, lighting conditions, etc. The results show that the method is able to build ``minimalist'' classifiers that optimise detection performance at low computational cost. In experiments, blemish detectors were trained for both white and red potato varieties, achieving 89.6\% and 89.5\% accuracy, respectively

    Оцінка ефективності нейронних мереж для обробки зображення.

    Get PDF
    Робота публікується згідно наказу ректора від 21.01.2020 р. №008/од "Про перевірку кваліфікаційних робіт на академічний плагіат 2019-2020р.р. навчальному році" Керівник: д.т.н., профессор Віноградов Микола Анатолійович.Мета роботи: створення, дослідження, спостереження за поведінкою мутації і природного добору генів програмного оточення інформаційних систем за допомогою впровадження технології Genetic Programming.Векторизацією називають процес отримання векторної моделі на основі растрового зображення. Суть проблеми полягає в тому, що в даний час не існує методу, який дозволяє повністю автоматизувати переклад в векторну форму інформації, представленої в графічному вигляді. Багато в чому це пов'язано з тим, що алгоритмічно не вирішена задача однозначного трактування графічних зображень. Під векторної формою далі будемо розуміти набір об'єктів, які задаються точками, ламаними або багатокутниками. Однак є безліч областей, в яких існує необхідність у подібних перетвореннях. В першу чергу це геоінформаційні системи, де для створення закінчених продуктів необхідне перетворення традиційних джерел картографічної інформації - паперових носіїв - в електронну форму. Серед інших сфер застосування алгоритмів векторизації можна назвати САПР, дизайн і підготовку друкованих / електронних видань. У кожній з цих областей існують свої особливості і складності. Наприклад, в ГІС зазвичай мається на увазі, що вихідні растрові зображення карт використовують обмежену і досить невелике число кольорів, але при цьому необхідно обробляти дуже великі за розмірами зображення. Також в ГІС і системах проектування часто вихідні дані містять суміш лінійних (суцільних, пунктирних, штрихпунктирною і ін), майданних, символьних об'єктів, умовних знаків, заштрихованих областей і т.д. Що також сильно збільшує складність завдань розпізнавання і векторизації. Що стосується САПР-додатків, то там існує потреба виділення таких специфічних випадків, як прямі кути між лініями і дуги кіл

    Дослiдження ефективностi конвертора растрової графiки у векторну з використанням генетичного аглоритму

    Get PDF
    Сорокін М. І. Дослiдження ефективностi конвертора растрової графiки у векторну з використанням генетичного аглоритму : дипломна робота магістра спеціальності 121 Інженерія програмного забезпечення. - Дніпро, 2018Пояснительная записка:93 с., 16 рис., 97 источника. Объект исследования: технологии генетической алгоритмизации программного обеспечения. Цель магистерской работы: создание, исследование, наблюдение за поведением мутации и естественного отбора генов программного окружения информационных систем с помощью внедрения технологии Genetic Programming. Методы исследования. При решении поставленной задачи использовались научные достижения в областях разработки информационных систем и программного обеспечения. Научная новизна полученных результатов состоит в проведении анализа и выявлении недостатков поведения геномов в изолированной среде, скрещивание, мутацией объектов окружения, а также в использовании методики алгоритмизации информационных систем на основе использования технологии генетической алгоритмизации. Практическое значение работы заключается векторизации растровой графики с использованием технологии генетической алгоритмизации и естественного отбора объектов, логирование всех этапов отсеивания сильных популяций. Область применения. Разработанная информационная система может применяться для решения широкого спектра задач, в частности, для создания растровой графики, оптимизации файловых хранилищ. Значение работы и выводы. Такого рода приложения позволяют решать проблемы с пикселизацией различного рода графических объектов, при модификации, масштабируемости, уход от растровых изображений в разных сферах деятельности, что подтверждается разработанным программным продуктом в данной магистерской работе. Прогнозы по развитию исследований. Разработать универсальные программные алгоритмы, оптимизация, которые могут быть использованы для перехода на векторную графику информационных систем из различных сфер рода деятельности. Разработать программное средство и пользовательский интерфейс для графического представления результатов, сравнительного анализа входных и выходных данных. В разделе «Экономика» проведены расчеты трудоемкости разработки программного обеспечения, расходов на создание ПО и длительности его разработки.Пояснювальна записка : 93 стор., _16_ мал., _97_ джерел. Об'єкт дослідження: технології генетичної алгоритмізації програмного забезпечення. Мета магістерської роботи: створення, дослідження, спостереження за поведінкою мутації і природного добору генів програмного оточення інформаційних систем за допомогою впровадження технології Genetic Programming. Методи дослідження. При вирішенні поставленого завдання використовувалися наукові досягнення в областях розробки інформаційних систем і програмного забезпечення. Наукова новизна отриманих результатів полягає в проведенні аналізу та виявленні недоліків поведінки геномів в ізольованому середовищі, схрещування, мутацією об'єктів оточення, а також у використанні методики алгоритмізації інформаційних систем на основі використання технології генетичної алгоритмізації. Практична цінність полягає векторизації растрової графіки з використанням технології генетичної алгоритмізації і природного відбору об'єктів, логирование всіх етапів відсіювання сильних популяцій. Область застосування. Розроблена інформаційна система може застосовуватися для вирішення широкого спектра завдань, зокрема, для створення растрової графіки, оптимізації файлових сховищ. Значення роботи та висновки. Такого роду програми дозволяють вирішувати проблеми з пікселізацією різного роду графічних об'єктів, при модифікації, масштабованості, відхід від растрових зображень в різних сферах діяльності, що підтверджується розробленим програмним продуктом в даній магістерській роботі. Прогнози щодо розвитку досліджень. Розробити універсальні програмні алгоритми, оптимізація, які можуть бути використані для переходу на векторну графіку інформаційних систем з різних сфер роду діяльності. Розробити програмний засіб і призначений для користувача інтерфейс для графічного представлення результатів, порівняльного аналізу вхідних і вихідних даних. У розділі «Економіка» проведені розрахунки трудомісткості розробки програмного забезпечення, витрат на створення ПО і тривалості його розробки.Explanatory note: 93 p., _16_ fig, _97_ sources. Object of research: technology of genetic algorithmization of software. The purpose of the degree project: creation, research, observation of mutation behavior and natural selection of the genes of the software environment of information systems through the introduction of Genetic Programming technology. Methods of research. At the decision of the task in view, scientific achievements in the fields of development of information systems and software were used. The scientific novelty the results obtained include analysis and identification of shortcomings in the behavior of genomes in an isolated environment, crossing, mutation of environmental objects, as well as using the algorithm of information systems based on the use of genetic algorithmization technology. The practical value of work is the vectorization of raster graphics using the technology of genetic algorithmization and natural selection of objects, the logging of all stages of screening out strong populations. The scope developed information system can be used to solve a wide range of tasks, in particular, for creating raster graphics, optimizing file storages. The value of the work and conclusions Such applications allow solving problems with pixelization of various kinds of graphic objects, with modification, scalability, leaving raster images in different fields of activity, which is confirmed by the developed software product in this master's work. Projections on development research Develop universal software algorithms, optimization, which can be used to switch to vector graphics of information systems from different spheres of the activity. Develop a software tool and user interface for graphical representation of results, comparative analysis of input and output data. In section "Economics Calculations of the complexity of software development, software development costs and the duration of its development were carried out

    Дослідження оцінки ефективності нейронних мереж при обробці зображення

    Get PDF
    Колотилін Д. Е. Дослідження оцінки ефективності нейронних мереж при обробці зображення : дипломна робота магістра спеціальності 122 Комп'ютерні науки. - Дніпро, 2018Пояснительная записка:93 с., 16 рис., 97 источника. Объект исследования: технологии генетической алгоритмизации программного обеспечения. Цель магистерской работы: создание, исследование, наблюдение за поведением мутации и естественного отбора генов программного окружения информационных систем с помощью внедрения технологии Genetic Programming. Методы исследования. При решении поставленной задачи использовались научные достижения в областях разработки информационных систем и программного обеспечения. Научная новизна полученных результатов состоит в проведении анализа и выявлении недостатков поведения геномов в изолированной среде, скрещивание, мутацией объектов окружения, а также в использовании методики алгоритмизации информационных систем на основе использования технологии генетической алгоритмизации. Практическое значение работы заключается векторизации растровой графики с использованием технологии генетической алгоритмизации и естественного отбора объектов, логирование всех этапов отсеивания сильных популяций. Область применения. Разработанная информационная система может применяться для решения широкого спектра задач, в частности, для создания растровой графики, оптимизации файловых хранилищ. Значение работы и выводы. Такого рода приложения позволяют решать проблемы с пикселизацией различного рода графических объектов, при модификации, масштабируемости, уход от растровых изображений в разных сферах деятельности, что подтверждается разработанным программным продуктом в данной магистерской работе. Прогнозы по развитию исследований. Разработать универсальные программные алгоритмы, оптимизация, которые могут быть использованы для перехода на векторную графику информационных систем из различных сфер рода деятельности. Разработать программное средство и пользовательский интерфейс для графического представления результатов, сравнительного анализа входных и выходных данных. В разделе «Экономика» проведены расчеты трудоемкости разработки программного обеспечения, расходов на создание ПО и длительности его разработки.Пояснювальна записка : 93 стор., _16_ мал., _97_ джерел. Об'єкт дослідження: технології генетичної алгоритмізації програмного забезпечення. Мета магістерської роботи: створення, дослідження, спостереження за поведінкою мутації і природного добору генів програмного оточення інформаційних систем за допомогою впровадження технології Genetic Programming. Методи дослідження. При вирішенні поставленого завдання використовувалися наукові досягнення в областях розробки інформаційних систем і програмного забезпечення. Наукова новизна отриманих результатів полягає в проведенні аналізу та виявленні недоліків поведінки геномів в ізольованому середовищі, схрещування, мутацією об'єктів оточення, а також у використанні методики алгоритмізації інформаційних систем на основі використання технології генетичної алгоритмізації. Практична цінність полягає векторизації растрової графіки з використанням технології генетичної алгоритмізації і природного відбору об'єктів, логирование всіх етапів відсіювання сильних популяцій. Область застосування. Розроблена інформаційна система може застосовуватися для вирішення широкого спектра завдань, зокрема, для створення растрової графіки, оптимізації файлових сховищ. Значення роботи та висновки. Такого роду програми дозволяють вирішувати проблеми з пікселізацією різного роду графічних об'єктів, при модифікації, масштабованості, відхід від растрових зображень в різних сферах діяльності, що підтверджується розробленим програмним продуктом в даній магістерській роботі. Прогнози щодо розвитку досліджень. Розробити універсальні програмні алгоритми, оптимізація, які можуть бути використані для переходу на векторну графіку інформаційних систем з різних сфер роду діяльності. Розробити програмний засіб і призначений для користувача інтерфейс для графічного представлення результатів, порівняльного аналізу вхідних і вихідних даних. У розділі «Економіка» проведені розрахунки трудомісткості розробки програмного забезпечення, витрат на створення ПО і тривалості його розробки.Explanatory note: 93 p., _16_ fig, _97_ sources. Object of research: technology of genetic algorithmization of software. The purpose of the degree project: creation, research, observation of mutation behavior and natural selection of the genes of the software environment of information systems through the introduction of Genetic Programming technology. Methods of research. At the decision of the task in view, scientific achievements in the fields of development of information systems and software were used. The scientific novelty the results obtained include analysis and identification of shortcomings in the behavior of genomes in an isolated environment, crossing, mutation of environmental objects, as well as using the algorithm of information systems based on the use of genetic algorithmization technology. The practical value of work is the vectorization of raster graphics using the technology of genetic algorithmization and natural selection of objects, the logging of all stages of screening out strong populations. The scope developed information system can be used to solve a wide range of tasks, in particular, for creating raster graphics, optimizing file storages. The value of the work and conclusions Such applications allow solving problems with pixelization of various kinds of graphic objects, with modification, scalability, leaving raster images in different fields of activity, which is confirmed by the developed software product in this master's work. Projections on development research Develop universal software algorithms, optimization, which can be used to switch to vector graphics of information systems from different spheres of the activity. Develop a software tool and user interface for graphical representation of results, comparative analysis of input and output data. In section "Economics Calculations of the complexity of software development, software development costs and the duration of its development were carried out

    Microcelebrity Practices: A Cross-Platform Study Through a Richness Framework

    Get PDF
    Social media have introduced a contemporary shift from broadcast to participatory media, which has brought about major changes to the celebrity management model. It is now common for celebrities to bypass traditional mass media and take control over their promotional discourse through the practice of microcelebrity. The theory of microcelebrity explains how people turn their public persona into media content with the goal of gaining and maintaining audiences who are regarded as an aggregated fan base. To accomplish this, the theory suggests that people employ a set of online self-presentation techniques that typically consist of three core practices: identity constructions, fan interactions and promoting visibility beyond the existing fan base. Studies on single platforms (e.g., Twitter), however, show that not all celebrities necessarily engage in all core practices to the same degree. Importantly, celebrities are increasingly using multiple social media platforms simultaneously to expand their audience, while overcoming the limitations of a particular platform. This points to a gap in the literature and calls for a cross-platform study. This dissertation employed a mixed-methods research design to reveal how social media platforms i.e., Twitter and Instagram, helped celebrities grow and maintain their audience. The first phase of the study relied on a richness scoring framework that quantified social media activities using affordance richness, a measure of the ability of a post to deliver the information necessary in affording a celebrity to perform an action by using social media artifacts. The analyses addressed several research questions regarding social media uses by different groups of celebrities and how the audience responded to different microcelebrity strategies. The findings informed the design of the follow-up interviews with audience members. Understanding expectations and behaviors of fans is relevant not only as a means to enhance the practice’s outcome and sustain promotional activity, but also as a contribution to our understandings about contemporary celebrity-fans relationships mediated by social media. Three findings are highlighted. First, I found that celebrities used the two platforms differently, and that different groups of celebrities emphasized different core practices. This finding was well explained by the interviews suggesting that the audiences had different expectations from different groups of celebrities. Second, microcelebrity strategies played an important role in an audience’s engagement decisions. The finding was supported by the interviews indicating that audience preferences were based on some core practices. Lastly, while their strategies had no effect on follow and unfollow decisions, the consistency of the practices had significant effects on the decisions. This study makes contributions to the theory of Microcelebrity and offers practical contributions by providing broad insights from both practitioners’ and audiences’ perspectives. This is essential given that microcelebrity is a learned practice rather than an inborn trait

    Learning Algorithm to Automate Fast Author Name Disambiguation

    Get PDF
    RÉSUMÉ : La production scientifique mondiale représente une quantité massive d’enregistrements auxquels on peut accéder via de nombreuses bases de données. En raison de la présence d’enregistrements ambigus, un processus de désambiguïsation efficace dans un délai raisonnable est nécessaire comme étape essentielle pour extraire l’information correcte et générer des statistiques de publication. Cependant, la tâche de désambiguïsation est exhaustive et complexe en raison des bases de données volumineuses et des données manquantes. Actuellement, il n’existe pas de méthode automatique complète capable de produire des résultats satisfaisants pour le processus de désambiguïsation. Auparavant, une application efficace de désambiguïsation d’entité a été développée, qui est un algorithme en cascade supervisé donnant des résultats prometteurs sur de grandes bases de données bibliographiques. Bien que le travail existant produise des résultats de haute qualité dans un délai de traitement raisonnable, il manque un choix efficace de métriques et la structure des classificateurs est déterminée d’une manière heuristique par l’analyse des erreurs de précision et de rappel. De toute évidence, une approche automatisée qui rend l’application flexible et réglable améliorerait directement la convivialité de l’application. Une telle approche permettrait de comprendre l’importance de chaque classification d’attributs dans le processus de désambiguïsation et de sélectionner celles qui sont les plus performantes. Dans cette recherche, nous proposons un algorithme d’apprentissage pour automatiser le processus de désambiguïsation de cette application. Pour atteindre nos objectifs, nous menons trois étapes majeures: premièrement, nous abordons le problème d’évaluation des algorithmes de codage phonétique qui peuvent être utilisés dans le blocking. Six algorithmes de codage phonétique couramment utilisés ont été sélectionnés et des mesures d’évaluation quantitative spécifiques ont été développées afin d’évaluer leurs limites et leurs avantages et de recruter le meilleur. Deuxièmement, nous testons différentes mesures de similarité de chaîne de caractères et nous analysons les avantages et les inconvénients de chaque technique. En d’autres termes, notre deuxième objectif est de construire une méthode de désambiguïsation efficace en comparant plusieurs algorithmes basés sur les edits et les tokens pour améliorer la méthode du blocking. Enfin, en utilisant les méthodes d’agrégation bootstrap (Bagging) et AdaBoost, un algorithme a été développé qui utilise des techniques d’optimisation de particle swarm et d’optimisation de set covers pour concevoir un cadre d’apprentissage qui permet l’ordre automatique des weak classifiers et la détermination de leurs seuils. Des comparaisons de performance ont été effectuées sur des données réelles extraites du Web of Science (WoS) et des bases de données bibliographiques SCOPUS. En résumé, ce travail nous permet de tirer des conclusions sur les qualités et les faiblesses de chaque algorithme phonétique et mesure de similarité dans la perspective de notre application. Nous avons montré que l’algorithme phonétique NYSIIS est un meilleur choix à utiliser dans l’étape de blocking de l’application de désambiguïsation. De plus, l’algorithme de Weighting Table-based surpassait certains des algorithmes de similarité couramment utilisés en terme de efficacité de temps, tout en produisant des résultats satisfaisants. En outre, nous avons proposé une méthode d’apprentissage pour déterminer automatiquement la structure de l’algorithme de désambiguïsation.----------ABSTRACT : The worldwide scientific production represents a massive amount of records which can be accessed via numerous databases. Because of the presence of ambiguous records, a time-efficient disambiguation process is required as an essential step of extracting correct information and generating publication statistics. However, the disambiguation task is exhaustive and complex due to the large volume databases and existing missing data. Currently there is no complete automatic method that is able to produce satisfactory results for the disambiguation process. Previously, an efficient entity disambiguation application was developed that is a supervised cascade algorithm which gives promising results on large bibliographic databases. Although the existing work produces high-quality results within a reasonable processing time, it lacks an efficient choice of metrics and the structure of the classifiers is determined in a heuristic manner by the analysis of precision and recall errors. Clearly, an automated approach that makes the application flexible and adjustable would directly enhance the usability of the application. Such approach would help to understand the importance of each feature classification in the disambiguation process and select the most efficient ones. In this research, we propose a learning algorithm for automating the disambiguation process of this application. In fact, the aim of this work is to help to employ the most appropriate phonetic algorithm and similarity measures as well as introduce a desirable automatic approach instead of a heuristic approach. To achieve our goals, we conduct three major steps: First, we address the problem of evaluating phonetic encoding algorithms that can be used in blocking. Six commonly used phonetic encoding algorithm were selected and specific quantitative evaluation metrics were developed in order to assess their limitations and advantages and recruit the best one. Second, we test different string similarity measures and we analyze the advantages and disadvantages of each technique. In other words, our second goal is to build an efficient disambiguation method by comparing several editand token-based algorithms to improve the blocking method. Finally, using bootstrap aggregating (Bagging) and AdaBoost methods, an algorithm has been developed that employs particle swarm and set cover optimization techniques to design a learning framework that enables automatic ordering of the weak classifiers and determining their thresholds. Performance comparisons were carried out on real data extracted from the web of science (WoS) and the SCOPUS bibliographic databases. In summary, this work allows us to draw conclusions about the qualities and weaknesses of each phonetic algorithm and similarity measure in the perspective of our application. We have shown that the NYSIIS phonetic algorithm is a better choice to use in blocking step of the disambiguation application. In addition, the Weighting Table-based algorithm outperforms some of the commonly used similarity algorithms in terms of time-efficiency, while producing satisfactory results. Moreover, we proposed a learning method to determine the structure of the disambiguation algorithm automatically

    An improvement of AdaBoost to avoid overfitting

    No full text
    Recent work has shown that combining multiple versions of weak classifiers such as decision trees or neural networks results in reduced test set error. To study this in greater detail, we analyze the asymptotic behavior of AdaBoost. The theoretical analysis establishes the relation between the distribution of margins of the training examples and the generated voting classification rule. The paper shows asymptotic experimental results with RBF networks for the binary classification case underlining the theoretical findings. Our experiments show that AdaBoost does overfit, indeed. In order to avoid this and to get better generalization performance, we propose a regularized improved version of AdaBoost, which is called AdaBoostreg . We show the usefulness of this improvement in numerical simulations. KEYWORDS: ensemble learning, AdaBoost, margin distribution, generalization, support vectors, RBF networks 1. Introduction An ensemble is a collection of neural networks or other types of c..

    Static and dynamic overproduction and selection of classifier ensembles with genetic algorithms

    Get PDF
    The overproduce-and-choose sttategy is a static classifier ensemble selection approach, which is divided into overproduction and selection phases. This thesis focuses on the selection phase, which is the challenge in overproduce-and-choose strategy. When this phase is implemented as an optimization process, the search criterion and the search algorithm are the two major topics involved. In this thesis, we concentrate in optimization processes conducted using genetic algorithms guided by both single- and multi-objective functions. We first focus on finding the best search criterion. Various search criteria are investigated, such as diversity, the error rate and ensemble size. Error rate and diversity measures are directly compared in the single-objective optimization approach. Diversity measures are combined with the error rate and with ensemble size, in pairs of objective functions, to guide the multi-optimization approach. Experimental results are presented and discussed. Thereafter, we show that besides focusing on the characteristics of the decision profiles of ensemble members, the control of overfitting at the selection phase of overproduce-and-choose strategy must also be taken into account. We show how overfitting can be detected at the selection phase and present three strategies to control overfitting. These strategies are tailored for the classifier ensemble selection problcm and compared. This comparison allows us to show that a global validation strategy should be applied to control overfitting in optimization processes involving a classifier ensembles selection task. Furthermore, this study has helped us establish that this global validation strategy can be used as a tool to measure the relationship between diversity and classification performance when diversity measures are employed as single-objective functions. Finally, the main contribution of this thesis is a proposed dynamic overproduce-and-choose strategy. While the static overproduce-and-choose selection strategy has traditionally focused on finding the most accurate subset of classifiers during the selection phase, and using it to predict the class of all the test samples, our dynamic overproduce-and- choose strategy allows the selection of the most confident subset of classifiers to label each test sample individually. Our method combines optimization and dynamic selection in a two-level selection phase. The optimization level is intended to generate a population of highly accurate classifier ensembles, while the dynamic selection level applies measures of confidence in order to select the ensemble with the highest degree of confidence in the current decision. Three different confidence measures are presented and compared. Our method outperforms classical static and dynamic selection strategies
    corecore