Actual problems of automation and information technology (E-Journal) / Актуальні проблеми автоматизації та інформаційних технологій
    Технологія побудови моделі для прогнозування максимальної корегованої гостроти зору

    The paper considers the technology of building a regression model for the maximum corrected visual acuity prediction based on a real medical dataset. The dataset included 120 features for 91 patients with nonproliferative diabetic retinopathy. The technology implied three stages. The first stage involved data preprocessing which included missing values handling, anomaly detecting, features normality checking, correlations between features analyzing and multicollinearity detecting. During the missing values handling, 14 features and one row were removed from the dataset. The Pearson correlation coefficients between independent and target features were analyzed in order to select important features for a regression model. Five features with a correlation greater than 0.8 were selected. The Pearson correlation coefficients between all independent features were explored to exclude highly correlated independent features. 27 independent features were deleted after the analysis. The variance inflation factor was used to detect multicollinearity. The second stage involved building a multiple linear regression model using a filter method for feature selection. The model with three features that were the most strongly correlated with the target was built at this stage. Adjusted R2 for the model was about 79% on the test part of the dataset. The third stage implied building a multiple linear regression model using the stepwise selection method. Four features were selected using the method. Adjusted R2 for the model with these features was about 84% on the test part of the dataset. In order to implement all technology stages a website was developed. The server part of the website was created using the Python language with Flask, pandas, numpy, matplotlib.pyplot, scipy.stats, statsmodels libraries. The client part of the website was created using HTML, CSS and JavaScript with JQuery library. All stages of data processing and regression models building are visualized with tables and graphs on the website. The website can be used in various applications for building multiple linear regression models.У статті розглянуто технологію побудови моделі регресії для прогнозування максимальної корегованої гостроти зору на основі показників медичного обстеження пацієнтів з непроліферативною діабетичною ретинопатією. Технологія передбачала на першому етапі проведення попередньої обробки та аналізу вхідних даних, а на наступних етапах – побудову моделі лінійної багатовимірної регресії зі здійсненням відбору інформативних показників методом-фільтром та покроковим відбором. Всі етапи технології було програмно реалізовано у створеному вебдодатку. Серверну частину вебдодатку розроблено за допомогою мови Python та бібліотеки Flask, клієнтську частину – з використанням HTML, CSS та JavaScript

    Аналіз чинників високоефективності команд при розробленні програмного забезпечення

    Software development is usually a team work. Both individual researchers and leading corporations deal with the issue of identifying factors affecting the effectiveness. The results of many studies confirm that only the high professional qualities of its members are not enough to build a highly effective team. A highly effective team is considered to be characterized, on the one hand, by high productivity and stability of results, and on the other hand, by the satisfaction of participants with membership in this group. In highly effective teams, there is a synergy effect, in which the group result outweighs the sum of the individual results. The purpose of this work is to analyze the factors that affect the effectiveness of teamwork in software development and that should be taken into account when forming the necessary competencies for students of relevant specialties. The effectiveness of the team depends significantly on the development of its social and psychological parameters, among which the following are most often distinguished: value and goal orientation and coherence (the determination of the goals and values of the team, the degree of their acceptance by its participants, the resulting group norms and motivation), informal and role structure (peculiarities of the distribution of leadership and social roles in the team, as well as the degree of coincidence of informal and formal structures), group cohesion. This article examines each of these areas in detail, explains the importance and impact on efficiency, provides certain recommendations for diagnosing the current state of the team and developing the specified characteristics to increase the potential and effectiveness of work.Розглянуто та проаналізовано чинники високоефективності команд при розробленні програмного забезпечення, надано рекомендації щодо формування відповідних компетенцій під час підготовки здобувачів вищої освіти

    Огляд існуючих автоматизованих систем управління освітніми закладами

    In this article, the main attention is paid to the research of existing solutions for automating the work of the administration of the educational institution with the aim of further development of an automated system for recording data about university students, and one of the modules of the project under development is considered. No educational institution can exist without keeping records of student data. The modern development of information technologies makes it possible to introduce digital means of accounting in universities. The purpose of the work is the development of an automated data accounting system for students of the faculty, which contains information about students, their grades, exams, coursework and projects. The developed program is designed to simplify the work of the dean's office staff. The main data with which the dean's office works are individual plans of students and their academic performance, orders for enrollment and transfer to the next course or their expulsion, reinstatement or transfer. All information must be stored in the system for several years. The main goal of the development is to reduce the time spent by employees of the dean's office on solving daily tasks and to simplify the process of working with data.В даній статті основну увагу приділено дослідженню існуючих рішень для автоматизації роботи адміністрації навчального закладу з метою подальшої розробки автоматизованої системи обліку даних про студенів університету та розглянуто один з модулів розроблюваного проєкту

    Підвищення точності геолокації об’єкта на цифровому зображенні при використанні комбінованих технологій аналізу даних

    The paper considers the problem of finding the location of an object based on the digital data of its image. In particular, attention is paid to estimating the GPS location of an image with a street background image by searching for relevant images in a reference image database and using comparison algorithms. Convolutional neural networks (CNN) are used for image classification and object detection for this task. The updated Faster R-CNN object detection network architecture is used to detect buildings in the query and reference images in the work. Next, for each building in the image, we extract k nearest neighbors from the benchmark using a Siamese Convolutional Neural Network, both positive image matching pairs and negative image matching pairs are considered. To find the correct NN for each query construction, a multiple nearest neighbor matching method based on the dominant set is developed. The proposed framework is evaluated on a new dataset consisting of pairs of «street view» and «bird's eye view» images. Experimental results show that the proposed method provides better geolocation accuracy than other approaches.У роботі розглянута проблема знаходження місцезнаходження об’єкта за цифровими даними його зображення. Зокрема, приділена увага оцінці GPS-розташування зображення з фоновим зображенням вулиць шляхом пошуку відповідних зображень у довідковій базі даних зображень та використання алгоритмів порівняння. Для поставленого завдання використовуються згорткові нейронні мережі (CNN) у класифікації зображень та виявлення об'єктів. Для виявлення будівель у запиті та еталонних зображення у роботі використовується оновлена архітектура мережі виявлення об’єктів Faster R-CNN. Далі для кожної будівлі на зображенні ми виймаємо k найближчих сусідів з еталона з використанням сіамської згорткової нейронної мережі, враховуються як позитивні пари зображень, що збігаються, так і негативні пари. Щоб знайти правильний NN для кожної побудови запиту, розроблено метод зіставлення кількох найближчих сусідів на основі домінуючого набору. Оцінено запропоновану структуру на новому наборі даних, який складається з пар зображень «з видом на вулицю» та «з видом з висоти пташиного польоту». Експериментальні результати показують, що запропонований метод забезпечує кращу точність геолокації, ніж інші підходи

    Метод розв'язання періодичної задачі маршрутизації транспортних засобів

    The desire of companies to reduce transportation costs requires the development of efficient methods of route construction. In this paper we consider the Periodic Vehicle Routing Problem with Time Window (PVRPTW), which extends the well-known Vehicle Routing Problem. Routes are designed for a planning horizon of several days. Customers need to be served one or more times during the planning horizon, following one of the proposed visit schedules. For example, a customer may request to be visited twice during a five-day period and that these visits can occur on one of the following day combinations: Monday-Thursday, Tuesday-Friday, or Wednesday-Friday. A fleet of vehicles of varying capacities is available. Each vehicle performs a maximum of one route per day. Any route starts and ends at the warehouse.  For each customer, their demand and time window during each day when the customer expects to be visited are known. The problem is to construct a set of minimum cost routes that provide service to all customers according to their schedules. The solution of the PVRPTW involves assigning a combination of visit days to each customer and obtaining a set of routes for each day of the planning period such that the number of routes for each day does not exceed the number of available vehicles and the capacity of any vehicle is not exceeded. A heuristic algorithm consisting of the stages of construction and improvement of the solution is proposed. In the first stage, a greedy algorithm is used to construct a solution that is acceptable in terms of attendance schedules. The second stage consists in applying an ensemble of local search algorithms, each of which allows to improve the obtained solution. Computational experiments were conducted on data sets of up to 210 clients.Розглянуто підходи до розв'язання періодичної задачі маршрутизації транспортних засобів. Запропоновано евристичний метод для розв'язання періодичної задачі маршрутизації з часовими вікнами, який ґрунтується на концепції локального пошуку. Розроблено програмне забезпечення, що реалізує запропонований метод, та дозволяє будувати маршрути для заданого періоду планування

    Використання підходів активного навчання під час побудови моделей машинного навчання

    Nowadays, we have access to a huge amount of data that can be received from different sources: digitization of healthcare, the internet of things, social networks, online stores, and more others. And today the using of deep neural networks models for model creation has become incredibly popular. All these models require the availability of big data sets for training to be able to find hidden relationships between input data and output target variables, and this data for supervised learning tasks should be labeled. But the cost of data labeling in many cases can be quite high and may require the involvement of highly qualified experts. Therefore, there is a need to use active learning approaches, the main goal of which is to reduce the cost of data labeling due to the directed selection of objects of an unlabeled data set, which allows to increase the accuracy of machine learning models, while reducing the cost of data labeling. The goal of this article is the survey of such existing approaches and applied areas for using them. Three main scenarios of requests for unlabeled objects were observed in this work: pool-based sampling, stream-based selective sampling, membership query synthesis. Among the methods of object selection, most popular methods were chosen, they are uncertainty sampling, Query-By-Committee, expected model change, variance reduction, estimated error reduction. Also, in this article different areas of using active learning were observed, such as medical image analysis, tasks of ranking search results, as well as the approaches to improving active learning methods.У роботі описані основні стратегії активного навчання, методи вибору об’єктів та основні прикладні задачі, в яких використання підходів активного навчання може суттєво зменшити вартість розмічування даних. Розглянуті варіанти використання методів активного навчання у поєднання з глибокими нейронними мережами

    Технологія видобутку даних про ризики захворювання на основі аналізу електронних медичних карток

    Electronic medical records (EMRs) contain vast amounts of valuable medical data, but their usefulness is limited by the lack of a standard format. The OpenEHR format is a promising solution to this problem, providing a standard for data storage and exchange. However, converting existing EMRs to the OpenEHR format is a complex and time-consuming process that requires significant resources. Automated methods can reduce the burden of this task and make it more efficient. The proposed approach uses a deep learning model, specifically the WDRNN, to classify EMRs and transform them into the OpenEHR format. The model first extracts important features from the text using the «wide» part of the WDRNN, which calculates the importance of feature words based on their frequency and rarity. The «deep» part of the model then identifies key features using an attention mechanism, which focuses on the most relevant parts of the text. Finally, the model uses LSTM to capture the semantic features of the text, improving prediction accuracy. To evaluate the performance of the proposed approach, a dataset of anonymized medical examination records was used. The results showed that the WDRNN model achieved high accuracy and completeness in converting EMRs to the OpenEHR format. In conclusion, the proposed approach presents a promising solution to the challenge of converting EMRs to the OpenEHR format. The use of a deep learning model, specifically the WDRNN, can significantly improve the efficiency and accuracy of the conversion process. This method has the potential to enhance the interoperability of healthcare systems and facilitate the exchange and sharing of medical data.У цій статті розглядається підхід до автоматичного перетворення електронних медичних записів (EMR), у стандартизований формат OpenEHR. Для класифікації використовується Wide & Deep Recurrent Neural Network (WDRNN). «Широка» частина визначає важливість слів-ознак у тексті, використовуючи показник TF-IDF, а «глибока» – вилучає ключові ознаки за допомогою механізму уваги. Модель враховує семантичні ознаки тексту, використовуючи LSTM, що покращує точність прогнозування. Запропонований підхід оцінено за допомогою набору даних анонімізованих записів з медичних обстежень. Результати показали високу точність та повноту моделі WDRNN, що свідчить про її ефективність порівняно з іншими методами обробки даних

    Особливості організації теоретичних онлайн-занять

    Some features of the organization of theoretical online classes are considered. The features of online tools for organizing material exchange and establishing feedback are analyzed, features that must be taken into account when choosing such tools are highlighted. The main characteristics were clarified and a comparative analysis of online services for establishing quick feedback with the audience was carried out. The trend of recent years is the introduction of a mixed education system in institutions of higher education. This is accompanied by the creation and development of informational educational environments that have certain tools for organizing the learning process and its modernization. That is, there is an opportunity to combine traditional and computer-based forms of education. Such services as MS Teams, MS Power Point, Mentimeter, Slido are considered. It should be noted that interactive surveys can be organized not only remotely, but also in classrooms, during offline lectures. Taking into account the fact that almost all students today have smartphones and access to the Internet, from a technical point of view, the organization of the survey will not be problematic. At the same time, for many listeners, participating in an anonymous electronic survey is much easier than speaking in public or asking questions in the audience. Therefore, the results of quick surveys help the teacher in a short time to receive the results of feedback from the entire audience of listeners and to understand what needs to be additionally explained or commented on from the presented material. Therefore, the use of the considered interactive tools during the lecture increases the interest of students in the active perception of the material, stimulates its effective assimilation, allows establishing quick feedback with the audience of listeners, and, in general, increases their interest in learning, promotes the development of communication skills.Розглянуто деякі особливості організації теоретичних онлайн занять. Проаналізовано особливості онлайн засобів організації обміну матеріалом та встановлення зворотного зв’язку, виділено особливості, які необхідно враховувати при виборі таких засобів. Розглянуто такі сервіси як, MS Teams, MS Power Point, Mentimeter, Slido. З’ясовано основні характеристики та проведено порівняльний аналіз онлайн сервісів для встановлення швидкого зворотного зв’язку з аудиторією

    Управління ризиками вибору технічних характеристик конструкційних матеріалів

    The paper considers the search for a vector of target variables that satisfies the established restrictions and optimizes the vector function, the elements of which correspond to the target functions. An algorithm has been built with the help of which you can select the most suitable metals for the manufacture of a given part, subject to the maximization and minimization of some of its properties, taking into account the characteristics of the metals used.В роботі розглянуто пошук вектору цільових змінних, який задовольняє накладеним обмеженням та оптимізує векторну функцію, аргументи якої відповідають цільовим функціям. Побудований алгоритм, за допомогою якого можна обрати метали, що найкраще задовольняють умовам технології виготовлення деталі за умов максимізації та мінімізації деяких її властивостей. При цьому враховуються характеристики металів, що використовуються

    Про підходи дослідження системи хмарних обчислень

    The paper considers the question of using theoretical, methodical and practical approaches related to the study of the cloud computing system. The main approaches, technologies, models and methods of managing the IT infrastructure of the cloud service platform are considered. Attention is paid to the analysis of the task of resource management of IT infrastructure of cloud services using approaches, models and methods of integrated and hierarchical management, artificial intelligence, load forecasting, consumption of IT infrastructure resources, distribution of services. The essential characteristics of cloud computing and the hierarchy of the IT infrastructure are highlighted, the problems and tasks of the cloud service system research are formulated, the results are obtained regarding the interaction at the levels of the architecture hierarchy (SaaS, PaaS, IaaS) by modeling methods and design approaches. In particular, a Bayesian classifier was built to solve the problem of tool selection based on a formed expert sample, the problem of optimizing a private cloud of virtual workplaces due to the assessment of server and cloud resources was considered, and the problem of optimal distribution of services between objects was considered. On the basis of the basic scheme of resource management in the local cloud architecture, a model of the mass service system was formed and the main methods of studying the complexity of the system were verified.У роботі розглянуто питання використання теоретичних, методичних і практичних підходів, які пов’язані з дослідженням системи хмарних обчислень. Розглянуто основні підходи, технології, моделі та методи управління ІТ-інфраструктурою платформи хмарних послуг. Приділена увага аналізу задачі управління ресурсами ІТ-інфраструктури хмарних послуг із застосуванням підходів, моделей і методів інтегрованого і ієрархічного управління, штучного інтелекту, прогнозування навантажень, споживання ресурсів ІТ-інфраструктури, розподілу послуг. Виділені суттєві характеристики хмарних обчислень та ієрархічності ІТ-інфраструктури, сформульовані проблеми і задач дослідження системи хмарних послуг, отримані результати щодо взаємодії на рівнях ієрархії архітектури (SaaS, PaaS, IaaS) методами моделювання та підходами проєктування. Зокрема, побудовано  класифікатор Байєса для вирішення задачі вибору інструментарію на основі сформованої експертної вибірки, розглянуто задача оптимізації приватної хмари віртуальних робочих місць за рахунок оцінки ресурсів сервера та хмари, розглянуто задачу оптимального розподілу послуг між об’єктами. На основі базової схеми управління ресурсами у локальній хмарній архітектурі сформована модель системи масового обслуговування


