    Detecting bivariate outliers on the basis of normalizing transformations for non-Gaussian data

    The statistical technique for detecting outliers in bivariate non-Gaussian data on the basis of normalizing transformations, prediction ellipse and a test statistic (TS) for the Mahalanobis squared distance (MSD), which has an approximate F distribution, is proposed. Application of the technique is considered for detecting outliers in two bivariate non-Gaussian data sets: the first, actual effort (hours) and size (adjusted function points) from 145 maintenance and development projects, the second, effort (hours) and mass (tonnes) of designed the section of the ship from 188 designs of sections

    Чотирьохфакторна нелінійна регресійна модель для оцінювання розміру Java-застосунків з відкритим кодом

    Приходько, С. Б. Чотирьохфакторна нелінійна регресійна модель для оцінювання розміру Java-застосунків з відкритим кодом = Four-factor non-linear regression model to estimate the size of open source Java-based applications / С. Б. Приходько, Н. В. Приходько, Т. Г. Смикодуб // Вчені записки ТНУ ім. В. І. Вернадського. Сер. Технічні науки. – Київ, 2020. – № 2, т. 31 (70), ч. 1. – С. 157–162.Метою роботи є створення множинної нелінійної регресійної моделі для оцінювання розміру Java-застосунків з відкритим кодом на основі багатовимірного нормалізуючого перетворення за значеннями змінних, що можуть бути визначені за діаграмою класів. Чотирьохфакторну нелінійну регресійну модель для оцінювання розміру Java-застосунків з відкритим кодом побудовано на основі нормалізації за допомогою п’ятивимірного перетворення Джонсона для сімейства SB негаусівського набору даних: кількості строк коду (LOC); кількості класів (Classes); кількості статичних методів (NOSM); метрики, що характеризує відсутність згуртованості методів (Lack of Cohesion of Methods, LCOM), та кількості викликів унікального методу в класі (the Response for Class, RFC) з 38 застосунків, розташованих на сайті GitHub (https://github.com) за допомогою інструменту CK (https://github. com/mauricioaniche/ck). Також нормалізацію цього набору даних було здійснено і за допомогою двох одновимірних перетворень: у вигляді десяткового логарифму та перетворення Джонсона для сімейства SB. Використання п’ятивимірного перетворення порівняно з одновимірними дозволяє врахувати кореляцію між змінними, що призводить до покращення нормалізації даних, яка пов’язана з виконанням статистичної гіпотези щодо відповідності їх розподілу п’ятивимірному розподілу Гаусу, з подальшим підвищенням достовірності відповідного оцінювання. Виконано порівняння побудованої нелінійної моделі з лінійною регресійною моделлю і нелінійними регресійними моделями на основі десяткового логарифму і одновимірного перетворення Джонсона. Нелінійна модель, що побудована, порівняно з іншими регресійними моделями (як лінійними, так і нелінійними) має більші значення множинного коефіцієнту детермінації та відсотка прогнозування на рівні величини відносної похибки, який дорівнює 0,25, менші значення середньої величини відносної похибки та ширини інтервалу передбачення нелінійної регресії. Цей результат може бути пояснений найкращою багатовимірною нормалізацією і тим, що немає підстав відкидати нульову гіпотезу про те, що п’ятивимірний розподіл для нормалізованих даних, який нормалізується за допомогою п’ятивимірного перетворення Джонсона для сімейства SB, є таким самим, як і п’ятивимірний нормальний розподіл.The goal of the work is the creation of the multiple non-linear regression model for estimating the size of open source Java-based applications based on the multivariate normalizing transformation. A four-factor non-linear regression model to estimate the size of open source Java-based applications is constructed on the basis of the Johnson five-variate normalizing transformation for SB family of the non-Gaussian data set from 38 applications hosted on GitHub (https://github.com). The data set was obtained using the CK tool (https://github.com/mauricioaniche/ck). The model is built around the metrics (variables) of class diagram: number of classes (Classes), number of static methods (NOSM), a measure of the number of response abilities of classes (Lack of Cohesion of Methods, LCOM), number of unique method invocations in a classes (the Response for Class, RFC). Comparison of the constructed model with the linear model and non-linear regression model based on the Johnson univariate transformation has been performed. In comparison with other linear regression models both linear and non-linear models based on the univariate normalizing transformations, constructed model has larger values of multiple coefficient of determination and the percentage of prediction at the level of magnitude of relative error, which equals 0.25, smaller values of the mean magnitude of relative error and width of the prediction intervals of non-linear regression. This may be explained best multivariate normalization and the fact that there is no reason to reject the null hypothesis that the four-variate distribution for normalized data, which normalized by the Johnson five-variate transformation for SB family, is the same as the four-variate normal distribution. The practical significance of obtained results is that the software realizing the constructed model is developed in the sci-language for Scilab. The experimental results allow to recommend the constructed model for use in practice. Prospects for further research may include the application of other multivariate normalizing transformations and data sets to construct the multiple non-linear regression model for estimating the size of open source Java-based applications

    Математична модель для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java, та створення програми для її реалізації

    Смикодуб, Т. Г. Математична модель для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java, та створення програми для її реалізації = A mathematical model for checking interconnections between parts of the applications developed in Java and creating the software for its implementation : магістерська робота ; спец. 121 "Інженерія програмного забезпечення" / Т. Г. Смикодуб ; наук. кер. С. Б. Приходько. – Миколаїв : НУК, 2021. – 124 с.Кваліфікаційна робота на здобуття ступеня вищої освіти магістр зі спеціальності 121 "Інженерія програмного забезпечення" (ОП "Інженерія програмного забезпечення"). Національний університет кораблебудування імені адмірала Макарова. Миколаїв, 2021 р. Обсяг роботи: 123 стор., 17 табл., 19 рис., 52 використаних джерел, 5 додатків. Актуальність теми роботи: За статистикою біля 78% компаній широко використовують програмне забезпеченняз відкритим вихідним кодом. Згідно звіту Coverity Scan-Open Source Report 2017, аналіз ПЗ дозволив виявити аномалії та дефектиу багатьох найважливіших проектахіз відкритим кодом. Тому удосконалення існуючих моделей для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java, є актуальним задачею та представляє науково-практичний інтерес. Мета та завдання дослідження. Метоює підвищення достовірності визначення аномалій у взаємозв’язках між частинами застосунків, що розроблені мовою Java, з точки зору об’єктно-орієнтовного проектування за рахунок побудови трансформованого еліпсу передбачення. Завдання дослідження: провести аналіз існуючих засобів та моделей перевірки взаємозв'язків Java-застосунків; удосконалити математичну модель для перевірки взаємозв'язків Java-застосунків за рахунок побудови рівняння трансформованого еліпсу передбачення для нормалізованих даних; розробити ПЗ для перевірки взаємозв'язків застосунків, реалізованих мовою Java. Об’єктом дослідження є процес перевіркивзаємозв'язків між частинами застосунків, що розроблені мовою Java. Предмет дослідження: математичні моделі для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java. Методи дослідження. Для вирішення поставлених завдань в роботі були застосовані методи математичної статистики, теорії ймовірностей та регресійного аналізу. Наукова новизна одержаних результатів: полягає в удосконаленні існуючої математичної моделі для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java, за рахунок використання трансформованого еліпсу передбачення, побудованого на основі двовимірного нормалізуючого перетворення Джонсона сім’ї Sb. Це дозволяє підвищити достовірність визначення аномалій у взаємозв’язках між частинами застосунків. Практичне значення отриманих результатів. Розроблене ПЗ для перевірки взаємозв'язків між частинами застосунків, що розроблені мовою Java, дозволяє визначити аномалії у взаємозв'язках між частинами застосунків, забезпечує зберігання результатів визначення, а також надає користувачу швидкий доступ до попередніх результатів. Апробація результатів досліджень: результати досліджень пройшли апробацію на ІІ Всеукраїнської науково-практичної Інтернет конференції "Інформаційні технології: моделі, алгоритми, системи" (м. Миколаїв, 26 – 28 жовтня 2021 р.). Публікації: результати роботи викладено у 1 науковій праці – тезах конференції.The qualification work for the degree of higher education Master's degree inspecialty 121 – "Software Engineering" (EP "Software Engineering"). Admiral Makarov National University of Shipbuilding. Mykolaiv, 2021 The qualification work is presented on the 123 pages of typewritten text, contains 17 tables, 19 figures, 5 appendices and 52 references. Relevance of the topic of the work. According to statistics, about 78% of companies widely use Open Source Software. According to the Coverity Scan-Open Source Report 2017, the software analysis revealed anomalies and defects in many of the most important open source projects. Therefore, the improvement of existing models for checking the relationships between parts of the applications developed in Java is an urgent task and is of scientific and practical interest. The purpose and objectives of the study. The aim is to increase the reliability of the definition of anomalies in the relationships between the parts of applications developed in Java, in terms of object-oriented design by building a transformed prediction ellipse. Objectives of the study: to analyze the existing tools and models for verifying the relationship of Java-applications; to improve the mathematical model for checking the relationships of Java-applications by constructing the equation of the transformed prediction ellipse for normalized data; develop software for checking the relationships of applications developed in Java. The object of the study is the process of checking the relationships between parts of applications developed in Java. The subject of the study is mathematical models for checking interconnections between parts of the applications developed in Java. Research methods. Methods of probability theory, mathematical statistics, and regression analysis were used to solve the tasks. The scientific novelty of the obtained results is to improve the existing mathematical model for checking the relationships between parts of applications developed in Java, using a transformed prediction ellipse based on the bivariate normalizing Johnson transformation of the Sb family. This increases the reliability of detecting anomalies in the relationships between parts of the application. The practical significance of the results obtained. The developed software for checking the relationships between parts of applications developed in Java, allows to identify anomalies in the relationships between parts of the application, provides storage of the results of the definition, and provides the user with quick access to previous results. Approbation of research results: research results were tested at the II All-Ukrainian scientific-practical Internet conference "Information technologies: models, algorithms, systems" (Mykolaiv, October 26 – 28, 2021). Publications: results of the work are presented in 1 scientific paper – conference abstracts

    Constructing non-linear regression equations on the basis of bivariate normalizing transformations

    Constructing non-linear regression equations on the basis of bivariate normalizing transformations = Побудова нелінійних регресійних рівнянь на основі двомірних нормалізуючих перетворень / S. B. Prykhodko, N.V. Prykhodko, L. M. Makarova, O. O. Kudin, T. G. Smykodub // Вісн. ХНТУ. – Херсон : ХНТУ, 2017. – № 3 (62), т. 1. – С. 333–337.Запропоновано методи побудови рівнянь, довірчих інтервалів та інтервалів передбачення нелінійних регресій на основі двомірних нормалізуючих перетворень для негаусовських даних. Застосування методів розглядається для одного набору двомірних негаусовських даних: для фактичної трудомісткості (години) і розміру (скориговані функціональні точки) зі 133 проектів з підтримки та розробки програмного забезпечення.The techniques for constructing equations, confidence and prediction intervals of non-linear regressions on the basis of bivariate normalizing transformations for non-Gaussian data are proposed. Application of the techniques is considered for the bivariate non-Gaussian data set: actual effort (hours) and size (adjusted function points) from 133 maintenance and development software projects.Предложены методы построения уравнений, доверительных интервалов и интервалов предсказания нелинейных регрессий на основе двумерных нормализующих преобразований для негауссовских данных. Применение методов рассматривается для одного набора двумерных негауссовских данных: для фактической трудоемкости (часы) и размера (скорректированные функциональные точки) из 133 проектов по поддержке и разработке программного обеспечения