6 research outputs found

    Using Machine Learning Techniques to Increase the Effectiveness of Cybersecurity

    Get PDF
    In today's world, a great number of organizations generate and accumulate large amounts of information, which is of great value to owners, and is also considered by attackers as a valuable resource for enrichment. Any data storage system has vulnerabilities that will be exploited during cyberattacks. The inability to build a system secure enough against unauthorized access to data, forces companies to respond on an ongoing basis to evolving technologies of misappropriation of information by developing more effective methods of identifying and combating cyberattacks. This article examines the features of the use of machine learning methods to identify illegal access by third parties to the information of individuals and legal entities with economic and reputational damage. The study considers methods of processing various types of data (numerical values, textual information, video and audio content, images) that can be used to build an effective cybersecurity system. Obtaining a high level of identification of unauthorized access to data and combating their theft is possible through the implementation of modern machine learning approaches, which are constantly improving by creating innovative data processing algorithms and the use of powerful cloud computing services, acting as an element to counter rapidly evolving technologies

    Speech recognition of south China languages based on federated learning and mathematical construction

    Get PDF
    As speech recognition technology continues to advance in sophistication and computer processing power, more and more recognition technologies are being integrated into a variety of software platforms, enabling intelligent speech processing. We create a comprehensive processing platform for multilingual resources used in business and security fields based on speech recognition and distributed processing technology. Based on the federated learning model, this study develops speech recognition and its mathematical model for languages in South China. It also creates a speech dataset for dialects in South China, which at present includes three dialects of Mandarin and Cantonese, Chaoshan and Hakka that are widely spoken in the Guangdong region. Additionally, it uses two data enhancement techniques—audio enhancement and spectrogram enhancement—for speech signal characteristics in order to address the issue of unequal label distribution in the dataset. With a macro-average F-value of 91.54% and when compared to earlier work in the field, experimental results show that this structure is combined with hyperbolic tangent activation function and spatial domain attention to propose a dialect classification model based on hybrid domain attention

    Використання мікроконтролера Arduino для розпізнавання ключових слів

    Get PDF
    Використання нейронних мереж для розпізнавання інформації, зокрема голосу, розширює функціональні можливості вбудованих систем на мікроконтролерах. Але необхідно враховувати обмеження ресурсів мікроконтролера. Мета роботи – проаналізувати вплив параметрів обробки голосу та архітектури нейронної мережі на ступінь використання ресурсів мікроконтролера. Для цього створюється база даних зразків ключового слова, зразків інших слів і голосів, зразків шумів, оцінюється ймовірність розпізнавання ключового слова серед інших слів і шумів, залежність обсягу використовуваної пам'яті від мікроконтролера та встановлено час прийняття рішення від кількості коефіцієнтів MFC, а також встановлено залежність обсягу використаної пам’яті мікроконтролера та часу прийняття рішення від типу згорткової нейронної мережі. Під час експерименту використовувалася плата Arduino Nano 33 BLE Sense. Модель нейронної мережі була побудована та навчалась на програмній платформі Edge Impulse. Для проведення експерименту було створено три групи даних з назвами «hello», «невідомо», «шум». Група «hello» містить 94 приклади слова «hello» англійською мовою, вимовленого жіночим голосом. Група «невідомі» містить 167 прикладів інших слів, які вимовляються як жіночими, так і чоловічими голосами. Група «шум» містить 166 зразків шуму і випадкових звуків. Згідно з рекомендацією Edge Impulse, 80% зразків з кожної з груп даних використовувалися для навчання моделі нейронної мережі, а 20% зразків використовувалися для тестування. Аналіз результатів показує, що зі збільшенням кількості коефіцієнтів MFC і, відповідно, точності розпізнавання ключових слів, обсяг програмної пам’яті, зайнятої кодом, збільшується на 480 байт (менше 1%). Для мікроконтролера nRF52840 це не є значним збільшенням. Обсяг використовуваної оперативної пам'яті під час експерименту не змінився. Хоча час розрахунку точності визначення кодового слова збільшився лише на 14 мс (менше 5%) із збільшенням кількості коефіцієнтів MFC, процедура розрахунку досить тривала (приблизно 0,3 с) у порівнянні з довжиною звукової вибірки. 1 с. Це може бути певним обмеженням при обробці звукового сигналу 32-розрядними мікроконтролерами. Для аналізу фраз або речень необхідно використовувати більш потужні мікроконтролери або мікропроцесори. За результатами експериментальних досліджень можна стверджувати, що обчислювальних ресурсів 32-розрядних мікроконтролерів цілком достатньо для розпізнавання голосових команд з можливістю попередньої цифрової обробки звукового сигналу, зокрема використання низькочастотних кепстральних коефіцієнтів. Вибір числа коефіцієнтів суттєво не впливає на обсяг використовуваної FLASH і RAM пам'яті мікроконтролера nRF52840. Результати порівняння показують перевагу 2D мережі в точності визначення ключового слова як для 12, так і для 13 коефіцієнтів MFC. Використання одновимірної згорткової нейронної мережі для розпізнавання зразків голосу в проведеному експерименті забезпечує економію пам’яті приблизно на 5%. Якість розпізнавання ключового слова з числом коефіцієнтів MFC 12 становить приблизно 0,7. Для 17 коефіцієнтів MFC якість розпізнавання становить уже 0,97. Обсяг використовуваної оперативної пам'яті у випадку 2D мережі трохи зменшився. Час обробки вибірки голосу для обох типів мереж практично однаковий. Таким чином, одновимірні згорткові нейронні мережі мають певні переваги в додатках мікроконтролерів для обробки та розпізнавання голосу. Обмеженням розпізнавання голосу на мікроконтролері є досить великий час обробки звукового відліку (приблизно 0,3 с) при тривалості самого відліку 1 с, це можна пояснити досить низькою тактовою частотою 64 МГц. Збільшення тактової частоти зменшить час обчислення.The functional capabilities of embedded systems using microcontrollers are increased by the use of neural networks for information recognition, particularly speech recognition. However, it is important to consider the microcontroller's resource constraints. The goal of the work is to examine how the architecture of neural networks and voice processing parameters affect how much microcontroller resource is used. To achieve this, a database of samples of the keyword, samples of other words and voices, and samples of noise is created. The likelihood of recognizing the keyword among other words and noises is then assessed, and relationships between the amount of memory used by the microcontroller and the decision-making time on the number of MFC coefficients are established. The Arduino Nano 33 BLE Sense development board was employed throughout the experiment. The Edge Impulse software platform was used to create and train the neural network model. Three groups of data with the designations "hello," "unknown," and "noise" were constructed in order to carry out the experiment. There are 94 instances of the English word "hello" pronounced by a female voice in the "hello" group. There are 167 instances of additional words in the "unknown" group that are pronounced by both male and female voices. There are 166 samples of noise and random sounds in the "noise" group. 80% of the samples from each of the data groups were used to train the neural network model, and 20% of the samples from each data group were utilized for testing, as suggested by Edge Impulse. Analysis of the results shows that with an increase in the number of MFC coefficients and, accordingly, the accuracy of keyword recognition, the amount of program memory occupied by the code increases by 480 bytes (less than 1%). For the nRF52840 microcontroller, this is not a significant increase. The amount of RAM used during the experiment did not change. Although the calculation time of the accuracy of the code word definition increased by only 14 ms (less than 5%) with the increase in the number of MFC coefficients, the calculation procedure is quite long (approximately 0.3 s) compared to the sound sample length of 1 s. This can be a certain limitation when processing a sound signal with 32-bit microcontrollers. To analyze phrases or sentences, it is necessary to use more powerful microcontrollers or microprocessors. Based on the findings of experimental research, it can be concluded that 32-bit microcontrollers' computational capabilities are more than adequate for voice command recognition with the option of pre-digital sound signal processing, particularly the usage of low-frequency cepstral coefficients. The quantity of FLASH and RAM memory used by the nRF52840 microcontroller is unaffected by the choice of the coefficients' number. The comparison findings demonstrate the 2D network's superiority in terms of keyword definition precision for both 12 and 13 MFC coefficients. A one-dimensional convolutional neural network is used in the experiment to recognize voice samples, which results in a memory savings of about 5%. The effectiveness of keyword recognition with 12 MFC coefficients. When using 12 MFC coefficients, the quality of keyword recognition is roughly 0.7. The recognition quality for 17 MFC coefficients is already 0.97. In the case of the 2D network, less RAM is now being utilized. Both types of networks take essentially the same amount of time to process voice samples. As a result, 1D convolutional neural networks have some advantages in voice processing and recognition applications for microcontrollers. Voice recognition on the microcontroller is limited by the sufficiently low clock frequency of 64 MHz, which accounts for the sufficiently long processing time of the sound sample (about 0.3 s) with the sample duration itself being 1 s. The calculation time will be shortened by raising the clock frequency

    A Method of Speech Coding for Speech Recognition Using a Convolutional Neural Network

    No full text
    This work presents a new approach to speech recognition, based on the specific coding of time and frequency characteristics of speech. The research proposed the use of convolutional neural networks because, as we know, they show high resistance to cross-spectral distortions and differences in the length of the vocal tract. Until now, two layers of time convolution and frequency convolution were used. A novel idea is to weave three separate convolution layers: traditional time convolution and the introduction of two different frequency convolutions (mel-frequency cepstral coefficients (MFCC) convolution and spectrum convolution). This application takes into account more details contained in the tested signal. Our idea assumes creating patterns for sounds in the form of RGB (Red, Green, Blue) images. The work carried out research for isolated words and continuous speech, for neural network structure. A method for dividing continuous speech into syllables has been proposed. This method can be used for symmetrical stereo sound
    corecore