Информатика и автоматизация
Not a member yet
    1281 research outputs found

    Распределение мощности в беспроводной сотовой системе с применением графовой сети внимания

    No full text
    The importance of an efficient network resource allocation strategy has grown significantly with the rapid advancement of cellular network technology and the widespread use of mobile devices. Efficient resource allocation is crucial for enhancing user services and optimizing network performance. The primary objective is to optimize the power distribution method to maximize the total aggregate rate for all customers within the network. In recent years, graph-based deep learning approaches have shown great promise in addressing the challenge of network resource allocation. Graph neural networks (GNNs) have particularly excelled in handling graph-structured data, benefiting from the inherent topological characteristics of mobile networks. However, many of these methodologies tend to focus predominantly on node characteristics during the learning phase, occasionally overlooking or oversimplifying the importance of edge attributes, which are equally vital as nodes in network modeling. To tackle this limitation, we introduce a novel framework known as the Heterogeneous Edge Feature Enhanced Graph Attention Network (HEGAT). This framework establishes a direct connection between the evolving network topology and the optimal power distribution strategy throughout the learning process. Our proposed HEGAT approach exhibits improved performance and demonstrates significant generalization capabilities, as evidenced by extensive simulation results.С быстрым развитием технологии сотовых сетей и распространением мобильных устройств эффективная политика распределения сетевых ресурсов становится все более важной для улучшения пользовательских услуг и производительности сети. Наша цель – максимизировать суммарную мощность всех пользователей сети путем нахождения оптимальной схемы распределения мощности. В последние годы методы глубокого обучения на основе графов продемонстрировали большой потенциал для решения проблемы распределения сетевых ресурсов. Из-за топологической природы мобильных сетей графовые нейронные сети (GNN) могут лучше работать с данными, структурированными в виде графов. Однако большинство из этих методов фокусируются только на узловых функциях в процессе обучения и часто игнорируют или упрощают граничные функции, которые играют не менее важную роль, чем узлы. Чтобы решить эту проблему, мы предлагаем дизайн сети с расширенным графическим вниманием (HEGAT), который напрямую связывает изменяющуюся топологию сети и наилучший способ распределения мощности во время обучения. Обширные результаты моделирования подтверждают превосходную производительность и надежные возможности обобщения, демонстрируемые предлагаемой методологией HEGAT

    Построение модели онлайн-обучения с помощью видео по распознаванию танцев, основанного на глубоком обучении

    No full text
    Jumping motion recognition via video is a significant contribution because it considerably impacts intelligent applications and will be widely adopted in life. This method can be used to train future dancers using innovative technology. Challenging poses will be repeated and improved over time, reducing the strain on the instructor when performing multiple times. Dancers can also be recreated by removing features from their images. To recognize the dancers’ moves, check and correct their poses, and another important aspect is that our model can extract cognitive features for efficient evaluation and classification, and deep learning is currently one of the best ways to do this for short-form video features capabilities. In addition, evaluating the quality of the performance video, the accuracy of each dance step is a complex problem when the eyes of the judges cannot focus 100% on the dance on the stage. Moreover, dance on videos is of great interest to scientists today, as technology is increasingly developing and becoming useful to replace human beings. Based on actual conditions and needs in Vietnam. In this paper, we propose a method to replace manual evaluation, and our approach is used to evaluate dance through short videos. In addition, we conduct dance analysis through short-form videos, thereby applying techniques such as deep learning to assess and collect data from which to draw accurate conclusions. Experiments show that our assessment is relatively accurate when the accuracy and F1-score values are calculated. More than 92.38% accuracy and 91.18% F1-score, respectively. This demonstrates that our method performs well and accurately in dance evaluation analysis.Распознавание движений при прыжках с помощью видео является значительным вкладом, поскольку оно значительно влияет на интеллектуальные приложения и будет широко применяться в жизни. Этот метод может быть использован для обучения будущих танцоров с использованием инновационных технологий. Сложные позы будут повторяться и совершенствоваться с течением времени, что снизит нагрузку на инструктора при многократном выполнении. Танцоров также можно воссоздать, удалив элементы из их изображений. Распознавать движения танцоров, проверять и корректировать их позы, и еще одним важным аспектом является то, что наша модель может извлекать когнитивные функции для эффективной оценки и классификации, а глубокое обучение в настоящее время является одним из лучших способов сделать это для возможностей коротких видеороликов. Кроме того, при оценке качества видеозаписи выступления точность выполнения каждого танцевального шага является сложной проблемой, когда глаза судей не могут на 100% сфокусироваться на танце на сцене. Более того, танцы на видео сегодня представляют большой интерес для ученых, поскольку технологии все больше развиваются и становятся полезными для замены людей. Основываясь на реальных условиях и потребностях Вьетнама. В этой статье мы предлагаем метод, заменяющий ручную оценку, и наш подход используется для оценки танца с помощью коротких видеороликов. Кроме того, мы проводим танцевальный анализ с помощью коротких видеороликов, применяя таким образом такие методы, как глубокое обучение, для оценки и сбора данных, на основе которых можно делать точные выводы. Эксперименты показывают, что наша оценка является относительно точной, когда рассчитываются значения точности и F1-балла. Точность составляет более 92,38% и 91,18% F1-балла соответственно. Это демонстрирует, что наш метод хорошо и точно работает при анализе оценки танца

    Методика обеспечения функциональной устойчивости системы связи за счет выявления конфликтов

    Get PDF
    Introduction: Modern complex technical systems are often critical. Criticality is due to the consequences of disruption of the functioning of such systems, and their failure to fulfill the required list of functions and tasks. The process of control and management of such systems is carried out using communication systems and networks that become critical for them. There is a need to ensure the stable functioning of the complex technical systems themselves, their control and monitoring systems, communication systems and networks. The paper proposes a method for ensuring the functional stability of a communication system, the basis of which is the process of identifying and eliminating conflicts in it due to the difference between the profile of functioning and the profile of the process of functioning of the system. The proposed model of the process of functioning of the communication system allows, based on changes in the intensity of the impact on the system of destabilizing factors, the identification of conflicts and their elimination, to determine the probability of ensuring the functional stability of the system. The purpose of the study: to develop a methodology for ensuring the functional stability of a communication system under the influence of destabilizing factors and the emergence of conflicts, a model of the process of the system's functioning, which makes it possible to determine the probability of the system being in a functionally stable state. Methods of graph theory and matrix theory, the theory of Markov processes. Results: an approach is proposed for assessing the functional stability of a communication system under the influence of destabilizing factors, a technique has been developed to ensure the functional stability of a communication system. Practical significance: the results of the study can be used in the design and construction of complex technical systems, decision support systems, control, communication and management.Введение: Современные сложные технические системы часто бывают критически важными. Критичность обусловлена последствиями нарушения функционирования таких систем, не выполнением ими требуемого перечня функций и задач. Процесс контроля и управления такими системами осуществляется с использованием систем и сетей связи, которые становятся для них критичными. Возникает потребность в обеспечении устойчивого функционирования, как самих сложных технических систем, так и их систем управления, контроля, систем и сетей связи. В работе предложена методика обеспечения функциональной устойчивости системы связи, основой которой является процесс выявления и устранения в ней конфликтов, обусловленных отличием профиля функционирования и профиля процесса функционирования системы. Предложенная модель процесса функционирования системы связи позволяет на основе анализа интенсивностей воздействия дестабилизирующих факторов на систему, выявления конфликтов и их устранения, определить вероятность обеспечения функциональной устойчивости системы. Цель исследования: разработка методики обеспечения функциональной устойчивости системы связи в условиях воздействия дестабилизирующих факторов и возникновения конфликтов, а также модели процесса функционирования системы связи, позволяющей определять вероятность нахождения системы в функционально устойчивом состоянии. Методы теории графов и теории матриц, теории Марковских процессов. Результаты: предложена модель процесса функционирования системы связи в условиях воздействия дестабилизирующих факторов, позволяющая определять вероятность нарушения функционирования системы, разработана методика обеспечения функциональной устойчивости системы связи. Практическая значимость: результаты исследования могут быть использованы при проектировании и построении сложных технических систем, а также в системах поддержки принятия решений, контроля, связи и управления

    Оценивание информативности признаков в наборах данных для проведения продлённой аутентификации

    Get PDF
    Continuous verification eliminates the flaws of existing static authentication, e.g. identifiers can be lost or forgotten, and the user logs in the system only once, which may be dangerous not only for areas requiring a high level of security but also for a regular office. Checking the user dynamically during the whole session of work can improve the security of the system, since while working with the system, the user may be exposed to an attacker (to be assaulted for example) or intentionally transfer rights to him. In this case, the machine will not be operated by the user who performed the initial login. Classifying users continuously will limit access to sensitive data that can be obtained by an attacker. During the study, the methods and datasets used for continuous verification were checked, then some datasets were chosen, which were used in further research: smartphone and smart watch movement data (WISDM) and mouse activity (Chao Shen’s, DFL, Balabit). In order to improve the performance of models in the classification task it is necessary to perform a preliminary selection of features, to evaluate their informativeness. Reducing the number of features makes it possible to reduce the requirements for devices that will be used for their processing, and to increase the volume of enumeration of classifier parameter values at the same time, thereby potentially increasing the proportion of correct answers during classification due to a more complete enumeration of value parameters. For the informativeness evaluation, the Shannon method was used, as well as the algorithms built into programs for data analysis and machine learning (WEKA: Machine Learning Software and RapidMiner). In the course of the study, the informativeness of each feature in the selected datasets was evaluated, and then users were classified with RapidMiner. The used in classifying features selection was decreased gradually with a 20% step. As a result, a table was formed with recommended sets of features for each dataset, as well as dependency graphs of the accuracy and operating time of various models.Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков

    Модель функционирования канала спутниковой связи в условиях эпизодической синхронизации с потоками импульсных помех

    Get PDF
    The article investigates the effect of pulse interference on information reception in conditions of episodic synchronization of frames of the physical level of a satellite communication channel with streams of radio pulses of unintended interference. An analytical model of the influence of pulse interference on the reception of information in a satellite communication channel under conditions of episodic synchronization of physical-level frames with pulse interference streams is proposed. Using the example of the DVB family of standards, the combined effect of noise and unintended impulse interference on the conditional error probabilities when receiving a synchro group, the service part of the header and the information part of the frame is shown. Estimates of the average number of frames of the physical level for the duration of the interval of episodic synchronization, the number of intervals of episodic synchronization and the proportion of elementary parcels in the frame exposed to interference, depending on the duration of the pulse interference, are given. It is shown that there are such relations between the duration of the interference pulse and the continuity of the sequence, in which the phenomenon of the episodic synchronization of physical-level frames with the flow of pulse interference has a significant impact on the functioning of the satellite communication channel. The dependences of the probability of erroneous reception of a frame of the physical level of a satellite communication channel on the signal-to-interference ratio at the fixed signal-to-noise ratio and on the duration of the interference pulse are obtained. It has been found that at high signal-to-noise ratios and the duration of the interference correlated with the duration of the service part of the frame, but significantly less than the duration of the frame, the probability of erroneous reception of the frame may be higher than at lower signal-to-noise ratios due to errors when receiving the service part of the frames.В статье исследуется влияние непреднамеренных импульсных помех на прием информации в условиях эпизодической синхронизации кадров физического уровня канала спутниковой связи с потоками импульсов помех. Предложена аналитическая модель влияния непреднамеренных импульсных помех на прием информации в спутниковом канале связи в условиях эпизодической синхронизации кадров физического уровня с потоками импульсных помех. На примере стандарта DVB-S2 показано совместное влияние шума и непреднамеренных импульсных помех на условные вероятности ошибок при приеме синхрогруппы, служебной части заголовка и информационной части кадра. Приведены оценки среднего числа кадров физического уровня на длительности интервала эпизодической синхронизации, числа интервалов эпизодической синхронизации и доли элементарных посылок в кадре, подвергшихся воздействию помехи, в зависимости от скважности импульсной помехи. Показано, что существуют такие соотношения между длительностью импульса помехи и скважностью ее следования, при которых явление эпизодической синхронизации кадров физического уровня с потоком импульсных помех оказывает существенное влияние на функционирование канала спутниковой связи. Получены зависимости вероятности ошибочного приема кадра физического уровня канала спутниковой связи от отношения сигнал/помеха при фиксированном отношении сигнал/шум и от длительности импульса помехи. Установлено, что при высоких отношениях сигнал/помеха и длительности помехи, соотносимой с длительностью служебной части кадра, но значительно меньше длительности кадра, вероятность ошибочного приема кадра может быть выше, чем при более низких отношениях сигнал/помеха за счет ошибок при приеме служебной части кадров

    Метод расчета коэффициентов компетентности участников группового принятия решений для выбора наилучшей альтернативы при мультивариантности результата

    Get PDF
    The problem of obtaining the best alternative using decision-making methods based on the experience of specialists and mathematical calculations is considered in the article. Group decision-making is appropriate for solving this problem. However, it can lead to the selection of several best alternatives (multivariate of the result). Accounting for competence will prioritize the decision of more competent participants and eliminate the emergence of several best alternatives in the process of group decision-making. The problem of determining the competence coefficients for participants in group decision-making has been formulated. The selection of the best alternative with the multivariate of the result is provided in the problem. A method for solving the problem has been developed. It involves discretizing the range of input variables and refining the competence coefficients values of group decision-making participants in it to select the best alternative, either by the majority principle or with the decision-maker’s involvement. Further calculation of the competence coefficients for participants in group decision-making is carried out using local linear interpolation of the refined competence coefficient at surrounding points from the discretized range. The use of the proposed method for solving the problem is considered using the example of group decision-making according to the main types of the majoritarian principle for selecting an electrodeposition variant. The results show that the proposed method for calculating the competence coefficients of participants in group decision-making through local linear interpolation is the most effective for selecting the best alternative with a multivariate result based on the relative majority.В работе рассматривается проблема получения наилучшей альтернативы с помощью методов принятия решений, основанных на опыте специалиста и математических расчетов. Для решения данной проблемы подходит групповое принятие решений, однако оно может привести к выбору нескольких наилучших альтернатив (мультивариантности результата). Учет компетентности позволит отдать приоритет решению более компетентных участников и устранить возникновение нескольких наилучших альтернатив в процессе группового принятия решений. Сформулирована задача определения коэффициентов компетентности для участников группового принятия решений, которые обеспечивают выбор наилучшей альтернативы при мультивариантности результата. Разработан метод решения поставленной задачи, который включает в себя дискретизацию диапазона изменения входных переменных и уточнение в нем значений коэффициентов компетентности участников группового принятия решений. Уточнение выполняется с использованием либо мажоритарного принципа, либо с помощью лица, принимающего решение. Последующее вычисление коэффициентов компетентности для участников группового принятия решений осуществляется при помощи локальной линейной интерполяции уточненного коэффициента компетентности в окружающих точках из дискретизированного диапазона. Использование предложенного метода решения поставленной задачи рассмотрено на примере группового принятия решений по основным разновидностям мажоритарного принципа для выбора варианта технологического процесса нанесения гальванического покрытия. В результатах показано, что предложенный метод расчета коэффициентов компетентности участников группового принятия решений через локальную линейную интерполяцию является наиболее эффективным для выбора наилучшей альтернативы при мультивариантности результата по мажоритарному принципу относительного большинства

    Итеративная настройка параметров моделей на основе древовидных ансамблей с использованием байесовской оптимизации для прогнозирования рака молочной железы

    No full text
    The study presents a method for iterative parameter tuning of tree ensemble-based models using Bayesian hyperparameter tuning for states prediction, using breast cancer as an example. The proposed method utilizes three different datasets, including the Wisconsin Diagnostic Breast Cancer (WDBC) dataset, the Surveillance, Epidemiology, and End Results (SEER) breast cancer dataset, and the Breast Cancer Coimbra dataset (BCCD), and implements tree ensemble-based models, specifically AdaBoost, Gentle-Boost, LogitBoost, Bag, and RUSBoost, for breast cancer prediction. Bayesian optimization was used to tune the hyperparameters of the models iteratively, and the performance of the models was evaluated using several metrics, including accuracy, precision, recall, and f1-score. Our results show that the proposed method significantly improves the performance of tree ensemble-based models, resulting in higher accuracy, precision, recall, and f1-score. Compared to other state-of-the-art models, the proposed method is more efficient. It achieved perfect scores of 100% for Accuracy, Precision, Recall, and F1-Score on the WDBC dataset. On the SEER BC dataset, the method achieved an accuracy of 95.9%, a precision of 97.6%, a recall of 94.2%, and an F1-Score of 95.9%. For the BCCD dataset, the method achieved an accuracy of 94.7%, a precision of 90%, a recall of 100%, and an F1-Score of 94.7%. The outcomes of this study have important implications for medical professionals, as early detection of breast cancer can significantly increase the chances of survival. Overall, this study provides a valuable contribution to the field of breast cancer prediction using machine learning.Представлен метод итеративной настройки параметров моделей на основе ансамблей деревьев с использованием настройки байесовских гиперпараметров для прогнозирования состояний на примере рака молочной железы. Предлагаемый метод использует три различных набора данных, в том числе набор данных по диагностическому раку молочной железы Висконсина (WDBC), набор данных по надзору, эпидемиологии и конечным результатам (SEER) по раку молочной железы и набор данных по раку молочной железы в Коимбре (BCCD), а также реализует набор данных на основе древовидных ансамблей. Модели, в частности AdaBoost, Gentle-Boost, LogitBoost, Bag и RUSBoost, для прогнозирования рака молочной железы. Байесовская оптимизация использовалась для итеративной настройки гиперпараметров моделей, а производительность моделей оценивалась с использованием нескольких показателей, включая точность, прецизионность, полноту и оценку f1. Наши результаты показывают, что предложенный метод значительно повышает производительность моделей на основе ансамблей деревьев, что приводит к более высокой точности, прецизионности, полноте и оценке f1. По сравнению с другими современными моделями предлагаемый метод более эффективен. Он достиг 100% идеальных результатов по точности, прецизионности, полноте и оценке F1 в наборе данных WDBC. В наборе данных SEER BC точность метода составила 95,9%, прецизионность 97,6%, полнота 94,2% и оценка F1 95,9%. Для набора данных BCCD метод достиг точности 94,7%, прецизионности 90%, полноты 100% и оценки F1 94,7%. Результаты этого исследования имеют важное значение для медицинских работников, поскольку раннее выявление рака молочной железы может значительно повысить шансы на выживание. В целом, это исследование вносит ценный вклад в область прогнозирования рака молочной железы с использованием машинного обучения

    Система анализа тональности текста на телугу на основе нового пассивно-агрессивного классификатора с нечетким взвешиванием

    No full text
    Natural language processing (NLP) is a subset of artificial intelligence demonstrating how algorithms can interact with individuals in their unique languages. In addition, sentiment analysis in NLP is better in numerous programs, including evaluating sentiment in Telugu. Several unsupervised machine-learning algorithms, such as k-means clustering with cuckoo search, are used to detect Telugu text. However, these techniques struggle to cluster data with variable cluster sizes and densities, slow search speeds, and poor convergence accuracy. This study developed a unique ML-based sentiment analysis system for Telugu text to address the shortcomings. Initially, in the pre-processing stage, the proposed Linear Pursuit Algorithm (LPA) removes words in white spaces, punctuation, and stops. Then, for POS tagging, this research proposed a Conditional Random Field with Lexicon weighting; following that, a Contrived Passive Aggressive with Fuzzy Weighting Classifier (CPSC-FWC) is proposed to classify the sentiments in Telugu text. Consequently, the method we propose produces efficient outcomes in terms of accuracy, precision, recall, and f1-score.Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1

    Интеллектуальная схема распределения задач с учетом задержек вычислений в Edge-Fog-Cloud – обзор

    No full text
    The huge volume of data produced by IoT procedures needs the processing power and space for storage provided by cloud, edge, and fog computing systems. Each of these ways of computing has benefits as well as drawbacks. Cloud computing improves the storage of information and computational capability while increasing connection delay. Edge computing and fog computing offer similar advantages with decreased latency, but they have restricted storage, capacity, and coverage. Initially, optimization has been employed to overcome the issue of traffic dumping. Conversely, conventional optimization cannot keep up with the tight latency requirements of decision-making in complex systems ranging from milliseconds to sub-seconds. As a result, ML algorithms, particularly reinforcement learning, are gaining popularity since they can swiftly handle offloading issues in dynamic situations involving certain unidentified data. We conduct an analysis of the literature to examine the different techniques utilized to tackle this latency-aware intelligent task offloading issue schemes for cloud, edge, and fog computing. The lessons acquired consequently, from these surveys are then presented in this report. Lastly, we identify some additional avenues for study and problems that must be overcome in order to attain the lowest latency in the task offloading system.Огромный объем данных, создаваемых процедурами Интернета вещей, требует вычислительной мощности и места для хранения, предоставляемого облачными, периферийными и туманными вычислительными системами. Каждый из этих способов вычислений имеет как преимущества, так и недостатки. Облачные вычисления улучшают хранение информации и вычислительные возможности, одновременно увеличивая задержку соединения. Периферийные и туманные вычисления предлагают аналогичные преимущества с уменьшенной задержкой, но имеют ограниченное хранилище, емкость и покрытие. Первоначально оптимизация применялась для решения проблемы сброса трафика. И наоборот, традиционная оптимизация не может удовлетворить жесткие требования к задержке принятия решений в сложных системах, варьирующейся от миллисекунд до долей секунды. В результате алгоритмы машинного обучения, особенно обучение с подкреплением, набирают популярность, поскольку они могут быстро решать проблемы разгрузки в динамических ситуациях, включающих определенные неопознанные данные. Мы проводим анализ литературы, чтобы изучить различные методы, используемые для решения этой интеллектуальной задачи по разгрузке задач с учетом задержек для облачных, периферийных и туманных вычислений. Уроки, полученные в результате этих исследований, затем представлены в настоящем отчете. Наконец, мы определяем некоторые дополнительные возможности для изучения и проблемы, которые необходимо преодолеть, чтобы достичь минимальной задержки в системе разгрузки задач

    Аналитический обзор методов автоматического анализа экстралингвистических компонентов спонтанной речи

    Get PDF
    The accuracy of automatic spontaneous speech recognition systems is far from that of trained speech recognition systems. This is due to the fact that spontaneous speech is not as smooth and failure-free as spontaneous speech. Spontaneous speech varies from speaker to speaker: the quality of phonemes’ pronunciation, the presence of pauses, speech disruptions and extralinguistic items (laughing, coughing, sneezing, and chuckling when expressing emotions of irritation, etc.) interrupt the fluency of verbal speech. However, it is worth noting that extralinguistic items very often carry important paralinguistic information, so it is crucial for automatic spontaneous speech recognition systems not only to identify such phenomena and distinguish them from the verbal components of speech but also to classify them. This review presents an analysis of works on the topic of automatic detection and analysis of extralinguistic items in spontaneous speech. Both individual methods and approaches to the recognition of extralinguistic items in a speech stream, and works related to the multiclass classification of isolatedly recorded extralinguistic units are considered and described. The most popular methods of extralinguistic units’ analysis are neural networks, such as deep neural networks and networks based on transformer models. The basic concepts related to the term extralinguistic items are given, the original systematization of extralinguistic items in the Russian language is proposed, the corpus and databases of audio spoken speech both in Russian and in other languages are described, the data sets of extralinguistic items recorded isolatedly are also given. The accuracy of extralinguistic items recognition increases with the following conditions of work with the speech signal: pre-processing of audio signals of items has shown an increase in the accuracy of separately recorded extralinguistic items classification; consideration of context (analysis of several frames of speech signal) and use of filters for smoothing the time series after extraction of feature vectors showed an increase in accuracy in frame-by-frame analysis of the speech signal with spontaneous speech.Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью

    1,159

    full texts

    1,281

    metadata records
    Updated in last 30 days.
    Информатика и автоматизация
    Access Repository Dashboard
    Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇