10 research outputs found

    Application of Clustering Algorithm CLOPE to the Query Grouping Problem in the Field of Materialized View Maintenance

    Get PDF
    In recent years, materialized views (MVs) are widely used to enhance the database performance by storing pre-calculated results of resource-intensive queries in the physical memory. In order to identify which queries may be potentially materialized, database transaction log for a long period of time should be analyzed. The goal of analysis is to distinguish resource-intensive and frequently used queries collected from database log, and optimize these queries by implementation of MVs. In order to achieve greater efficiency of MVs, they were used not only for the optimization of single queries, but also for entire groups of queries that are similar in syntax and execution results. Thus, the problem stated in this article is the development of approach that will allow forming groups of queries with similar syntax around the most resource-intensive queries in order to identify the list of potential candidates for materialization. For solving this problem, we have applied the algorithm of categorical data clustering to the query grouping problem on the step of database log analysis and searching candidates for materialization. In the current work CLOPE algorithm was modified to cover the introduced problem. Statistical and timing indicators were taken into account in order to form the clusters around the most resource intensive queries. Application of modified algorithm CLOPE allowed to decrease calculable complexity of clustering and to enhance the quality of formed groups

    Розробка інформаційної технології виділення термінів із документів на природній мові

    Get PDF
    It is shown that domain dictionaries are widely used at various stages of design and operation of software products. The process of dictionary development, especially term extraction, is very labor-intensive, requiring high qualification of the expert. Studies are conducted to identify the most important characteristics of multi-word terms (MWT), such as: the probability of the presence of terms containing different numbers of words in the document; arrangement of nouns in MWT; possible number of nouns in MWT. The context of the use of terms is analyzed and possible limits of terms in the text are identified. The procedure is proposed for preliminary document grouping, thus avoiding the “loss” of terms included in short documents. The dependence of errors of term extraction on the size of the analyzed document is determined.The mathematical model of term representation, based on the definition of the set of word chains grouped around a head-word – a noun is proposed. Filtration of chains is performed depending on the frequency of their occurrence in the text based on a comparison of normalized representations of MWT.Mechanisms for filling the domain dictionary with new records and adjusting existing ones in the process of analyzing the input document are developed. The solution to adjust the frequency of occurrence of terms based on the identification of inter-phrase relations is proposed. All processes and models are combined into a single information technology of construction of the domain dictionary. The problem of term interpretation is not considered in this paper, since it requires a separate solution. The software product allowing to automate substantially the process of term extraction from text documents is developed. The results of testing of the proposed solutions showed the absence of “lost terms” and, as a result, the reduction of the time of term extraction from texts of 10,000 words by 1.5 hours by freeing the expert from analyzing the original document. The research results can be used at various stages of design and operation of software productsПоказано, что словари предметных областей широко используются на различных этапах создания и эксплуатации программных продуктов. Процесс создания словаря, особенно, выделения терминов, весьма трудоемкий, требующий высокой квалификации эксперта. Проведены исследования по выявлению наиболее важных характеристик многословных терминов (МТ), таких как: вероятности присутствия в документе терминов, содержащих различное количество слов; расположение существительных в МТ; возможное количество существительных в МТ. Проанализирован контекст использования терминов и определены возможные границы терминов в тексте. Предложена процедура предварительной группировки документов, что позволяет избежать «потери» терминов, входящих в короткие документы. Определена зависимость ошибок при выделении терминов от размера анализируемого документа.Предложена математическая модель представления термина, основанная на определении множества цепочек слов, сгруппированных около опорного слова – существительного. Фильтрация цепочек производится в зависимости от частоты их вхождения в текст на основе сопоставления нормализованных представлений МТ.Разработаны механизмы заполнения словаря предметной области новыми записями и корректировки существующих по мере анализа входного документа. Предложено решение по корректировке частоты появления терминов на основе обнаружения межфразовых связей. Все процессы и модели объединены в единую информационную технологию создания словаря предметной области. Проблема определения толкований терминов в данной работе не рассматривается, поскольку требует отдельного решения. Разработан программный продукт, позволяющий в значительной степени автоматизировать процесс выделения терминов из текстовых документов. Результаты апробации предложенных решений показали отсутствие «утерянных терминов» и, как результат, сокращение времени выделения терминов из текстов объемом в 10000 слов на 1.5 часа за счет освобождения эксперта от анализа исходного документа. Результаты исследования могут быть использованы на различных этапах создания и эксплуатации программных продуктовПоказано, що словники предметних областей широко використовуються на різних етапах створення і експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, досить трудомісткий та вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників в багатослівних термінах; можливу кількість іменників в багатослівних термінах. Проаналізовано контекст використання термінів та визначено можливі межі термінів в тексті. Запропоновано процедуру попереднього групування документів, що дозволяє уникнути «втрати» термінів, що входять в короткі документи. Визначено залежність помилок при виділенні термінів від розміру аналізованого документа.Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова – іменника. Фільтрація ланцюжків виробляється в залежності від частоти їх входження в текст на основі зіставлення нормалізованих уявлень багатослівних термінів.Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на основі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів в даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що дозволяє в значній мірі автоматизувати процес виділення термінів з текстових документів. Результати апробації запропонованих рішень показали відсутність «загублених термінів» і, як результат, скорочення часу виділення термінів з текстів обсягом в 10000 слів на 1.5 години за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення і експлуатації програмних продукті

    Технологія управління матеріалізованими представленнями, заснованая на розпорядку роботи організацій

    No full text
    There are various software methods of increasing the productivity of informational systems based on using of relational data bases. One of them anticipates using of materialized views. Materialized views stores result of certain request to the data base and at following entry of this request to the informational systems allows getting answer very fast. However the practical use of materialized views in separate informational systems is impossible without preliminary study of this informational system. As materialized views is a result of request which uses number of data bases tables the refreshing of certain data in those tables leads to necessity of refreshing materialized views too. At frequent refreshing of data the using of materialized views could not increase but decrease the effectiveness of informational systems.In this book the periodical connection and disconnection of materialized views is offered. The basis for this is an evident periodicity in resolving of different tasks for the most of organizations.Предлагается информационная технология механизма управления периодически подключаемых материализованных представлений (МП), основанная на распорядке работы организации. Данный механизм управления включением / выключением материализованных представлений, привязываясь к часам рабочего дня/ дням недели / декаде /месяца позволяет увеличить эффективность использования материализованных представлений в информационных системах, которые используют реляционные системы управления базами данных.Пропонується інформаційна технологія механізму управління періодично підключаємих матеріалізованих представлень (МП), яка заснована на розпорядку роботи організацій. Даний механізм управління включенням / виключенням матеріалізованих представлень, прив'язуючись до часів робочого дня / днях тижня / декаді / місяця дозволяє збільшити ефективність використання матеріалізованих представлень в інформаційних системах, що використовують реляційні системи управління базами даних

    Розробка методики вибору матеріалізованих представлень у реляційних базах даних

    No full text
    The paper explores a problem of MV selection in the technology of automatic MV creation. An algorithm of query grouping on the basis of comparison of abstract syntax trees was proposed, which makes it possible to reduce the number of created MVs and reduce the total amount of physical resources required for its servicing.To solve the problem of MV selection out of the set of similar queries, a genetic algorithm was applied, which made it possible to distinguish the groups, for which a query execution efficiency increase by using MVs would be maximum while the maintenance cost would remain minimum.The objective function was proposed, which takes into account the ratio of the query execution efficiency increase by using created MVs to their maintenance cost. It helps to define which groups require MV creation and which of them should be created as virtual, as well as helps to define the queries within one group, which will form the next central query, on the basis of which the final MV can be created.Experimental data demonstrated that by using the proposed algorithm it is possible to obtain such a set of MVs, at which the maximum query execution efficiency at the lowest physical resources consumption for the servicing of these MVs is achieved.Рассматривается проблема выбора материализованных представлений (МП) в технологии автоматизированного создания МП. Предложена методика выбора МП, состоящая из двух этапов. Группировка запросов осуществляется посредством сравнения абстрактных синтаксических деревьев. Для выбора МП из множества групп однотипных запросов был применен генетический алгоритм. Предложена целевая функция, учитывающая стоимость выполнения запроса и стоимость обслуживания МП.Розглядається проблема вибору матеріалізованих представлень (МП) в технології автоматизованого створення МП. Запропонована методика вибору МП складається з двох етапів. Групування запитів здійснюється за допомогою порівняння абстрактних синтаксичних дерев. Для вибору МП з множини груп однотипних запитів був застосований генетичний алгоритм. Запропонована цільова функція, що враховує вартість виконання запиту і вартість обслуговування

    Розробка інформаційної технології виділення термінів із документів на природній мові

    No full text
    It is shown that domain dictionaries are widely used at various stages of design and operation of software products. The process of dictionary development, especially term extraction, is very labor-intensive, requiring high qualification of the expert. Studies are conducted to identify the most important characteristics of multi-word terms (MWT), such as: the probability of the presence of terms containing different numbers of words in the document; arrangement of nouns in MWT; possible number of nouns in MWT. The context of the use of terms is analyzed and possible limits of terms in the text are identified. The procedure is proposed for preliminary document grouping, thus avoiding the “loss” of terms included in short documents. The dependence of errors of term extraction on the size of the analyzed document is determined.The mathematical model of term representation, based on the definition of the set of word chains grouped around a head-word – a noun is proposed. Filtration of chains is performed depending on the frequency of their occurrence in the text based on a comparison of normalized representations of MWT.Mechanisms for filling the domain dictionary with new records and adjusting existing ones in the process of analyzing the input document are developed. The solution to adjust the frequency of occurrence of terms based on the identification of inter-phrase relations is proposed. All processes and models are combined into a single information technology of construction of the domain dictionary. The problem of term interpretation is not considered in this paper, since it requires a separate solution. The software product allowing to automate substantially the process of term extraction from text documents is developed. The results of testing of the proposed solutions showed the absence of “lost terms” and, as a result, the reduction of the time of term extraction from texts of 10,000 words by 1.5 hours by freeing the expert from analyzing the original document. The research results can be used at various stages of design and operation of software productsПоказано, что словари предметных областей широко используются на различных этапах создания и эксплуатации программных продуктов. Процесс создания словаря, особенно, выделения терминов, весьма трудоемкий, требующий высокой квалификации эксперта. Проведены исследования по выявлению наиболее важных характеристик многословных терминов (МТ), таких как: вероятности присутствия в документе терминов, содержащих различное количество слов; расположение существительных в МТ; возможное количество существительных в МТ. Проанализирован контекст использования терминов и определены возможные границы терминов в тексте. Предложена процедура предварительной группировки документов, что позволяет избежать «потери» терминов, входящих в короткие документы. Определена зависимость ошибок при выделении терминов от размера анализируемого документа.Предложена математическая модель представления термина, основанная на определении множества цепочек слов, сгруппированных около опорного слова – существительного. Фильтрация цепочек производится в зависимости от частоты их вхождения в текст на основе сопоставления нормализованных представлений МТ.Разработаны механизмы заполнения словаря предметной области новыми записями и корректировки существующих по мере анализа входного документа. Предложено решение по корректировке частоты появления терминов на основе обнаружения межфразовых связей. Все процессы и модели объединены в единую информационную технологию создания словаря предметной области. Проблема определения толкований терминов в данной работе не рассматривается, поскольку требует отдельного решения. Разработан программный продукт, позволяющий в значительной степени автоматизировать процесс выделения терминов из текстовых документов. Результаты апробации предложенных решений показали отсутствие «утерянных терминов» и, как результат, сокращение времени выделения терминов из текстов объемом в 10000 слов на 1.5 часа за счет освобождения эксперта от анализа исходного документа. Результаты исследования могут быть использованы на различных этапах создания и эксплуатации программных продуктовПоказано, що словники предметних областей широко використовуються на різних етапах створення і експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, досить трудомісткий та вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників в багатослівних термінах; можливу кількість іменників в багатослівних термінах. Проаналізовано контекст використання термінів та визначено можливі межі термінів в тексті. Запропоновано процедуру попереднього групування документів, що дозволяє уникнути «втрати» термінів, що входять в короткі документи. Визначено залежність помилок при виділенні термінів від розміру аналізованого документа.Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова – іменника. Фільтрація ланцюжків виробляється в залежності від частоти їх входження в текст на основі зіставлення нормалізованих уявлень багатослівних термінів.Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на основі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів в даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що дозволяє в значній мірі автоматизувати процес виділення термінів з текстових документів. Результати апробації запропонованих рішень показали відсутність «загублених термінів» і, як результат, скорочення часу виділення термінів з текстів обсягом в 10000 слів на 1.5 години за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення і експлуатації програмних продукті

    Розробка методів попередньої кластерізації та віртуального об'єднання коротких документів для побудови словників предметної області

    No full text
    The aim of research is to improve the quality of domain dictionaries by expanding the corpus of the documents under study by using short documents. A document model is proposed that allows to define a short document and the need to combine it with other documents to highlight verbose terms. An algorithm for highlighting the substantive part of the document has been developed, since in a short document the heading and closing parts usually contain terms that are not related to the studied domain. A method for preliminary clustering of short documents to highlight verbose terms has been developed. The method is based on highlighting and counting occurrences of nouns (one-word terms) for all analyzed documents. The concept of document proximity is introduced, which is determined by the combination of two criteria: the relative number of matching terms and the relative frequency of occurrence of matching terms. The principle of grouping documents at the customer's site often does not correspond to the principles of grouping necessary for building a dictionary of the domain. In a short document, it is usually impossible to isolate a verbose term because the repetition of terms is very low. A method has been developed for virtual combining of short documents based on the principle of achieving the necessary repeatability of one-word terms. The merged document has the highest possible frequency of terms for the cluster it belongs to. At the same time, the original text of documents is preserved and the ability to associate the selected verbose term with those documents in which it is included. The experiment made it possible to find the best ratio for the elements of the document proximity coefficient and confirm the effectiveness of the proposed preliminary clustering methodЦелью исследования является повышение качества словарей предметной области путем расширения корпуса исследуемых документов за счет коротких документов. Предложена модель документа, которая позволяет определить короткий документ и необходимость его объединения с другими документами для выделения многословных терминов. Разработан алгоритм выделения содержательной части документа, поскольку в коротком документе обычно заголовочная и заключительная части содержат термины, не относящиеся к исследуемой предметной области. Разработан метод предварительной кластеризации коротких документов для выделения многословных терминов. Метод основан на выделении и подсчете вхождений существительных (однословных терминов) для всех анализируемых документов. Введено понятие близости документов, которое определяется по совокупности двух критериев: относительному количеству совпадающих терминов и относительной частоте появления совпадающих терминов. Принцип группировки документов у заказчика часто не соответствует принципам группировки, необходимым для построения словаря предметной области. В коротком документе обычно невозможно выделить многословный термин, поскольку повторяемость терминов очень низкая. Разработан метод виртуального объединения коротких документов по принципу достижения необходимой повторяемости однословных терминов. Объединенный документ имеет максимально возможную частоту терминов для кластера, в который он входит. Одновременно сохраняется исходный текст документов и возможность связать выделенный многословный термин с теми документами, в которые он входит. Эксперимент позволил найти наилучшее соотношение для элементов коэффициента близости документов и подтвердить эффективность предложенного метода предварительной кластеризацииМетою дослідження є підвищення якості словників предметної області шляхом розширення корпусу досліджуваних документів за рахунок коротких документів. Запропоновано модель документа, що дозволяє визначити короткий документ і необхідність його об'єднання з іншими документами для виділення багатослівних термінів. Розроблено алгоритм виділення змістовної частини документа, оскільки в короткому документі звичайно заголовна й заключна частини містять терміни, що не відносяться до досліджуваної предметної області. Розроблено метод попередньої кластерізації коротких документів для виділення багатослівних термінів. Метод заснований на виділенні й підрахунку входжень іменників (однослівних термінів) для всіх аналізованих документів. Уведено поняття близькості документів, що визначається по сукупності двох критеріїв: відносній кількості співпадаючих термінів і відносній частоті появи співпадаючих термінів. Принцип угруповання документів у замовника часто не відповідає принципам угруповання, необхідним для побудови словника предметної області. У короткому документі звичайно неможливо виділити багатослівний термін, оскільки повторюваність термінів дуже низька. Розроблено метод віртуального об'єднання коротких документів за принципом досягнення необхідної повторюваності однослівних термінів. Об'єднаний документ має максимально можливу частоту термінів для кластера, у який він входить. Одночасно зберігається вихідний текст документів і можливість зв'язати виділений багатослівний термін з тими документами, у які він входить. Експеримент дозволив знайти найкраще співвідношення для елементів коефіцієнта близькості документів і підтвердити ефективність запропонованого методу попередньої кластерізаці

    Materialized Views Management Technology Based on Work Schedule of Organizations

    Full text link
    There are various software methods of increasing the productivity of informational systems based on using of relational data bases. One of them anticipates using of materialized views. Materialized views stores result of certain request to the data base and at following entry of this request to the informational systems allows getting answer very Fast. However the practical use of materialized views in separate informational systems is impossible without preliminary study of this informational system. As materialized views is a result of request which uses number of data bases tables the refreshing of certain data in those tables leads to necessity of refreshing materialized views too. At frequent refreshing of data the using of materialized views could not increase but decrease the effectiveness of informational systems.In this book the periodical connection and disconnection of materialized views is offered. The basis for this is an evident periodicity in resolving of different tasks for the most of organizations
    corecore