13 research outputs found

    Простые существенные улучшения алгоритма ROUGE-W

    Get PDF
    The ROUGE-W algorithm to calculate the similarity of texts is referred in more than 500 scientific publications since 2004. The power of the algorithm depends on the weight function choice. An optimal selection of the weight function is studied. The weight functions used previously are far from optimality. An example of incorrect output of the algorithm is provided. Simple changes are described to ensure the expected resultАлгоритм ROUGE-W для вычисления схожести текстов с 2004 года упоминается почти в 500 научных публикациях. Представлен оптимальный выбор весовой функции, от которой зависит эффективность алгоритма. Ранее использовались функции, далёкие от оптимальной. Приведён пример некорректного срабатывания алгоритма. Описаны несложные изменения в нём, гаранти- рующие ожидаемый результа

    Формула для средней длины длиннейшей общей подпоследовательности

    No full text
    The expected value E of the longest common subsequence of letters in two random words is considered as a function of the = jAj of alphabet and of words lengths m and n. It is assumed that each letter independently appears at any position with equal probability. A simple expression for E( ; m; n) and its empirical proof are presented for fixed and m + n. High accuracy of the formula in a wide range of values is confirmed by numerical simulationsМатематическое ожидание E длиннейшей общей подпоследовательности букв двух случайных слов рассматривается как функция от мощности алфавита jAj и длин m и n этих слов. При этом предполагается, что любая буква независимо и с равной вероятностью оказывается в любой позиции слова. Предъявлено простое выражение для E( ; m; n) при фиксированных и m +

    От сходства к метрике: система аксиом, монотонные преобразования и метрическая определенность

    No full text
    How to normalise similarity metric to a metric space for a clusterization? A new system of axioms describes the known generalizations of distance metrics and similarity metrics, the Pearson correlation coefficient and the cosine metrics. Equivalent definitions of order-preserving transformations of metrics (both monotonic and pivot-monotonic) are given in various terms. The metric definiteness of convex metric subspaces Rn and Z among the pivot-monotonic transformations is proved. Faster formulas for the monotonic normalization of metrics are discussed.Исследуется сохранение порядка преобразованиями произвольной метрики (сходства или расстояния) в метрическое или полуметрическое пространство. Вводится система аксиом, по-новому объединяющая известные обобщения метрик расстояния и метрик сходства, коэффициент корреляции Пирсона и косинус угла между векторами. Сохраняющие порядок (как монотонные, так и стержнево-монотонные) преобразования метрик эквивалентно определяются в различных терминах. Метрическая определенность среди стержнево-монотонных преобразований выпуклых метрических подпространств Rn и Z доказывается при условии выпуклости метрики расстояния. Обсуждаются формулы ускоренной монотонной нормализации метрик сходств

    От сходства к метрике: система аксиом, монотонные преобразования и метрическая определенность

    No full text
    How to normalise similarity metric to a metric space for a clusterization? A new system of axioms describes the known generalizations of distance metrics and similarity metrics, the Pearson correlation coefficient and the cosine metrics. Equivalent definitions of order-preserving transformations of metrics (both monotonic and pivot-monotonic) are given in various terms. The metric definiteness of convex metric subspaces Rn and Z among the pivot-monotonic transformations is proved. Faster formulas for the monotonic normalization of metrics are discussed.Исследуется сохранение порядка преобразованиями произвольной метрики (сходства или расстояния) в метрическое или полуметрическое пространство. Вводится система аксиом, по-новому объединяющая известные обобщения метрик расстояния и метрик сходства, коэффициент корреляции Пирсона и косинус угла между векторами. Сохраняющие порядок (как монотонные, так и стержнево-монотонные) преобразования метрик эквивалентно определяются в различных терминах. Метрическая определенность среди стержнево-монотонных преобразований выпуклых метрических подпространств Rn и Z доказывается при условии выпуклости метрики расстояния. Обсуждаются формулы ускоренной монотонной нормализации метрик сходств

    Замыкание и внутренность C-выпуклых множеств

    No full text
    C-convexity of the closure, interiors and their lineal convexity are considered for C-convex sets under additional conditions of boundedness and nonempty interiors. The following questions on closure and the interior of C-convex sets were tackled 1. The closure of a bounded C-convex domain may not be lineally-convex. 2. The closure of a non-empty interior of a C-convex compact in Cn may not coincide with the original compact. 3. The interior of the closure of a bounded C-convex domain always coincides with the domain itself. The questions were formulated by Yu. B. ZelinskyДля C-выпуклых множеств также и при дополнительных условиях ограниченности и непустоты внутренности исследованы C-выпуклость замыкания и внутренности и их линейчатая выпуклость. Получены следующие ответы на цикл вопросов Ю.Б. Зелинского о замыкании и внутренности C-выпуклых множеств: 1. Замыкание ограниченной C-выпуклой области может не быть линейчато выпуклым. 2. Замыкание непустой внутренности C-выпуклого компакта в Cn может не совпасть с исходным компактом. 3. Внутренность замыкания ограниченной C-выпуклой области всегда совпадает с самой область

    Формула для средней длины длиннейшей общей подпоследовательности

    No full text
    The expected value E of the longest common subsequence of letters in two random words is considered as a function of the = jAj of alphabet and of words lengths m and n. It is assumed that each letter independently appears at any position with equal probability. A simple expression for E( ; m; n) and its empirical proof are presented for fixed and m + n. High accuracy of the formula in a wide range of values is confirmed by numerical simulationsМатематическое ожидание E длиннейшей общей подпоследовательности букв двух случайных слов рассматривается как функция от мощности алфавита jAj и длин m и n этих слов. При этом предполагается, что любая буква независимо и с равной вероятностью оказывается в любой позиции слова. Предъявлено простое выражение для E( ; m; n) при фиксированных и m +

    Простые существенные улучшения алгоритма ROUGE-W

    No full text
    The ROUGE-W algorithm to calculate the similarity of texts is referred in more than 500 scientific publications since 2004. The power of the algorithm depends on the weight function choice. An optimal selection of the weight function is studied. The weight functions used previously are far from optimality. An example of incorrect output of the algorithm is provided. Simple changes are described to ensure the expected resultАлгоритм ROUGE-W для вычисления схожести текстов с 2004 года упоминается почти в 500 научных публикациях. Представлен оптимальный выбор весовой функции, от которой зависит эффективность алгоритма. Ранее использовались функции, далёкие от оптимальной. Приведён пример некорректного срабатывания алгоритма. Описаны несложные изменения в нём, гаранти- рующие ожидаемый результа

    De Novo Assembly and Cluster Analysis of Siberian Larch Transcriptome and Genome

    No full text
    Текст статьи не публикуется в открытом доступе в соответствии с политикой журнала.We studied Siberian Larch (Larix Sibirica) transcriptome making de novo assembly and cluster analysis of contigs frequency dictionaries. Also, some preliminary results of similar study of the larch genome are present. It was found that the larch transcriptome yields a number of unexpected symmetries in the statistical and combinatorial properties of the entities
    corecore