    A Reverse Approach to Named Entity Extraction and Linking in Microposts

    ABSTRACT In this paper, we present a pipeline for named entity extraction and linking that is designed specifically for noisy, grammatically inconsistent domains where traditional named entity techniques perform poorly. Our approach leverages a large knowledge base to improve entity recognition, while maintaining the use of traditional NER to identify mentions that are not co-referent with any entities in the knowledge base

    An improved Levenshtein algorithm for spelling correction word candidate list generation

    Candidates’ list generation in spelling correction is a process of finding words from a lexicon that should be close to the incorrect word. The most widely used algorithm for generating candidates’ list for incorrect words is based on Levenshtein distance. However, this algorithm takes too much time when there is a large number of spelling errors. The reason is that calculating Levenshtein algorithm includes operations that create an array and fill the cells of this array by comparing the characters of an incorrect word with the characters of a word from a lexicon. Since most lexicons contain millions of words, then these operations will be repeated millions of times for each incorrect word to generate its candidates list. This dissertation improved Levenshtein algorithm by designing an operational technique that has been included in this algorithm. The proposed operational technique enhances Levenshtein algorithm in terms of the processing time of its executing without affecting its accuracy. It reduces the operations required to measure cells’ values in the first row, first column, second row, second column, third row, and third column in Levenshtein array. The improved Levenshtein algorithm was evaluated against the original algorithm. Experimental results show that the proposed algorithm outperforms Levenshtein algorithm in terms of the processing time by 36.45% while the accuracy of both algorithms is still the same

    Penghapusan Kolom dan Baris Pertama pada Matriks Distance Untuk Optimasi Spell Checker Damerau-Levenshtein Distance

    Damerau-Levenshtein Distance menentukan jarak atau jumlah minimum operasi yang dibutuhkan untuk mengubah satu string menjadi string lain, di mana operasi yang digunakan untuk menentukan tingkat kemiripian antar String adalah insertion, deletion, substitution dan transposition. Algoritma ini sendiri dapat juga digunakan untuk mengoreksi kesalahan kata. Namun, Algoritma Damerau-Levenshtein Distance mempunyai kelemahan, yaitu waktu pemrosesan yang lama. Pada perhitungan jarak antara dua string dengan algoritma Damerau-Levenshtein, setiap huruf dari kedua string akan dibandingkan dengan membuat matriks distance. Karena Kamus Bahasa Indonesia memiliki lebih dari 30.000 kata dasar, operasi perhitungan jarak akan dilakukan lebih dari 30.000 kali untuk setiap kesalahan. Penelitian ini mengusulkan peningkatan untuk mempersingkat waktu pemrosesan algoritma Damerau-Levenshtein dengan mengurangi baris dan kolom matriks distance. Hasil akhir yang diharapkan dari penelitian ini adalah waktu pemrosesan menjadi lebih cepat tanpa harus mengorbankan akurasi

    A measure of the difference between test sets for generating controlled random tests

    Решается задача построения характеристик различия тестовых наб-ров, представляющих собой набор символов, включая двоичные наборы. Обосновывается ее актуальность для генерирования управляемых вероятностных тестов и сложность нахождения мер различия для символьных тестов. Показывается ограниченность применения расстояния Хэмминга и Дамерау – Левенштейна для получения меры различия тестовых наборов

    Мера различия для тестовых наборов при генерировании управляемых вероятностных тестов

    Objectives . The problem of constructing the characteristics of the difference between test sequences is solved. Its relevance for generating controlled random tests and the complexity of finding measures of difference for symbolic tests are substantiated. The limitations of using the Hamming and Damerau – Levenshtein distances to obtain a measure of the difference between test sets are shown.Methods . Based on the characteristic of the interval used in the theory of the chain of successive events, a new measure of the difference between two symbolic test sets is determined. As a difference measure, the distance AD(Ti, Tk) between the test sets Ti and Tk is calculated using the interval characteristic, which is based on determining independent pairs of same (identical) symbols belonging to two sets and calculating the intervals between them.Results. The combinatorial nature of the calculation of the proposed difference measure for symbolic test sets of an arbitrary alphabet and dimension is shown. An example of calculating this measure for various types of test sets, including such as address test sets, is given. Possible modifications are shown and some properties and limitations are determined. The application of the measure of difference is considered for the case of repeated testing of storage devices based on address sequences pA with even p repetition of addresses. For the case p = 2, mathematical relations are given for calculating the intervals and distances AD(Ti, Tk) for address sequences 2A used for controlled random testing of storage devices. The main attention is paid to binary test sets, when the task of calculating given difference metric is reduced to the classical assignment problem using the Hungarian algorithm. The computational complexity of the Hungarian algorithm is estimated by the relation O(n4). As an alternative to the Hungarian algorithm, an algorithm for calculating the considered difference measure is proposed, the complexity of which is much less and has an estimate equal to O(n2). The experimental studies confirm the effectiveness of the proposed algorithm.Conclusion. The proposed difference measure extends the possibilities of generating test sequences when generating controlled random tests. It is shown that test sets, which are indistinguishable when Hamming distance is used as a measure of difference, have different values of AD(Ti, Tk) that allows to make more accurate classification of randomly generated sets as candidates for test sets.Цели. Решается задача построения характеристик различия тестовых наборов, представляющих собой наборы символов, включая двоичные наборы. Обосновывается ее актуальность для генерирования управляемых вероятностных тестов и сложность нахождения мер различия для символьных тестов. Показывается ограниченность применения расстояния Хэмминга и Дамерау – Левенштейна для получения меры различия тестовых наборов.Методы. На основе характеристики интервала, применяемого в теории строя цепи последовательных событий, определяется новая мера различия двух символьных тестовых наборов. В качестве меры различия рассчитывается расстояние AD(Ti, Tk) между тестовыми наборами Ti и Tk, использующее характеристику интервала и основанное на определении независимых пар одинаковых (тождественных) символов, принадлежащих двум наборам, и вычислении интервалов между ними.Результаты . Показывается комбинаторный характер вычисления предложенной меры различия для символьных тестовых наборов произвольного алфавита и размерности. Приводится пример вычисления данной меры для различных видов тестовых наборов, в том числе таких, как адресные тестовые наборы. Показываются возможные ее модификации и определяются некоторые свойства и ограничения. Рассматривается применение данной меры различия для случая многократного тестирования запоминающих устройств на основе адресных последовательностей pA с четным p повторением адресов. Для случая p = 2 приводятся математические соотношения вычисления интервалов и расстояния AD(Ti, Tk) для последовательностей адресов 2A, используемых для управляемого вероятностного тестирования запоминающих устройств. Основное внимание уделяется двоичным тестовым наборам, для которых задача вычисления данной метрики различия сводится к классической задаче о назначениях с использованием венгерского алгоритма. Вычислительная сложность венгерского алгоритма оценивается соотношением O(n4). Как альтернатива венгерскому алгоритму предлагается алгоритм вычисления рассматриваемой меры, сложность которого существенно меньше и имеет оценку O(n2). Проведенные экспериментальные исследования подтверждают эффективность рассмотренного алгоритма.Заключение. Предложенная мера различия расширяет возможности генерирования тестовых последовательностей при генерировании управляемых вероятностных тестов. Показано, что тестовые наборы, неразличимые при использовании в качестве меры различия расстояния Хэмминга, имеют различные значения AD(Ti, Tk), позволяющие более точно классифицировать формируемые случайным образом наборы, которые являются кандидатами в тестовые наборы

    Hybrid model of post-processing techniques for Arabic optical character recognition

    Optical character recognition (OCR) is used to extract text contained in an image. One of the stages in OCR is the post-processing and it corrects the errors of OCR output text. The OCR multiple outputs approach consists of three processes: differentiation, alignment, and voting. Existing differentiation techniques suffer from the loss of important features as it uses N-versions of input images. On the other hand, alignment techniques in the literatures are based on approximation while the voting process is not context-aware. These drawbacks lead to a high error rate in OCR. This research proposed three improved techniques of differentiation, alignment, and voting to overcome the identified drawbacks. These techniques were later combined into a hybrid model that can recognize the optical characters in the Arabic language. Each of the proposed technique was separately evaluated against three other relevant existing techniques. The performance measurements used in this study were Word Error Rate (WER), Character Error Rate (CER), and Non-word Error Rate (NWER). Experimental results showed a relative decrease in error rate on all measurements for the evaluated techniques. Similarly, the hybrid model also obtained lower WER, CER, and NWER by 30.35%, 52.42%, and 47.86% respectively when compared to the three relevant existing models. This study contributes to the OCR domain as the proposed hybrid model of post-processing techniques could facilitate the automatic recognition of Arabic text. Hence, it will lead to a better information retrieval

    Recognizing Induced Emotions of Movie Audiences: Are Induced and Perceived Emotions the Same?

    Predicting the emotional response of movie audi- ences to affective movie content is a challenging task in affective computing. Previous work has focused on using audiovisual movie content to predict movie induced emotions. However, the relationship between the audience’s perceptions of the affective movie content (perceived emotions) and the emotions evoked in the audience (induced emotions) remains unexplored. In this work, we address the relationship between perceived and in- duced emotions in movies, and identify features and modelling approaches effective for predicting movie induced emotions. First, we extend the LIRIS-ACCEDE database by annotating perceived emotions in a crowd-sourced manner, and find that perceived and induced emotions are not always consistent. Second, we show that dialogue events and aesthetic highlights are effective predictors of movie induced emotions. In addition to movie based features, we also study physiological and be- havioural measurements of audiences. Our experiments show that induced emotion recognition can benefit from including temporal context and from including multimodal information. Our study bridges the gap between affective content analysis and induced emotion prediction

    Distance Measure for Controlled Random Tests

    Исследуется задача построения характеристик различия тестовых последовательностей. Обосновывается ее актуальность для генерирования управляемых вероятностных тестов и сложность нахождения мер отличия для символьных тестов. Показывается ограниченность применения расстояния Хэмминга и Дамерау – Левенштейна для получения меры отличия тестовых наборов. Для произвольного случая определяется новая мера различия двух символьных тестовых наборов на основе интервала, используемого в теории строя цепи последовательных событий. Расстояние D(T i , T k ) между тестовыми наборами T i и T k , использующее характеристику интервала, основано на определении независимых пар одинаковых (тождественных) символов, принадлежащих двум наборам, и вычислении интервалов между ними. Показывается комбинаторный характер вычисления предложенной меры отличия для символьных тестовых наборов произвольного алфавита и размерности. Приводится пример вычисления данной меры и показываются возможные ее модификации и ограничения. Рассматривается применение меры различия для случая многократного тестирования запоминающих устройств на основе адресных последовательностей pA с четным p повторением адресов. Для случая p = 2 приводятся математические соотношения вычисления интервалов и расстояния D(T i , T k ) для последовательностей адресов 2A, используемых для управляемого вероятностного тестирования запоминающих устройств. Приводятся экспериментальные результаты, подтверждающие эффективность предложенной меры отличия