2 research outputs found

    Внедрение технологии оптимизации индексирования узкоспециализированных терминов на базе фонетического алгоритма Metaphone

    Get PDF
    When compiling databases, for example to meet the needs of healthcare establishments, there is quite a common problem with the introduction and further processing of names and surnames of doctors and patients that are highly specialized both in terms of pronunciation and writing. This is because names and surnames of people cannot be unique, their notation is not subject to any rules of phonetics, while their length in different languages may not match. With the advent of the Internet, this situation has become generally critical and can lead to that multiple copies of e-mails are sent to one address. It is possible to solve the specified problem by using phonetic algorithms for comparing words Daitch-Mokotoff, Soundex, NYSIIS, Polyphone, and Metaphone, as well as the Levenshtein and Jaro algorithms, Q-gram-based algorithms, which make it possible to find distances between words. The most widespread among them are the Soundex and Metaphone algorithms, which are designed to index the words based on their sound, taking into consideration the rules of pronunciation. By applying the Metaphone algorithm, an attempt has been made to optimize the phonetic search processes for tasks of fuzzy coincidence, for example, at data deduplication in various databases and registries, in order to reduce the number of errors of incorrect input of surnames. An analysis of the most common surnames reveals that some of them are of the Ukrainian or Russian origin. At the same time, the rules following which the names are pronounced and written, for example in Ukrainian, differ radically from basic algorithms for English and differ quite significantly for the Russian language. That is why a phonetic algorithm should take into consideration first of all the peculiarities in the formation of Ukrainian surnames, which is of special relevance now. The paper reports results from an experiment to generate phonetic indexes, as well as results of the increased performance when using the formed indexes. A method for adapting the search for other areas and several related languages is presented separately using an example of search for medical preparations.При формуванні баз даних, наприклад, для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад, українською мовою кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засобам

    Впровадження технології оптимізації індексування вузькоспеціалізованих термінів на базі фонетичного алгоритму Metaphone

    Get PDF
    When compiling databases, for example to meet the needs of healthcare establishments, there is quite a common problem with the introduction and further processing of names and surnames of doctors and patients that are highly specialized both in terms of pronunciation and writing. This is because names and surnames of people cannot be unique, their notation is not subject to any rules of phonetics, while their length in different languages may not match. With the advent of the Internet, this situation has become generally critical and can lead to that multiple copies of e-mails are sent to one address. It is possible to solve the specified problem by using phonetic algorithms for comparing words Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone, and Metaphone, as well as the Levenstein and Jaro algorithms, Q-gram-based algorithms, which make it possible to find distances between words. The most widespread among them are the SoundЕx and Metaphone algorithms, which are designed to index the words based on their sound, taking into consideration the rules of pronunciation. By applying the Metaphone algorithm, an attempt has been made to optimize the phonetic search processes for tasks of fuzzy coincidence, for example, at data deduplication in various databases and registries, in order to reduce the number of errors of incorrect input of surnames. An analysis of the most common surnames reveals that some of them are of the Ukrainian or Russian origin. At the same time, the rules following which the names are pronounced and written, for example in Ukrainian, differ radically from basic algorithms for English and differ quite significantly for the Russian language. That is why a phonetic algorithm should take into consideration first of all the peculiarities in the formation of Ukrainian surnames, which is of special relevance now. The paper reports results from an experiment to generate phonetic indexes, as well as results of the increased performance when using the formed indexes. A method for adapting the search for other areas and several related languages is presented separately using an example of search for medical preparationsПри формировании баз данных, например, для удовлетворения потребностей учреждений здравоохранения, довольно часто возникает проблема по введению и дальнейшей обработки имен и фамилий врачей и пациентов, у которых узкоспециалированное произношение и написание. Это объясняется тем, что имена и фамилии людей не могут быть уникальными, их надпись не подпадает ни под какие правила фонетики, а их длины при их изложении разных языках могут не совпадать. С появлением интернета такое положение дел становится вообще критическим и может привести к тому, что по одному адресу может быть отправлено несколько копий электронных писем. Решить указанную проблему могут помочь фонетические алгоритмы сравнения слов Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone и Metaphone, а также алгоритмы Левенштейна и Джаро, алгоритмы на основе Q-грамм, которые позволяют находить расстояния между словами. Наибольшее распространение среди них получили алгоритмы SoundЕx и Metaphone, которые предназначены для индексирования слов по их звучанию с учетом правил произношения. Путем применения алгоритма Metaphone сделана попытка оптимизации процессов фонетического поиска для задач нечеткого совпадения, например, при дедубликации данных в различных базах данных и реестрах для уменьшения количества ошибок неверного ввода фамилий. По анализу наиболее распространенных фамилий видно, что часть из них имеет украинское или российское происхождение. При этом правила, по которым произносятся и записываются фамилии, например, на украинском языке, отличаются от базовых алгоритмов для английского и достаточно отличаются для русского языка. Именно поэтому фонетический алгоритм должен прежде всего учитывать особенности формирования украинских фамилий, что нынче является чрезвычайно актуальным. Представлены результаты эксперимента по формированию фонетических индексов, а также результаты увеличения производительности при использовании сформированных индексов. Отдельно представлен метод адаптации поиска для других сфер и нескольких родственных языков на примере поиска по лекарственным средствамПри формуванні баз даних, наприклад для задоволення потреб закладів охорони здоров’я, доволі часто виникає проблема щодо введення та подальшої обробки імен і прізвищ лікарів і пацієнтів, які є вузькоспеціалізованими за вимовою і написанням. Це пояснюється тим, що імена та прізвища людей не можуть бути унікальними, їх напис не підпадає під жодні правила фонетики, а їх довжини при їх викладенні різними мовами можуть не співпадати. З появою інтернету такий стан справ стає взагалі критичним й може привести до того, що за однією адресою може бути відправлено декілька копій електронних листів. Вирішити означену проблему можуть допомогти фонетичні алгоритми порівняння слів Daitch-Mokotoff, SoundEx, NYSIIS, Polyphone та Metaphone, а також алгоритми Левенштейна та Джаро, алгоритми на основі Q-грам, які дозволяють знаходити відстані між словами. Найбільшого поширення серед них отримали алгоритми SoundЕx і Metaphone, які призначені для індексування слів по їх звучанням з урахуванням правил вимови. Шляхом застосування алгоритму Metaphone зроблено спробу оптимізації процесів фонетичного пошуку для задач нечіткого співпадіння, наприклад, при дедублікації даних в різноманітних базах даних і реєстрах для зменшення кількості помилок невірного введення прізвищ. Із аналізу найбільш розповсюджених прізвищ видно, що частина з них є українського або російського походження. При цьому правила, за якими вимовляються і записуються прізвища, наприклад українською мовою, кардинально відрізняються від базових алгоритмів для англійської і достатньо відрізняються для російської мови. Саме тому фонетичний алгоритм має враховувати передусім особливості формування українських прізвищ, що нині є надзвичайно актуальним. Представлено результати експерименту із формування фонетичних індексів, а також результати збільшення продуктивності при використанні сформованих індексів. Окремо представлено метод адаптації пошуку для інших сфер і кількох споріднених мов на прикладі пошуку по лікарським засоба
    corecore