    NLP Resources for a Rare Language Morphological Analyzer: Danish Case

    ORCID ID: http://orcid.org/0000-0001-8327-5197The paper discusses the characteristics and practical aspects of application of the natural language processing resources available for developing a rare language morphological analysis solution. The case under consideration reveals the pipeline design needed to prepare the grammatical resources for Danish. Being rare not only in terms of distribution, but also in the amount of natural language resources available, the Danish language represents a significant problem in terms of application of third-party tools to help solve various NLP-related issues. The paper focuses on part-of-speech tagging and lemmatization, typical but indispensable tasks at the pre-processing stage within the framework of developing a morphological analyzer as a custom NLP solution

    Development of SearchBadger, A Framework for Evaluation of Search Results

    Analisis Sentimen pada Ulasan Buku Berbahasa Inggris Menggunakan Information Gain dan Support Vector Machine

    Informasi yang terdapat di Internet sangat bermacam-macam, salah satunya adalah informasi mengenai buku. Jika informasi tersebut diolah dengan baik maka akan diperoleh kualitas buku dari informasi tersebut. Dengan membaca ulasannya, maka kita akan mengetahui kualitas dan juga menganalisis sentimen positif dan juga sentimen negatif dari buku tersebut. Namun, begitu banyaknya opini akan mempersulit pengguna lain untuk memperoleh kualitas dari informasi tersebut. Analisis sentimen merupakan penilaian seseorang tentang topik yang dibahas baik itu sentimen positif ataupun sentimen negatif. Untuk mempercepat dalam menganalisis banyaknya sentimen yang ada, digunakanlah metode klasifikasi yaitu Support Vector Machine . Kelebihan dari SVM ini yaitu untuk menentukan hyperplane yang dapat menghasilkan margin yang maksimal antara kelas yang satu dengan kelas yang lainnya. Tetapi SVM mempunyai kelemahan terhadap pilihan fitur atau parameter yang dapat mempengaruhi akurasi. Maka dari itu, pada penelitian ini mengunakan metode Information Gain agar dapat meningkatkan akurasi dengan mengurangi jumlah fitur yang akan dianalisis dan Support Vector Machine sebagai metode klasifikasi untuk menangani permasalahan ini dan hasil dari penelitian ini menghasilkan nilai rata-rata F1-score sebesar 82.35% Kata Kunci: Review Buku, Klasifikasi, Support Vector Machine (SVM), Information Gai

    Coreference chains in Czech, English and Russian: Preliminary findings

    Tento článek je pilotní srovnavací výzkum koreferenčních řetězců v češtině, angličtině a ruštině. Podrobili jsme analýze 16 srovnatelných textů ve třech jazycích. Naší motivací bylo zjistit lingvistickou strukturu koreferenčních řetězců v těchto jazycích a určit, které faktory ovlivňují tuto strukturu

    Analisis Sentimen pada Data Ulasan Produk Toko Online dengan Metode Maximum Entropy

    Seiring dengan perkembangan dunia internet berpengaruh terhadap proses transaksi jual dan beli yang dimana proses sebelumnya bersifat konvensional berubah ke tingkat modern dengan adanya internet atau bisa disebut dengan e-commerce. Perkembangan e-commerce yang sangat cepat merupakan peluang besar bagi produsen untuk memasarkan produknya dan mempromosikannya kepada konsumen. Salah satu hal yang menjadi perhatian konsumen ketika membeli produk adalah review. Konsumen yang ingin membeli suatu produk tentunya akan melihat dari review tersebut apakah baik atau buruk. Dengan banyaknya review akan menyulitkan konsumen apakah produk tersebut layak untuk dibeli atau tidak. Oleh Karena itu, pada penelitian tugas akhir ini akan membuat suatu sistem yang mampu melakukan klasifikasi review tersebut yang bersifat review positif atau review negatif. Data yang digunakan pada penelitian ini yaitu review produk Amazon yang fokus pada kategori cell phones & accessories. Klasifikasi pada penelitian tugas akhir ini yaitu menggunakan metode maximum entropy dan juga menggunakan metode TF-IDF untuk mendapatkan fitur pada produk di dalam review tersebut. Untuk evaluasi menggunakan nilai presisi, recall dan juga f-1 measure. Hasil percobaan terbaik yaitu akurasi 83% dan f-1 measure 90.074% pada iterasi ke 1000

    Hash search organization in e-dictionaries using block ciphers

    The article is devoted to the problem of developing high-speed electronic dictionaries for systems computer translation. The method of organizing a high-speed electronic dictionary based on an ideal hash addressing, where the cryptographic cipher block acts as a hash transformation is proposed. This method was developed taking into account the multilevel memory structure of modern computer systems. It was testified theoretically and experimentally that the proposed organization of electronic dictionaries guarantees at least twice higher search rate compared to known technologies

    D4.1. Technologies and tools for corpus creation, normalization and annotation

    The objectives of the Corpus Acquisition and Annotation (CAA) subsystem are the acquisition and processing of monolingual and bilingual language resources (LRs) required in the PANACEA context. Therefore, the CAA subsystem includes: i) a Corpus Acquisition Component (CAC) for extracting monolingual and bilingual data from the web, ii) a component for cleanup and normalization (CNC) of these data and iii) a text processing component (TPC) which consists of NLP tools including modules for sentence splitting, POS tagging, lemmatization, parsing and named entity recognition

    Веб-реалізація моделюючого комплексу. Формування сцени гідроакустичного експеримента

    Метою моєї бакалаврської роботи є дослідження та розробка програмного продукту за допомогою якого буде можливо ставити та проводити гідроакустичний експеримент. Ця система повинна приймати такі вхідні дані як стан об’єктів, їх початкові координати, швидкість та напрямок руху, також передбачається батиметрія, як вхідні дані, тобто матриця карти глибин. Програма повинна анімувати рух об’єктів у правильному напрямку, з правильною швидкістю та можливість завантаження на комп’ютер вихідні дані, для подальшого користування у обчисленях. Програма була написана на мові JavaScript з використанням Canvas та бібліотек Node.js та React.jsThe purpose of my bachelor's thesis is to research and develop a software product that will make it possible to set and conduct a sonar experiment. This system should receive input data such as the state of objects, their initial coordinates, speed and direction of movement, and batimetry is also provided as input data, ie the depth map matrix. The program should animate the movement of objects in the right direction, at the right speed and the ability to download the original data to a computer for further use in calculations. The program was written in JavaScript using Canvas and the Node.js and React.js libraries.Целью моей бакалаврской работы является исследование и разработка программного продукта с помощью которого будет возможно ставить и проводить гидроакустический эксперимент. Эта система должна принимать такие входные данные как состояние объектов, их начальные координаты, скорость и направление движения, также предполагается батиметрия, как входные данные, то есть матрица карты глубин. Программа должна анимировать движение объектов в правильном направлении, с правильной скоростью и возможность загрузки на компьютер исходные данные для дальнейшего использования в вычислений. Программа была написана на языке JavaScript с использованием Canvas и библиотек Node.js и React.j