10 research outputs found

    Object Recognition and Clustering based on Latent Semantic Analysis (LSA)

    Get PDF
    Object Recognition and clustering are prime techniques in Computer Vision, Pattern Recognition, Artificial Intelligence and Robotics. Conventionally these techniques are implemented in Visual-Feature based methods. However, these methods have drawbacks they do not efficiently deal with the differences in shapes and colours of objects. Another method which uses semantic similarity to solve this kind of problem, i.e. Cosine Similarity method, but this method also has problems. The problems are synonymies and polysemies. In this paper we propose a method in which objects with different shapes and different colours which function similarly can be recognized and clustered. If the text printed on the object the semantic feature of that object is extracted and clustered according to semantic feature. Proposed method is based on semantic information so we conduct an experiment with the dataset of images which contains the packing cases of commercial products (e.g. Mobile, Laptop etc). Semantic information in dataset is retrieved using text extraction module and then the results of text extraction are passed through an Internet search module. Finally objects are described and clustered using the latent semantic analysis (LSA) module. The clustering results are more accurate than the Visual feature based method and cosine similarity based methods. DOI: 10.17762/ijritcc2321-8169.150512

    Comparing Fifty Natural Languages and Twelve Genetic Languages Using Word Embedding Language Divergence (WELD) as a Quantitative Measure of Language Distance

    Full text link
    We introduce a new measure of distance between languages based on word embedding, called word embedding language divergence (WELD). WELD is defined as divergence between unified similarity distribution of words between languages. Using such a measure, we perform language comparison for fifty natural languages and twelve genetic languages. Our natural language dataset is a collection of sentence-aligned parallel corpora from bible translations for fifty languages spanning a variety of language families. Although we use parallel corpora, which guarantees having the same content in all languages, interestingly in many cases languages within the same family cluster together. In addition to natural languages, we perform language comparison for the coding regions in the genomes of 12 different organisms (4 plants, 6 animals, and two human subjects). Our result confirms a significant high-level difference in the genetic language model of humans/animals versus plants. The proposed method is a step toward defining a quantitative measure of similarity between languages, with applications in languages classification, genre identification, dialect identification, and evaluation of translations

    Implementasi dan Analisis Keterkaitan Semantik Antar Kata Menggunakan Pointwise Mutual Informationmax dengan Estimasi dari Kata Polisemi

    Get PDF
    Natural Language Processing atau premrosesan bahasa alami merupakan sebuah disiplin ilmu yang khusus mengolah teks yang ditulis langsung oleh manusia yang bersifat tidak terstruktur. Pengukuran semantic similarity antar kata merupakan salah satu tugas penerapan dari Natural Language Proccessing yang intinya adalah mencari skor semantic similarity antar kata. Skor tersebut menunjukkan seberapa erat tingkat kesamaan antar dua kata. Salah satu metode untuk menghitung semantic similarity adalah PMImax (Pointwise Mutual Informationmax). PMImax mengestimasi korelasi maksimum antara dua kata dan korelasi antara makna terdekat kedua kata tersebut karena sebuah kata seringkali memiliki banyak makna atau bisa disebut dengan kata Polisemi. Pada tugas akhir ini, diimplementasikan penghitungan semantic similarity antar kata menggunakan PMImax dengan menggunakan estimasi dari kata polisemi. konteks kata bersumber dari dataset Brown Corpus dan dataset Gutenberg. Hasil dari keterkaitannya dibandingkan dengan dataset Gold Standard WordSim-353 semantic relatedness, semantic similarity, Miller Charles dan Simlex-999. Hasil penelitian yang didapat terlihat bahwa dengan menggunakan PMImax didapatkan korelasi terbaik yaitu 66,5% dengan dataset gold standard WordSim-353 semantic similarity menggunakan korelasi Pearson dan dengan menggunakan nilai sense hasil analisis variabel p dan q. Nilai semantic similarity setiap pasang kata sangat dipengaruhi oleh nilai Co-Occurence sepasang kata teresebut, semakin tinggi nilai Co-Occurence suatu pasangan maka akan menghasilkan skor semantic similarity yang tinggi. Kata Kunci: Kesamaan semantik, Pointwise Mutual Information, kata polisemi

    Implementasi dan Analisis Kesamaan Semantik Antar Kata Berbahasa Inggris dengan Metode Positive Pointwise Mutual Information Cosine

    Get PDF
    Abstrak Keterkaitan semantik adalah salah satu jenis pengukuran yang ada pada text mining untuk menggambarkan bagaimana hubungan antara kata. Tujuan dari pengukuran keterkaitan semantik ini adalah untuk memperoleh nilai yang merepresentasikan seberapa besar keterkaitannya. Pointwise Mutual Information (PMI) merupakan salah satu pengukuran secara statistik untuk keterkaitan semantik yang telah banyak digunakan. Penerapan PMI diketahui mengalami bias untuk sepasang kata dengan frekuensi rendah, hal ini menyebabkan adanya pengembangan berupa varian pada pengukuran PMI untuk menghindari keadaan bias tersebut. Positive Pointwise Mutual Information Cosine (PPMIC) merupakan salah satu varian yang digunakan dalam tugas akhir ini untuk menghitung keterkaitan semantik. Perhitungan nilai PPMIC dilakukan pada dataset yang didapat dari brown corpus. Nilai PPMIC yang didapat oleh aplikasi dihitung korelasinya dengan Word-Sim-353 yang merupakan indeks keterkaitan kata berdasarkan sudut pandang manusia. Hasil dari penelitian pada tugas akhir ini merupakan nilai korelasi antara skor yang dihasilkan sistem dengan gold standard SimLex-999, WordSim353 dan Miller and Charles yang akan menghasilkan nilai kolerasi yang akan menunjukan seberapa akurat metode pengukuran PPMIC. Kata Kunci: Keterkaitan Semantik, Pointwise Mutual Information,Positive Pointwise Mutual Information Cosine

    Implementasi dan Analisis Kesamaan Semantik Antar Kata Berbahasa Inggris dengan Metode Second Order Co-occurrence Pointwise Mutual Information

    Get PDF
    Keterkaitan semantik mengacu pada sejauh mana dua konsep atau kata-kata yang terkait (atau tidak), sedangkan kesamaan semantik adalah kasus khusus atau bagian dari keterkaitan semantik. Kesamaan kata (word similarity) adalah pengukuran seberapa mirip sebuah pasangan kata secara semantik, dengan adanya hubungan sinonim maka pasangan kata tersebut memiliki nilai tertinggi. Pointwise Mutual Information (PMI) merupakan salah satu pengukuran secara statistik untuk keterkaitan semantik dan kesamaan semantik yang telah banyak digunakan. Salah satu varian pada PMI ialah Second Order Co-ocurrence Pointwise Mutual Information (SOC-PMI). Hasil dari penelitian pada tugas akhir ini merupakan nilai korelasi antara skor kesamaan yang dihasilkan sistem dengan gold standard SimLex-999, WordSim353 dan Miller and Charles. Nilai korelasi tertinggi yaitu 0,2881 dengan menggunakan window size = 33 dan nilai ? = 6,5. Parameter yang menyebabkan korelasi terbaik dengan metode SOC-PMI ini ialah konteks katanya antara pasangan kata yang dibandingkan. Kata Kunci: Kesamaan Semantik, Pointwise Mutual Information, Second Order Co-ocurrence Pointwise Mutual Informatio

    Implementasi dan Analisis Kesamaan Semantik Antar Kata Bahasa Indonesia Menggunakan Metode Pointwise Mutual Information Max

    Get PDF
    Pencarian informasi sudah menjadi bagian dari kebutuhan manusia, terutama pencarian informasi menggunakanbahasasehari–hari. SalahsatucontohnyaadalahBahasaIndonesia. Dalammelakukanpencarian informasi yang efektif, diperlukan kecerdasan yang sama antara komputer dan manusia dalam mengolah informasi. Manusia terbantu dalam pencarian informasi karena manusia dapat mengolah kata yang digunakan dalam pencarian informasi. Manusia memiliki pengetahuan tentang hubungan satu kata dengan kata lainnya, sedangkan komputer tidak dapat mengetahuinya karena komputer tidak mengetahui sense dari satu kata tersebut. Agar komputer memiliki kecerdasan yang sama, dibutuhkan pencarian nilai kesaman semantik(semantic similarity) antar kata. Berdasarkan ide tersebut, metode similarity yang dipilih untuk mencari nilai similarity antar kata Bahasa Indonesia adalah metode PMImax yang merupakan turunan dari metode PMI. Metode PMImax dipilih karena metode ini dapat menghasilkan nilai similarity berdasarkan kemuculan suatu kata di dalam suatu korpus. Metode ini juga menghasilkan nilai similarity yangbaiksaatditerapkandalamBahasaInggris. SehinggapenelitianinimengujiapakahmetodePMImax dapat diterapkan dalam pencarian nilai similarity dalam Bahasa Indonesia, dan seberapa baik metode ini saat diterapkan. Dengan menggunakan korelasi pearson hasil penelitian ini menunjukkan bahwa, metode PMImaxcukupbaikditerapkandalammencarinilaisimilaritydalamkata–kataBahasaIndonesiadibandingkan dengan metode PMI dan Word2Vec. Nilai korelasi yang dihasilkan, 0,26 pada Miller and Charles, 0,33 pada Simlex-999 dan 0,52 pada WordSim-353 Similarity. Katakunci: PMImax, PMI, Kesamaan Semantik, Kesamaan Semantik Antar Kat

    Automatic Discovery and Ranking of Synonyms for Search Keywords in the Web

    Get PDF
    Search engines are an indispensable part of a web user's life. A vast majority of these web users experience difficulties caused by the keyword-based search engines such as inaccurate results for queries and irrelevant URLs even though the given keyword is present in them. Also, relevant URLs may be lost as they may have the synonym of the keyword and not the original one. This condition is known as the polysemy problem. To alleviate these problems, we propose an algorithm called automatic discovery and ranking of synonyms for search keywords in the web (ADRS). The proposed method generates a list of candidate synonyms for individual keywords by employing the relevance factor of the URLs associated with the synonyms. Then, ranking of these candidate synonyms is done using co-occurrence frequencies and various page count-based measures. One of the major advantages of our algorithm is that it is highly scalable which makes it applicable to online data on the dynamic, domain-independent and unstructured World Wide Web. The experimental results show that the best results are obtained using the proposed algorithm with WebJaccard

    Improving Word Similarity by Augmenting PMI with Estimates of Word Polysemy

    No full text
    Pointwise mutual information (PMI) is a widely used word similarity measure, but it lacks a clear explanation of how it works. We explore how PMI differs from distributional similarity, and we introduce a novel metric, PMI max , that augments PMI with information about a word's number of senses. The coefficients of PMI max are determined empirically by maximizing a utility function based on the performance of automatic thesaurus generation. We show that it outperforms traditional PMI in the application of automatic thesaurus generation and in two word similarity benchmark tasks: human similarity ratings and TOEFL synonym questions. PMI max achieves a correlation coefficient comparable to the best knowledge-based approaches on the Miller-Charles similarity rating data set
    corecore