19 research outputs found

    Evaluation of Croatian Word Embeddings

    Full text link
    Croatian is poorly resourced and highly inflected language from Slavic language family. Nowadays, research is focusing mostly on English. We created a new word analogy corpus based on the original English Word2vec word analogy corpus and added some of the specific linguistic aspects from Croatian language. Next, we created Croatian WordSim353 and RG65 corpora for a basic evaluation of word similarities. We compared created corpora on two popular word representation models, based on Word2Vec tool and fastText tool. Models has been trained on 1.37B tokens training data corpus and tested on a new robust Croatian word analogy corpus. Results show that models are able to create meaningful word representation. This research has shown that free word order and the higher morphological complexity of Croatian language influences the quality of resulting word embeddings.Comment: In review process on LREC 2018 conferenc

    Non-Standard Words as Features for Text Categorization

    Full text link
    This paper presents categorization of Croatian texts using Non-Standard Words (NSW) as features. Non-Standard Words are: numbers, dates, acronyms, abbreviations, currency, etc. NSWs in Croatian language are determined according to Croatian NSW taxonomy. For the purpose of this research, 390 text documents were collected and formed the SKIPEZ collection with 6 classes: official, literary, informative, popular, educational and scientific. Text categorization experiment was conducted on three different representations of the SKIPEZ collection: in the first representation, the frequencies of NSWs are used as features; in the second representation, the statistic measures of NSWs (variance, coefficient of variation, standard deviation, etc.) are used as features; while the third representation combines the first two feature sets. Naive Bayes, CN2, C4.5, kNN, Classification Trees and Random Forest algorithms were used in text categorization experiments. The best categorization results are achieved using the first feature set (NSW frequencies) with the categorization accuracy of 87%. This suggests that the NSWs should be considered as features in highly inflectional languages, such as Croatian. NSW based features reduce the dimensionality of the feature space without standard lemmatization procedures, and therefore the bag-of-NSWs should be considered for further Croatian texts categorization experiments.Comment: IEEE 37th International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO 2014), pp. 1415-1419, 201

    Automatic keyword extraction from text with standard computer procedures

    Get PDF
    Automatska ekstrakcija ključnih riječi iz teksta aktualan je istraživački problem u području računalne analize prirodnog jezika i pretraživanja informacija. Iako su razvijene brojne metode za ekstrakciju ključnih riječi iz teksta, njihova učinkovitost ovisna je o brojnim faktorima poput pristupa kojim su konstruirane, domene na koju su prilagođene, vrste jezika ili zadataka za koji su konstruirane i sl., a samim time prostor za napredak u smislu nadogradnje i poboljšanja, uvijek postoji. U ovom radu objašnjene su i rekonstruirane dvije postojeće metode – RAKE i MAUI, a koje su standardni predstavnici nenadzirane i nadzirane skupine metoda. Eksperimentalno je ispitano mogu li metode uspješno ekstrahirati ključne riječi iz tekstova pisanih na talijanskom jeziku, na kojem do sada nisu usporedno testirane. Za potrebe eksperimenta prikupljeni su i ručno označeni talijanski tekstovi. Efikasnost MAUI metode pokazala se perspektivnijom u odnosu na RAKE metodu što je već ranije potvrđeno u eksperimentu ekstrakcije ključnih riječi iz tekstova pisanih na engleskom jeziku.Automatic keyword extraction takes a great interest as a research issue in the field of natural language processing and information retrieval. Although numerous methods for keyword extraction task have been developed, their effectiveness depends on many factors such as the approach used in method development, the domain to which they are adapted, the type of language or tasks for which they are constructed, etc., and still, there is a room for progress and improvements. In this paper, two existing methods are explained and reconstructed - RAKE and MAUI, which are the standard representatives of the unsupervised and supervised group of keyword extraction methods. It was experimentally tested whether the methods could successfully extract keywords from texts written in Italian, which had not been tested so far. For the experimental purposes, Italian texts were collected and annotated with keywords. The effectiveness of the MAUI method proved to be more promising than the RAKE method, which was confirmed earlier in the keyword extraction experiment from texts written in English

    An Overview of Graph-Based Keyword Extraction Methods and Approaches

    Get PDF
    The paper surveys methods and approaches for the task of keyword extraction. The systematic review of methods was gathered which resulted in a comprehensive review of existing approaches. Work related to keyword extraction is elaborated for supervised and unsupervised methods, with a special emphasis on graph-based methods. Various graph-based methods are analyzed and compared. The paper provides guidelines for future research plans and encourages the development of new graph-based approaches for keyword extraction

    Automatska ekstrakcijaključnih riječi iz tekstastandardnim računalnim postupcima

    No full text
    Automatska ekstrakcija ključnih riječi iz teksta aktualan je istraživački problem u području računalne analize prirodnog jezika i pretraživanja informacija. Iako su razvijene brojne metode za ekstrakciju ključnih riječi iz teksta, njihova učinkovitost ovisna je o brojnim faktorima poput pristupa kojim su konstruirane, domene na koju su prilagođene, vrste jezika ili zadataka za koji su konstruirane i sl., a samim time prostor za napredak u smislu nadogradnje i poboljšanja, uvijek postoji. U ovom radu objašnjene su i rekonstruirane dvije postojeće metode – RAKE i MAUI, a koje su standardni predstavnici nenadzirane i nadzirane skupine metoda. Eksperimentalno je ispitano mogu li metode uspješno ekstrahirati ključne riječi iz tekstova pisanih na talijanskom jeziku, na kojem do sada nisu usporedno testirane. Za potrebe eksperimenta prikupljeni su i ručno označeni talijanski tekstovi. Efikasnost MAUI metode pokazala se perspektivnijom u odnosu na RAKE metodu što je već ranije potvrđeno u eksperimentu ekstrakcije ključnih riječi iz tekstova pisanih na engleskom jeziku

    Izlučivanje ključnih riječi iz teksta zasnovano na strukturnim svojstvima jezičnih kompleksnih mreža

    No full text
    Automatic keyword extraction task is the initial step in a number of systems for natural language processing (NLP), text mining (TM), and information retrieval (IR). Keywords concisely and compactly describe the subject of the text. The doctoral thesis examines the issues of automatic keyword extraction and proposes a new method for this challenge. The proposed method is a graph-based unsupervised method based on the structural properties of language complex networks. The thesis employs the standard methodology from the fields of IR and NLP both in the development and evaluation phases of the research. Within the method, new centrality measures for keyword extraction task are proposed and tested. The first is the selectivity, and the second is the generalized selectivity measure. The node selectivity value is calculated from a weighted network as the average weight distributed on the links of a single node. Selectivity-based extraction (SBKE) method does not require external linguistic knowledge since it is purely derived from a network structure, making it suitable for use in different natural languages and a multilingual scenario. The SBKE method consists of two steps: keyword candidate extraction (based on selectivity values) and keyword expansion to longer sequences of keyword candidates. The proposed SBKE method is tested for different natural languages (Croatian, English, Serbian and Italian) and for various domains (scientific publications in the field of mining and geology, essays and critiques in architecture and design, news form politics, sports, culture and economy, and technical texts from Wikipedia in the field of computer science). For the purposes of the thesis, new multilingual datasets are created. Datasets contain comparable texts that are suitable for keyword extraction in general, allowing the evaluation in fully controlled conditions. Specifically, a bilingual Serbian-English and trilingual Croatian-English-Italian datasets are created. The performance of SBKE method is assessed empirically in terms of precision, recall, F1 and F2 scores, and area under the precision-recall curve. The evaluation, according to IIC (inter-indexer consistency) measure and adjusted Kappa statistics (Fleiss’ and Gwet’s coefficients), allows for assessing the consistency of the method with human annotators. The area under the precision-recall curve and Kappa statistics (Fleiss’ and Gwet’s coefficients) are novel evaluation principles for evaluating the keyword extraction tasks. It is experimentally confirmed that the method, by using knowledge from the network structure, without any additional external (linguistic or semantic) knowledge, can successfully extract the keywords from the text and it is close to the level of human annotations of keywords. Additionally, it is confirmed that a novel selectivity measure is appropriate for extraction and ranking of keywords. The proposed SBKE method demonstrates its potential for keyword extraction from different domains of texts, from individual documents or the collection of documents and for portability to new languages. The portability and low cost-feasibility of SBKE characterize the method as a highly desirable candidate for unsupervised automatic keyword extraction, especially in the absence of human annotated resources, for under-resourced languages (lacking the natural language processing resources, and tools) or for a multilingual keyword extraction task.Automatsko izlučivanje ključnih riječi iz teksta je početni korak u brojnim sustavima za računalnu analizu prirodnog jezika (engl. natural language processing), dubinsku analizu teksta (engl. text mining) i pretraživanje informacija (engl. information retrieval). Ključne riječi jezgrovito i kompaktno opisuju tematiku teksta. Doktorska disertacija proučava problematiku automatskog izlučivanja ključnih riječi iz teksta te predlaže novu metodu za taj postupak. Razvijena metoda pripada skupini nenadziranih metoda baziranih na grafovima (engl. graphbased), odnosno baziranih na jezičnim kompleksnim mrežama (engl. language complex network). U postupku razvoja i vrednovanja koristi se standardna metodologija iz područja pretraživanja informacija (engl. information retrieval) i računalne obrade prirodnog jezika. U okviru metode, predložene su nove mjere centralnosti koje prethodno nisu bile korištene u postupcima ekstrakcije ključnih riječi iz teksta: selektivnost čvora (engl. node selectivity) i generalizirana selektivnost čvora (engl. generalized selectivity). Selektivnost čvora se definira na usmjerenoj težinskoj mreži kao prosječna težina distribuirana na bridovima pojedinog čvora mreže. Metoda za izlučivanje ključnih riječi bazirana na selektivnosti čvora – SBKE metoda (engl. selectivity-based keyword extraction) ne zahtjeva dodatna lingvistička znanja već je izvedena iz definirane strukture mreže, što je čini pogodnom za korištenje na tekstovima zapisanim u različitim prirodnim jezicima, dakle i u višejezičnom scenariju primjene. Predložena SBKE metoda, testirana je na podatkovnim skupovima (1) različitih prirodnih jezika (hrvatski, engleski, srpski i talijanski), (2) na različitim domenama (sažecima iz rudarstva i geologije, kritikama i esejima iz arhitekture i dizajna, novinskim člancima informativnog karaktera iz područja kulture, sporta, politike i sl. te tehničkim tekstovima s Wikipedije iz područja računarstva), (3) za zadatke izlučivanja iz pojedinačnih dokumenta i kolekcija tekstova. U okviru disertacije, načinjeni su novi podatkovni skupovi usporedivih tekstova na više jezika kojima se može u kontroliranim uvjetima usporediti uspješnost metode za zadatke višejezičnog izlučivanja ključnih riječi. Pripremljeni su dvojezični srpsko-engleski te hrvatsko englesko-talijanski podatkovni skupovi, koji su ujedno i prvi dvojezični kao i trojezični podatkovni skupovi namijenjeni za zadatak ekstrakcije ili izlučivanja ključnih riječi. Uspješnost metode u ovoj se disertaciji mjeri empirijski pomoću mjera preciznosti, odziva, F1 i F2 te površinom ispod krivulja preciznosti i odziva. Mjere IIC (engl. inter-indexer consistency) te Kappa statistika, odonosno Fleissov i Gwetov koeficijent, su korištene za uspoređivanje konzistentnosti metode s anotacijama ljudskih eksperata. Površina ispod krivulje preciznosti i odziva te Fleissov i Gwetov koeficijent su novo predložene mjere za vrednovanje postupaka izlučivanja ključnih riječi. Eksperimentalno je potvrđeno da SBKE metoda korištenjem znanja iz strukture mreže, bez dodatnih vanjskih izvora znanja (semantičkih ili dodatnih lingvističkih), može uspješno izlučiti ključne riječi iz teksta te se rezultatski približava ljudskoj uspješnosti izvođenje zadatka. Također je pokazano da je predložena mjera selektivnosti prikladna za izlučivanje, odnosno predlaganje i rangiranje ključnih riječi. Razvijena SBKE metoda iskazuje svoj potencijal mogućnošću prilagodbe za primjenu na tekstovima pisanim na različitim jezicima i kolekcijama tekstova iz različitih domena. Jednostavne je arhitekture, prenosiva je na različite jezike i domene tekstova i ima nisku računsku zahtjevnost. Time se SBKE metoda pozicionira na listu dobrih kandidata za nenadzirano automatsko izlučivanje ključnih riječi posebice u situacijama: (1) kad ne postoje ljudski eksperti za određivanje ključnih riječi, (2) za slabije računalno poduprte jezike računalno-lingvističkim resursima i alatima, (3) kao i u situacijama višejezičnog izlučivanja ključnih riječi

    Izlučivanje ključnih riječi iz teksta zasnovano na strukturnim svojstvima jezičnih kompleksnih mreža

    No full text
    Automatic keyword extraction task is the initial step in a number of systems for natural language processing (NLP), text mining (TM), and information retrieval (IR). Keywords concisely and compactly describe the subject of the text. The doctoral thesis examines the issues of automatic keyword extraction and proposes a new method for this challenge. The proposed method is a graph-based unsupervised method based on the structural properties of language complex networks. The thesis employs the standard methodology from the fields of IR and NLP both in the development and evaluation phases of the research. Within the method, new centrality measures for keyword extraction task are proposed and tested. The first is the selectivity, and the second is the generalized selectivity measure. The node selectivity value is calculated from a weighted network as the average weight distributed on the links of a single node. Selectivity-based extraction (SBKE) method does not require external linguistic knowledge since it is purely derived from a network structure, making it suitable for use in different natural languages and a multilingual scenario. The SBKE method consists of two steps: keyword candidate extraction (based on selectivity values) and keyword expansion to longer sequences of keyword candidates. The proposed SBKE method is tested for different natural languages (Croatian, English, Serbian and Italian) and for various domains (scientific publications in the field of mining and geology, essays and critiques in architecture and design, news form politics, sports, culture and economy, and technical texts from Wikipedia in the field of computer science). For the purposes of the thesis, new multilingual datasets are created. Datasets contain comparable texts that are suitable for keyword extraction in general, allowing the evaluation in fully controlled conditions. Specifically, a bilingual Serbian-English and trilingual Croatian-English-Italian datasets are created. The performance of SBKE method is assessed empirically in terms of precision, recall, F1 and F2 scores, and area under the precision-recall curve. The evaluation, according to IIC (inter-indexer consistency) measure and adjusted Kappa statistics (Fleiss’ and Gwet’s coefficients), allows for assessing the consistency of the method with human annotators. The area under the precision-recall curve and Kappa statistics (Fleiss’ and Gwet’s coefficients) are novel evaluation principles for evaluating the keyword extraction tasks. It is experimentally confirmed that the method, by using knowledge from the network structure, without any additional external (linguistic or semantic) knowledge, can successfully extract the keywords from the text and it is close to the level of human annotations of keywords. Additionally, it is confirmed that a novel selectivity measure is appropriate for extraction and ranking of keywords. The proposed SBKE method demonstrates its potential for keyword extraction from different domains of texts, from individual documents or the collection of documents and for portability to new languages. The portability and low cost-feasibility of SBKE characterize the method as a highly desirable candidate for unsupervised automatic keyword extraction, especially in the absence of human annotated resources, for under-resourced languages (lacking the natural language processing resources, and tools) or for a multilingual keyword extraction task.Automatsko izlučivanje ključnih riječi iz teksta je početni korak u brojnim sustavima za računalnu analizu prirodnog jezika (engl. natural language processing), dubinsku analizu teksta (engl. text mining) i pretraživanje informacija (engl. information retrieval). Ključne riječi jezgrovito i kompaktno opisuju tematiku teksta. Doktorska disertacija proučava problematiku automatskog izlučivanja ključnih riječi iz teksta te predlaže novu metodu za taj postupak. Razvijena metoda pripada skupini nenadziranih metoda baziranih na grafovima (engl. graphbased), odnosno baziranih na jezičnim kompleksnim mrežama (engl. language complex network). U postupku razvoja i vrednovanja koristi se standardna metodologija iz područja pretraživanja informacija (engl. information retrieval) i računalne obrade prirodnog jezika. U okviru metode, predložene su nove mjere centralnosti koje prethodno nisu bile korištene u postupcima ekstrakcije ključnih riječi iz teksta: selektivnost čvora (engl. node selectivity) i generalizirana selektivnost čvora (engl. generalized selectivity). Selektivnost čvora se definira na usmjerenoj težinskoj mreži kao prosječna težina distribuirana na bridovima pojedinog čvora mreže. Metoda za izlučivanje ključnih riječi bazirana na selektivnosti čvora – SBKE metoda (engl. selectivity-based keyword extraction) ne zahtjeva dodatna lingvistička znanja već je izvedena iz definirane strukture mreže, što je čini pogodnom za korištenje na tekstovima zapisanim u različitim prirodnim jezicima, dakle i u višejezičnom scenariju primjene. Predložena SBKE metoda, testirana je na podatkovnim skupovima (1) različitih prirodnih jezika (hrvatski, engleski, srpski i talijanski), (2) na različitim domenama (sažecima iz rudarstva i geologije, kritikama i esejima iz arhitekture i dizajna, novinskim člancima informativnog karaktera iz područja kulture, sporta, politike i sl. te tehničkim tekstovima s Wikipedije iz područja računarstva), (3) za zadatke izlučivanja iz pojedinačnih dokumenta i kolekcija tekstova. U okviru disertacije, načinjeni su novi podatkovni skupovi usporedivih tekstova na više jezika kojima se može u kontroliranim uvjetima usporediti uspješnost metode za zadatke višejezičnog izlučivanja ključnih riječi. Pripremljeni su dvojezični srpsko-engleski te hrvatsko englesko-talijanski podatkovni skupovi, koji su ujedno i prvi dvojezični kao i trojezični podatkovni skupovi namijenjeni za zadatak ekstrakcije ili izlučivanja ključnih riječi. Uspješnost metode u ovoj se disertaciji mjeri empirijski pomoću mjera preciznosti, odziva, F1 i F2 te površinom ispod krivulja preciznosti i odziva. Mjere IIC (engl. inter-indexer consistency) te Kappa statistika, odonosno Fleissov i Gwetov koeficijent, su korištene za uspoređivanje konzistentnosti metode s anotacijama ljudskih eksperata. Površina ispod krivulje preciznosti i odziva te Fleissov i Gwetov koeficijent su novo predložene mjere za vrednovanje postupaka izlučivanja ključnih riječi. Eksperimentalno je potvrđeno da SBKE metoda korištenjem znanja iz strukture mreže, bez dodatnih vanjskih izvora znanja (semantičkih ili dodatnih lingvističkih), može uspješno izlučiti ključne riječi iz teksta te se rezultatski približava ljudskoj uspješnosti izvođenje zadatka. Također je pokazano da je predložena mjera selektivnosti prikladna za izlučivanje, odnosno predlaganje i rangiranje ključnih riječi. Razvijena SBKE metoda iskazuje svoj potencijal mogućnošću prilagodbe za primjenu na tekstovima pisanim na različitim jezicima i kolekcijama tekstova iz različitih domena. Jednostavne je arhitekture, prenosiva je na različite jezike i domene tekstova i ima nisku računsku zahtjevnost. Time se SBKE metoda pozicionira na listu dobrih kandidata za nenadzirano automatsko izlučivanje ključnih riječi posebice u situacijama: (1) kad ne postoje ljudski eksperti za određivanje ključnih riječi, (2) za slabije računalno poduprte jezike računalno-lingvističkim resursima i alatima, (3) kao i u situacijama višejezičnog izlučivanja ključnih riječi

    Evaluation of Croatian Word Embeddings

    No full text
    Croatian is poorly resourced and highly inflected language from Slavic language family. Nowadays, research is focusing mostly on English. We created a new word analogy dataset based on the original English Word2vec word analogy dataset and added some of the specific linguistic aspects from the Croatian language. Next, we created Croatian WordSim353 and RG65 datasets for a basic evaluation of word similarities. We compared created datasets on two popular word representation models, based on Word2Vec tool and fastText tool. Models have been trained on 1.37B tokens training data corpus and tested on a new robust Croatian word analogy dataset. Results show that models are able to create meaningful word representation. This research has shown that free word order and the higher morphological complexity of Croatian language influences the quality of resulting word embeddings
    corecore