13 research outputs found

    Otvoreni resursi i tehnologije za obradu srpskog jezika

    Get PDF
    Open language resources and tools are very important for increasing the quality and speeding up the development of technologies for natural language processing. This paper presents a set of open resources available for processing the Serbian language. We describe several manually annotated corpora, as well as a range of computational models, including a web service designed in order to facilitate their use

    Јужнословенски филолог 53

    Get PDF

    Linguistics in the Academy of Sciences and Arts of Bosnia and Herzegovina

    Get PDF
    Rad se bavi lingvističkim istraživanjima u ANUBiH, i to u dva pravca – organizacijom rada na lingvističkim ispitivanjima i analizom samih naslova objavljenih u publikacijama ANUBiH. U prvom dijelu prati se rad Odjeljenja istorijsko-filoloških nauka, kasnije Odjeljenja društvenih, pa humanističkih nauka, te Komisije za lingvistiku i Centra za leksikologiju i leksikografiju, kroz njihove najvažnije aktivnosti i projekte, uz rad Balkanološkog instituta, kasnije Centra za balkanološka ispitivanja. Drugi dio rada donosi pregled objavljenih lingvističkih tekstova. Na kraju je data bibliografija lingvističkih radova objavljenih u ANUBiH.The paper deals with linguistic research in ANUBiH in two directions – the organization of work on linguistic examinations and the analysis of the titles published in publications of ANUBiH. The first part follows the work of the Department of Historical-Philological Sciences, later the Department of Social Sciences, then the Humanities, and the Commission for Linguistics and the Center for Lexicology and Lexicography, through their most important activities and projects, along with the work of the Balkanological Institute, later the Center for Balkanological Studies. The second part of the paper provides an overview of published linguistic texts. In the end, a bibliography of linguistic works published in ANUBiH is provided

    Construction of a formal grammar of Serbian using a metagrammar

    Get PDF
    Ovaj rad predstavlja proces izrade osnova FBLTAG gramatike srpskog jezika, a zatim i proces izrade njene metagramatike, čija primena na osnovne modele rečenica u srpskom jeziku omogućava njihovu automatsku sintaksičku analizu. Prvo pogavlje rada daje uvod u polje obrade prirodnih jezika, navodeći istorijat discipline i njene podgrane. Veća pažnja posvećuje se automatskoj obradi srpskog jezika, gde se daje pregled dosad ostvarenih rezultata, počevši od analize fonetike i fonologije, pa sve do analize sintakse. Za svaku od navedenih sfera navode se i konkretni alati i resursi koji su dosad razvijeni za srpski jezik. Drugo poglavlje donosi pregled pojma formalna gramatika, da bi se zatim usmerilo na oblast unifikacionih gramatika kao modela koji čini okvir ovog rada. U nastavku se detaljno iznosi struktura unifikacione gramatike koja će u nastavku rada biti primenjena na srpski jezik ‒ FBLTAG. U drugom delu poglavlja uvodi se pojam metagramatike, kao i konkretne metagramatike koja se u ovom radu koristi za sažeto predstavljanje gramatike FBLTAG ‒ XMG. XMG se obrađuje detaljno, pri čemu se opisuje njegova struktura, namena i princip funkcionisanja, kao i perspektive za primenu na srpski jezik...This paper presents the process of creating the basis of FBLTAG grammar of the Serbian language, followed by the process of building its metagrammar, whose application on basic sentence models of Serbian allows for their automatic syntactic analysis. The first chapter of the thesis gives an introduction to the field of natural language processing by outlining the history of the discipline and its subfields. The chapter focuses on automatic processing of the Serbian language, providing an overview of the results achieved so far, spanning from the analysis of phonetics and phonology to parsing. Tools and resources that have been developed for the Serbian language are listed for each of the stated fields. The second chapter offers an overview of the concept of formal grammar, only to focus on the area of unification grammars as a framework for the thesis. The structure of the unification grammar that will later be applied to Serbian ‒ FBLTAG ‒ is presented in detail. The second part of the chapter introduces the concept of metagrammar, as well as the specific metagrammar ‒ XMG ‒ used in the thesis in order to describe FBLTAG in an abstract way. XMG is presented in detail, through describing its structure, purpose and its principles, as well as prospects for its use on the Serbian language..

    An ontology-based model for risk management in mining

    Get PDF
    Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i omogućava njihovo optimalno korišćenje. Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje. Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao i kreiranje terminološke baze podataka, realizovano korišćenjem metoda računarske lingvistike i korpusa dokumenata iz oblasti rudarstva (planova, izveštaja, zakona, udžbenika i monografija). Korišćena je i deskriptivna metoda za sistematizaciju podataka, zatim konačni automati i statističke analize za ekstrakciju informacija, kao i komparativna i analitička istraživačka metoda za vrednovanje i interpretaciju dobijenih rezultata. Za razvoj modela korišćeni su alati informacionih tehnologija: UML za modeliranje koncepata , OWL za razvoj ontologije, SWRL pravila za mehanizam zaključivanja, upitni jezici CQL nad korpusom i SPARQL nad ontologijom . Rezultati istraživanja pokazuju da je moguće formalizovati informacije i znanje o rizicima u rudarstvu, te razviti model koji će unaprediti efikasnost upravljanja rizikom i pomoći menadžmentu rudnika u donošenju odluka o primeni mera za smanjenje uticaja rizika identifikovanih u rudniku. Ostvarenjem ciljeva ove disertacije dat je doprinos povećanju efikasnosti u identifikaciji, analizi i reagovanju na rizik kroz izgradnju specifične domenske ontologije za rizike u rudarstvu.Mining production involves complex technological systems, which calls for the need to create and improve risk management systems. The heterogeneity and scope of data necessary for risk management require a system that integrates them in a flexible way and enables their optimal use. The main goal of this dissertation is to develop an ontology for the mining domain and a risk management model based on it. Its realization includes the implementation of information extraction algorithms for improving the ontology, as well as an appropriate software solution. The development of the model includes a significant expansion of the mining corpus, as well as the creation of a terminological database, realized using methods of computational linguistics and a corpus of documents from the mining domain (plans, reports, laws, textbooks and monographs). For systematization of data a descriptive method was used, finite automata and statistical analyzes for information extraction, and comparative and analytical research methods for evaluation and interpretation of the obtained results. Information technology tools were used for model development: UML for concept modeling, OWL for ontology development, SWRL rules for inference mechanism, query languages CQL for corpus and SPARQL for ontology. The research results show that it is possible to formalize information and knowledge about risks in mining and develop a model that will improve the efficiency of risk management and assist mine management in making decisions on implementing measures to reduce the impact of risks identified in a mine. Achieving the goals of this dissertation has contributed to increasing efficiency in identification, analysis and response to risk by developing a specific domain ontology for risks in mining

    Лингвистичке актуелности 1.2

    Get PDF

    Finite state models in information extraction

    Get PDF
    Disertacija je posvećena istraživanju naučne oblasti nazvane ekstrakcija informacija (engl. information extraction), koja predstavlja podoblast veštačke inteligencije, a u sebi kombinuje i koristi tehnike i dostignuća više različitih oblasti računarstva. Termin "ekstrakcija informacija" će biti korišćen u dva različita konteksta. U jednom od njih misli se na ekstrakciju informacije kao naučnu oblast i tada će se koristiti skraćenica IE, preuzeta iz anglosaksonske literature u značenju "Information Extraction". U drugom slučaju, kada se bude mislilo na sam proces i postupak izdvajanja informacija iz teksta, koristiće se oblik "ekstrakcija informacija". Ova disertacija predstavlja, pored pregleda postojećih metoda iz ove oblasti, i jedan originalni pristup i metod za ekstrakciju informacija baziran na konačnim transduktorima. Tokom istraživanja i rada na disertaciji, a primenom pomenutog metoda, kao rezultat formirana je baza podataka o mikroorganizmima koja sadrži fenotipske i genotipske karakteristike za 2412 vrsta i 873 rodova, namenjena za istraživanja iz oblasti bioinformatike i genetike. Baza i korišćeni metod su detaljno prikazani u nekoliko radova, publikovanih u časopisima ili izlaganih na međunarodnim konferencijama (Pajić, 2011; Pajić i sar. 2011a; Pajić i sar. 2011b) U glavi 1 dat je uvod u oblast ekstrakcije informacije, unutar koga je opisan istorijat i razvoj metoda ove oblasti. Dalje je opisana klasifikacija tekstualnih resursa nad kojima se vrši ekstrakcija informacija, kao i klasifikacija samih informacija. Na kraju glave 1 oblast ekstrakcije informacije je upoređena sa drugim srodnim disciplinama računarstva. Glava 2 je posvećena prikazu teorijskih osnova na kojima su zasnovana istraživanja ove disertacije. Razmatrana je teorija formalnih jezika i modela konačnih stanja, kao i njihova uzajamna veza i veza sa ekstrakcijom informacija. Akcenat je stavljen na konačne modele i metode koji su zasnovani na modelima konačnih stanja. Ovi metodi pokazuju veću preciznost od drugih metoda za ekstrakciju informacije, te su nezamenljivi u situacijama kada je tačnost izdvojenih podataka iz teksta od presudnog značaja. Pojedini pojmovi ekstrakcije informacija - jezik relevantnih informacija, jezik izdvojenih informacija, pravila ekstrakcije, definisani su iz ugla teorije formalnih jezika. Formulisano je i dokazano osnovno svojstvo relacije transdukcije za zadato pravilo ekstrakcije. Definisan je i pojam jezika konteksta informacija i dokazano je njegovo svojstvo regularnosti...This dissertation is on research and studying in scientific field called information extraction, which can be seen as a sub-area of artificial intelligence and which combines and uses techniques and achievements of several computer science areas. The term „information extraction“ will be used in two different contexts. In the first one, the term will refer to the scientific area and the acronym IE will be used in that case. In the second case, this term will refer to the very process of extracting information. Beside the IE state-of-the-art survey, an original approach and a method for information extraction based on finite state transducers are presented. A database with microbial phenotype and genotype characteristics, for 2412 species and 873 genera has been created, as a result of the research and the work on the dissertation. The database is intended for research, in bioinformatics and genetics. The method used for the creation of the database and the database itself are described in details and published in several journals and conference proceedings (Pajić, 2011; Pajić et al. 2011a; Pajić et al. 2011b). In the Section 1, the introduction to IE is given, together with the history of development of methods in this area. The classification of textual resources that are used for information extraction and classification of the information itself are described. At the end of the Section 1, IE is compared with other related disciplines of computer science. Section 2 contains some excerpts from formal language theory and abstract automata, on which the dissertation is based. The mutual relationship between these two areas and their connection with IE are described. The emphasis is put on the final state models and methods based on them. These methods show higher precision than other methods for extracting information, and are indispensable in situations where the accuracy of data extracted from the text is of crucial importance. Some specific terms of information extraction - the language of the relevant information, the language of extracted information and extraction rules, are defined from the perspective of formal language theory. The basic feature of the transduction relation for the given rule extraction is formulated and proved. The language of information context is defined and its regularilty is proven..