13 research outputs found
Otvoreni resursi i tehnologije za obradu srpskog jezika
Open language resources and tools are very important for increasing the quality and speeding up the development of technologies for natural language processing. This paper presents a set of open resources available for processing the Serbian language. We describe several manually annotated corpora, as well as a range of computational models, including a web service designed in order to facilitate their use
Linguistics in the Academy of Sciences and Arts of Bosnia and Herzegovina
Rad se bavi lingvističkim istraživanjima u ANUBiH, i to u dva pravca – organizacijom rada na lingvističkim ispitivanjima i analizom samih naslova objavljenih u publikacijama ANUBiH. U prvom dijelu prati se rad Odjeljenja istorijsko-filoloških nauka, kasnije Odjeljenja društvenih, pa humanističkih nauka, te Komisije za lingvistiku i Centra za leksikologiju i leksikografiju, kroz njihove najvažnije aktivnosti i projekte, uz rad Balkanološkog instituta, kasnije Centra za balkanološka ispitivanja. Drugi dio rada donosi pregled objavljenih lingvističkih tekstova. Na kraju je data bibliografija lingvističkih radova objavljenih u ANUBiH.The paper deals with linguistic research in ANUBiH in two directions – the organization of work on linguistic examinations and the analysis of the titles published in publications of ANUBiH. The first part follows the work of the Department of Historical-Philological Sciences, later the Department of Social Sciences, then the Humanities, and the Commission for Linguistics and the Center for Lexicology and Lexicography, through their most important activities and projects, along with the work of the Balkanological Institute, later the Center for Balkanological Studies. The second part of the paper provides an overview of published linguistic texts. In the end, a bibliography of linguistic works published in ANUBiH is provided
Construction of a formal grammar of Serbian using a metagrammar
Ovaj rad predstavlja proces izrade osnova FBLTAG gramatike srpskog jezika, a zatim i proces izrade njene metagramatike, čija primena na osnovne modele rečenica u srpskom jeziku omogućava njihovu automatsku sintaksičku analizu.
Prvo pogavlje rada daje uvod u polje obrade prirodnih jezika, navodeći istorijat discipline i njene podgrane. Veća pažnja posvećuje se automatskoj obradi srpskog jezika, gde se daje pregled dosad ostvarenih rezultata, počevši od analize fonetike i fonologije, pa sve do analize sintakse. Za svaku od navedenih sfera navode se i konkretni alati i resursi koji su dosad razvijeni za srpski jezik.
Drugo poglavlje donosi pregled pojma formalna gramatika, da bi se zatim usmerilo na oblast unifikacionih gramatika kao modela koji čini okvir ovog rada. U nastavku se detaljno iznosi struktura unifikacione gramatike koja će u nastavku rada biti primenjena na srpski jezik ‒ FBLTAG. U drugom delu poglavlja uvodi se pojam metagramatike, kao i konkretne metagramatike koja se u ovom radu koristi za sažeto predstavljanje gramatike FBLTAG ‒ XMG. XMG se obrađuje detaljno, pri čemu se opisuje njegova struktura, namena i princip funkcionisanja, kao i perspektive za primenu na srpski jezik...This paper presents the process of creating the basis of FBLTAG grammar of the Serbian language, followed by the process of building its metagrammar, whose application on basic sentence models of Serbian allows for their automatic syntactic analysis.
The first chapter of the thesis gives an introduction to the field of natural language processing by outlining the history of the discipline and its subfields. The chapter focuses on automatic processing of the Serbian language, providing an overview of the results achieved so far, spanning from the analysis of phonetics and phonology to parsing. Tools and resources that have been developed for the Serbian language are listed for each of the stated fields.
The second chapter offers an overview of the concept of formal grammar, only to focus on the area of unification grammars as a framework for the thesis. The structure of the unification grammar that will later be applied to Serbian ‒ FBLTAG ‒ is presented in detail. The second part of the chapter introduces the concept of metagrammar, as well as the specific metagrammar ‒ XMG ‒ used in the thesis in order to describe FBLTAG in an abstract way. XMG is presented in detail, through describing its structure, purpose and its principles, as well as prospects for its use on the Serbian language..
An ontology-based model for risk management in mining
Rudarska proizvodnja obuhvata kompleksne tehnološke sisteme, što nameće potrebu za
uspostavljanjem i unapređivanjem sistema upravljanja rizikom. Heterogenost i obim podataka
neophodnih za upravljanje rizikom zahtevaju sistem koji ih na fleksibilan način integriše i
omogućava njihovo optimalno korišćenje.
Osnovni cilj ove disertacije je razvoj ontologije za domen rudarstva i na njoj zasnovanog modela
za upravljanje rizikom. Njegova realizacija podrazumeva i implementaciju algoritama
ekstrakcije informacija za popunjavanje ontologije, kao i odgovarajuće softversko rešenje.
Razvoj modela obuhvata i značajno proširenje rudarskog korpusa, kao i kreiranje terminološke
baze podataka, realizovano korišćenjem metoda računarske lingvistike i korpusa dokumenata
iz oblasti rudarstva (planova, izveštaja, zakona, udžbenika i monografija). Korišćena je i
deskriptivna metoda za sistematizaciju podataka, zatim konačni automati i statističke analize
za ekstrakciju informacija, kao i komparativna i analitička istraživačka metoda za vrednovanje
i interpretaciju dobijenih rezultata.
Za razvoj modela korišćeni su alati informacionih tehnologija: UML za modeliranje koncepata ,
OWL za razvoj ontologije, SWRL pravila za mehanizam zaključivanja, upitni jezici CQL nad
korpusom i SPARQL nad ontologijom .
Rezultati istraživanja pokazuju da je moguće formalizovati informacije i znanje o rizicima u
rudarstvu, te razviti model koji će unaprediti efikasnost upravljanja rizikom i pomoći
menadžmentu rudnika u donošenju odluka o primeni mera za smanjenje uticaja rizika
identifikovanih u rudniku.
Ostvarenjem ciljeva ove disertacije dat je doprinos povećanju efikasnosti u identifikaciji, analizi
i reagovanju na rizik kroz izgradnju specifične domenske ontologije za rizike u rudarstvu.Mining production involves complex technological systems, which calls for the need to create
and improve risk management systems. The heterogeneity and scope of data necessary for risk
management require a system that integrates them in a flexible way and enables their optimal
use.
The main goal of this dissertation is to develop an ontology for the mining domain and a risk
management model based on it. Its realization includes the implementation of information
extraction algorithms for improving the ontology, as well as an appropriate software solution.
The development of the model includes a significant expansion of the mining corpus, as well as
the creation of a terminological database, realized using methods of computational linguistics
and a corpus of documents from the mining domain (plans, reports, laws, textbooks and
monographs). For systematization of data a descriptive method was used, finite automata and
statistical analyzes for information extraction, and comparative and analytical research
methods for evaluation and interpretation of the obtained results.
Information technology tools were used for model development: UML for concept modeling,
OWL for ontology development, SWRL rules for inference mechanism, query languages CQL for
corpus and SPARQL for ontology.
The research results show that it is possible to formalize information and knowledge about
risks in mining and develop a model that will improve the efficiency of risk management and
assist mine management in making decisions on implementing measures to reduce the impact
of risks identified in a mine.
Achieving the goals of this dissertation has contributed to increasing efficiency in identification,
analysis and response to risk by developing a specific domain ontology for risks in mining
Finite state models in information extraction
Disertacija je posvećena istraživanju naučne oblasti nazvane ekstrakcija
informacija (engl. information extraction), koja predstavlja podoblast veštačke
inteligencije, a u sebi kombinuje i koristi tehnike i dostignuća više različitih oblasti
računarstva. Termin "ekstrakcija informacija" će biti korišćen u dva različita konteksta.
U jednom od njih misli se na ekstrakciju informacije kao naučnu oblast i tada će se
koristiti skraćenica IE, preuzeta iz anglosaksonske literature u značenju "Information
Extraction". U drugom slučaju, kada se bude mislilo na sam proces i postupak
izdvajanja informacija iz teksta, koristiće se oblik "ekstrakcija informacija".
Ova disertacija predstavlja, pored pregleda postojećih metoda iz ove oblasti, i
jedan originalni pristup i metod za ekstrakciju informacija baziran na konačnim
transduktorima. Tokom istraživanja i rada na disertaciji, a primenom pomenutog
metoda, kao rezultat formirana je baza podataka o mikroorganizmima koja sadrži
fenotipske i genotipske karakteristike za 2412 vrsta i 873 rodova, namenjena za
istraživanja iz oblasti bioinformatike i genetike. Baza i korišćeni metod su detaljno
prikazani u nekoliko radova, publikovanih u časopisima ili izlaganih na međunarodnim
konferencijama (Pajić, 2011; Pajić i sar. 2011a; Pajić i sar. 2011b)
U glavi 1 dat je uvod u oblast ekstrakcije informacije, unutar koga je opisan
istorijat i razvoj metoda ove oblasti. Dalje je opisana klasifikacija tekstualnih resursa
nad kojima se vrši ekstrakcija informacija, kao i klasifikacija samih informacija. Na
kraju glave 1 oblast ekstrakcije informacije je upoređena sa drugim srodnim
disciplinama računarstva.
Glava 2 je posvećena prikazu teorijskih osnova na kojima su zasnovana
istraživanja ove disertacije. Razmatrana je teorija formalnih jezika i modela konačnih
stanja, kao i njihova uzajamna veza i veza sa ekstrakcijom informacija. Akcenat je
stavljen na konačne modele i metode koji su zasnovani na modelima konačnih stanja.
Ovi metodi pokazuju veću preciznost od drugih metoda za ekstrakciju informacije, te su
nezamenljivi u situacijama kada je tačnost izdvojenih podataka iz teksta od presudnog
značaja. Pojedini pojmovi ekstrakcije informacija - jezik relevantnih informacija, jezik
izdvojenih informacija, pravila ekstrakcije, definisani su iz ugla teorije formalnih jezika.
Formulisano je i dokazano osnovno svojstvo relacije transdukcije za zadato pravilo
ekstrakcije. Definisan je i pojam jezika konteksta informacija i dokazano je njegovo
svojstvo regularnosti...This dissertation is on research and studying in scientific field called
information extraction, which can be seen as a sub-area of artificial intelligence and
which combines and uses techniques and achievements of several computer science
areas. The term „information extraction“ will be used in two different contexts. In the
first one, the term will refer to the scientific area and the acronym IE will be used in that
case. In the second case, this term will refer to the very process of extracting
information.
Beside the IE state-of-the-art survey, an original approach and a method for
information extraction based on finite state transducers are presented. A database with
microbial phenotype and genotype characteristics, for 2412 species and 873 genera has
been created, as a result of the research and the work on the dissertation. The database is
intended for research, in bioinformatics and genetics. The method used for the creation
of the database and the database itself are described in details and published in several
journals and conference proceedings (Pajić, 2011; Pajić et al. 2011a; Pajić et al. 2011b).
In the Section 1, the introduction to IE is given, together with the history of
development of methods in this area. The classification of textual resources that are
used for information extraction and classification of the information itself are described.
At the end of the Section 1, IE is compared with other related disciplines of computer
science.
Section 2 contains some excerpts from formal language theory and abstract
automata, on which the dissertation is based. The mutual relationship between these two
areas and their connection with IE are described. The emphasis is put on the final state
models and methods based on them. These methods show higher precision than other
methods for extracting information, and are indispensable in situations where the
accuracy of data extracted from the text is of crucial importance. Some specific terms of
information extraction - the language of the relevant information, the language of
extracted information and extraction rules, are defined from the perspective of formal
language theory. The basic feature of the transduction relation for the given rule
extraction is formulated and proved. The language of information context is defined and
its regularilty is proven..