2 research outputs found

    Ordforbindelser: Grunnelementer i ordboken?

    Get PDF
    The article describes the construction of a lexicographic description where different types of phraseological units have a wider and more active role than is usually the case in traditional dictionaries. It relates how the description of Icelandic phrasemes and collocations has been assembled in stages, starting with a printed combinatory dictionary, going towards an electronic dictionary description. A large collection of phrasemes and colloactions has been used to identify and analyse lexical and semantic relations, and on the basis of such an analysis to classify the vocabulary according to semantic features.Moreover, the phrasemes have been widely lemmatised on a level with single words which makes it possible to pinpoint their semantic relations to single-word lemmas. Additionally, as the multi-word lemmas have a standard presentation form, the lemma strings can be grammatically tagged and categorised by syntactic constructions. A lexicographic model of this sort is based on the onomasiological standpoint. The lemmas are generally unambiguous and the description combines different roles that have usually been fulfilled by different types of dictionaries

    Dijakronijski korpus bugarskoga jezika: trenutno stanje i perspektive

    Get PDF
    Доклад отражает историю создания Диахронного корпуса болгарского языка и электронных инструментов для обработки средневековых славянских текстов с целью создания веб базированного исторического словаря болгарского языка. В диахронный корпус входят тексты доказанно болгарского происхождения Х—ХVІІІ вв., принадлежащие к разным жанрам средневековой книжности. Корпус обладает своим собственным софтвером, который позволяет адекватное комментирование текста с палеографической, кодикологической и текстологической точки зрения. Тексты набраны специально разработанными для этой цели шрифтами по стандарту UTF-‑8. К настоящему моменту мы располагаем тремя шрифтами, которые инсталированы в конвертор, позволяющий превращение ранее набранных текстов в документы по новому стандарту. Сам корпус содержит свыше 130 текстов и постоянно пополняется новыми текстами по адресу http://histdict.uni-sofia.bg/. Перед каждым текстом опубликована информация об его источниках, датировке, издании, авторе и т.п. На том же сайте находится и полностью оцифрованный словарь древнеболгарского языка (Старобългарски речник), созданный Институтом болгарского языка при БАН. И корпус, и словарь находятся в свободном доступе, но потребителям видны только полностью отредактированные тексты. Для разработки исторического словаря был создан специализированный софтвер для редактирования словарных статьей древнеболгарского словаря и создания новых словарных статей, так как исторический словарь разрабатывается на базе оцифрованного древнеболгарского словаря. К словарю разработана поисковая машина, которая облегчает работу по созданию новых словарных статьей. Ускоренным ходом идет работа и по созданию морфологического аннотатора (таггера), прототип которого тоже расположен на сайте. Аннотатор разрабатывается с помощью сoзданного тагсета и грамматического словаря древнеболгарского языка, которые учитывают все возможные формы средневекового славянского языка разных изводов. И тагсет, и грамматический словарь опубликованы на сайте в свободном доступе.U članku se iznosi povijest stvaranja Dijakronijskoga korpusa bugarskoga jezika i digitalnih alata za obradu srednjovjekovnih crkvenoslavenskih tekstova potrebnih za izradu Povijesnoga rječnika bugarskoga jezika na svemrežju. Dijakronijski korpus uključuje tekstove različitih žanrova kojima je dokazano bugarsko podrijetlo. Korpus je zasnovan na vlastitom programu koji omogućuje primjereno komentiranje s paleografske, kodikološke i tekstološke točke gledišta. Tekstovi su digitalno tipizirani s pomoću posebno konstruiranih starocrkvenoslavenskih UTF fontova. Trenutno imamo na raspolaganju tri fonta i pretvarač koji prethodno tipizirane tekstove koji nisu u Unicodeu prenosi u dokumente u Unicodeu. Do sada je u korpusu objavljeno više od 130 tekstova, a još ih je u postupku pripreme za prijenos na mrežne stranice. Korpus se nalazi na: http://histdict.uni-sofia.bg. Svaki je tekst uveden rubrikom koja sadrži podatke o njegovu izvoru, dataciji, izdanju, autoru ili autorima itd. Mrežne stranice uključuju i potpuno digitaliziranu inačicu Starocrkvenoslavenskoga rječnika (bug. Старобългарски речник), učinjenoga u Institutu za bugarski jezik BAS-a. Oboje, korpus i rječnik, objavljeni su kao izvori u otvorenom pris­tupu, s tim da je korisnicima dopušteno vidjeti samo potpuno uređene teks­tove. Poseban je program stvoren za potrebe autora Povijesnoga rječnika bugarskoga jezika. S obzirom na činjenicu da je taj povijesni rječnik zasnovan na digitalnoj inačici Starocrkvenoslavenskoga rječnika, program omogućuje uređivanje postojećih natuknica i stvaranje novih. Također, izrađena je tražilica kojoj je svrha olakšati rad na novom rječniku. Nedavno smo se usredotočili na stvaranje morfološkoga označivača (eng. tagger), čiji je prototip također dostupan na mrežnim stranicama. Morfološki je označivač zasnovan na punom rasponu morfoloških oznaka te na gramatičkom rječniku srednjobugarskoga rječnika. Puni raspon morfoloških oznaka i gramatički rječnik također su dostup­ni na mrežnim stranicama, a zajednički daju potpuni opis svih oblika u srednjocrkvenoslavenskim tekstovima
    corecore