    Learning Language from a Large (Unannotated) Corpus

    A novel approach to the fully automated, unsupervised extraction of dependency grammars and associated syntax-to-semantic-relationship mappings from large text corpora is described. The suggested approach builds on the authors' prior work with the Link Grammar, RelEx and OpenCog systems, as well as on a number of prior papers and approaches from the statistical language learning literature. If successful, this approach would enable the mining of all the information needed to power a natural language comprehension and generation system, directly from a large, unannotated corpus.Comment: 29 pages, 5 figures, research proposa

    A Proof-Theoretic Approach to Scope Ambiguity in Compositional Vector Space Models

    We investigate the extent to which compositional vector space models can be used to account for scope ambiguity in quantified sentences (of the form "Every man loves some woman"). Such sentences containing two quantifiers introduce two readings, a direct scope reading and an inverse scope reading. This ambiguity has been treated in a vector space model using bialgebras by (Hedges and Sadrzadeh, 2016) and (Sadrzadeh, 2016), though without an explanation of the mechanism by which the ambiguity arises. We combine a polarised focussed sequent calculus for the non-associative Lambek calculus NL, as described in (Moortgat and Moot, 2011), with the vector based approach to quantifier scope ambiguity. In particular, we establish a procedure for obtaining a vector space model for quantifier scope ambiguity in a derivational way.Comment: This is a preprint of a paper to appear in: Journal of Language Modelling, 201


    The article studies the concept hedging by focusing on problems concerning definition, the history of its origin and classifications of hedge-markers. The study aims to look at the way hedging works in context rather than in isolation. It also strives to contribute to the research on hedges considering them within the framework of P. Brown and S. Levinson’s politeness theory as face-saving strategies both in spoken and academic written discourse. Its objective is to find and offer the ways of making verbal and non-verbal communication more effective through providing interlocutors in discourse with both the knowledge about hedges and the opportunity to develop their skills in using them as a communicative strategy.Hedging as analyzed in the present article builds upon the corpus approach framework and is accounted for through sociolinguistic criteria. The major findings refer to examining both the rate and range of hedge markers used by learners of English and Ukrainian at varying proficiency levels. The article claims that hedges can belong to any part of speech and lists as examples nouns, verbs, adjectives. Recently, so-called lexical bundles referred to as word clusters have attracted the attention of corpus linguists. Clusters are understood as word chains consisting of 2-5 components, which are located in contact and are reproduced in speech as integral phrases. These include both recurrent complete sentences and structurally incomplete word-combinations. In this context, it should be emphasized no linguistic items are inherently hedgy, but can acquire this quality depending on the communicative context.The article explores the ambiguity of cross-cultural hedge correspondences.Исследовано понятие лингвистического хеджинга с акцентом на вопросах трактовки его дефиниций, истории возникновения и классификации хедж-маркеров. Механизм выбора средств хеджинга исследован в рамках теории вежливости П. Брауна и С. Левинсона как стратегия сохранения лица собеседника в интерактивном взаимодействии. Цель исследования − найти и предложить способы интенсификации вербального и невербального общения, предоставляя участникам дискурса как знания о средствах хеджирования, так и возможность развить навыки его использования как коммуникативной стратегии.Анализ хеджинга строится на основе корпусных исследований с учетом социолингвистических критериев. Основные результаты относятся к изучению диапазонахедж-маркеров, используемых в английском и украинском языках на разных языковых уровнях. Феномен хеджирования в лингвистике манифестируется с помощью множества языковых средств: имен существительных, глаголов, прилагательных. В последнее время в центре внимания корпусных лингвистов оказываются лексические пучки, называемые кластерами слов. Под кластерами понимаются словосочетания, состоящие из 2–5 компонентов, которые расположены контактно и воспроизводятся в речи в виде цельных словосочетаний. К ним относятся как рекуррентные полные предложения, так и структурно неполные сочетания знаменательных и служебных слов. В этом контексте следует подчеркнуть, что ни одно лингвистическое явление не является по своей сути средством хеджирования, но может приобретать это качество в зависимости от коммуникативного контекста.В статье исследована неоднозначность межъязыковых соответствий средств хеджинга.Досліджено концепт хеджингу в лінгвістиці, висвітлено питання щодо трактування його визначення, історії походження та класифікацій хедж-маркерів. Концепт хеджингу розглянуто в рамках теорії ввічливості П. Брауна, С. Левінсона як стратегію збереження обличчя співрозмовника в текстах розмовного та академічного писемного дискурсу. Стаття ставить своєю метою знайти і запропонувати засоби більш ефективного вербального й непрямого спілкування шляхом надання співрозмовникам дискурсу знань як про особливості функціювання засобів хеджингу, так і можливостей розвинення навичок щодо їх використання у якості комунікативної стратегії.Феномен лінгвістичного хеджингу, як проаналізовано в цій статті, базується на структурі корпусного підходу і враховує цілу низку соціолінгвістичних критеріїв. У дослідженні вивчено рівень та діапазон маркерів хеджингу, що використовуються в англійській та українській мовах у різних типах дискурсу. Визначено, що засоби хеджингу можуть належати до будь-якої частини мови; наведено приклади вживання іменників, дієслів та прикметників у цій функції. Проаналізовано так звані “лексичні пучки”, кластери слів, що останнім часом привертають увагу вітчизняних та зарубіжних корпусних мовознавців, що опікуються проблемами стратегій та тактик у різних типах дискурсу. Під кластерами розуміють об’єднання кількох (2–5) однорідних слів-компонентів, яке можна розглядати як самостійну одиницю, що має певні властивості. У мові кластери відтворюються як цілісні фрази. До них належать як повторювані повні речення, так і структурно неповні словосполучення. У цьому контексті слід підкреслити, що жодні мовні одиниці за своєю суттю не є хеджинговими, але можуть набути цієї якості залежно від комунікативного контексту.У статті досліджено двозначність міжмовних відповідностей хеджингу

    Walking the line: Balancing description, argumentation and theory in academic grammar writing

    This chapter explores how to incorporate linguistic typology, argumentation, and theor- etical innovation into a reference grammar. It provides recommendations on how to produce a balanced grammar that is firmly grounded in theory, responsible to the unique structures of the language, and comprehensible now and over time. Linguistic typology provides a set of widely recognized linguistic categories used in the classification of grammatical patterns. These can be taken as starting points from which the structures of the language can be compared, contrasted, explored, and explained, profiling the unique shapes of language-particular categories. Argumentation for particular analyses provides clarification and explanation, although excessive argumentation can obscure descriptive facts. Simply asserting facts is appropriate for lower-level linguistic features, simple canonical structures, or uncontroversial elements or their functions. Argumentation is appropriate when structures differ from typologically-expected patterns, when the analysis counters descriptions in the literature, and in cases of multiple interpretations of a structure. Grammar writing immerses researchers in the structure of a language, revealing new vistas of understanding and novel ways of interpreting structure. Theoretically innov- ative analyses that reflect these insights can be incorporated as long as they are motivated, well-explained, and balanced by a typologically-informed descriptive base.National Foreign Language Resource Cente

    [Review of the book Pronouns by D.N.S. Bhat]

    A New Approach to LL and LR Parsing

    Cílem této práce je vytvořit nový efektivní způsob syntaktické analýzy propojením LL a LR přístupů. Pro demonstrační účely je zhotoven nový programovací jazyk podle vzoru programovacího jazyka PHP. Tento jazyk je rozdělen na části, kde pro každou část je použita ta nejvhodnejší ze zmíněných metod. Jednotlivé metody jsou zde podrobněji popsané v kontextu dvou typů přístupů. Jedním z nich je syntaktická analýza shora dolů a tím druhým opačná verze, syntaktická analýza zdola nahoru. Pro každou separovanou část je vytvořen samostatný syntaktický analyzátor. Táto práce poskytuje kompletní teoretický základ k sestrojení všech zde použitých syntaktických analyzátorů a rozkladových tabulek. Nakonec jsou sestrojené analyzátory společne propojeny, což je úspěšné zakončení praktické demonstrace naší metody. V závěru jsou diskutovány dosažené výsledky práce jako efektivnejší druh syntaktické analýzy, modularita přístupu a podobně. Je zde také diskutovaná použitelnost navržené metody za účelem zefektivnení vývoje a rychlosti překladu. Jako poslední jsou uvedeny náměty pro další výzkum v této oblasti.The aim of this thesis is to create a new effective parsing method via connection of LL and LR approaches. For demonstration purpose is made a new programming language according to the pattern of PHP. The language is separated into the sections and for constituent sections is chosen the most appropriate from the mentioned methods. For every section is created its own syntax analyser. The thesis provides a complete theoretical basis to construct every syntax analyser that has been used here. Finally, the syntax analysers are connected together and new method is practically presented. In conclusion, contributions of this work are discussed, such as the faster parser or the improved development. It also discusses usability of the designed method and suggestions for the next possible research in this area.