101 research outputs found

    Detecting and parsing embedded lightweight structures

    Get PDF
    Thesis (M. Eng.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2005.Includes bibliographical references (p. 71-72).Text documents, web pages, and source code are all documents that contain language structures that can be parsed with corresponding parsers. Some documents, like JSP pages, Java tutorial pages, and Java source code, often have language structures that are nested within another language structure. Although parsers exist exclusively for the outer and inner language structure, neither is suited for parsing the embedded structures in the context of the document. This thesis presents a new technique for selectively applying existing parsers on intelligently transformed document content. The task of parsing these embedded structures can be broken up into two phases: detection of embedded structures and parsing of those embedded structures. In order to detect embedded structures, we take advantage of the fact that there are natural boundaries in any given language in which these embedded structures can appear. We use these natural boundaries to narrow our search space for embedded structures. We further reduce the search space by using statistical analysis of token frequency for different language types. By combining the use of natural boundaries and the use of token frequency analysis, we can, for any given document, generate a set of regions that have a high probability of being an embedded structure.(cont.) To parse the embedded structures, the text of the region must often be transformed into a form that is readable by the intended parser. Our approach provides a systematic way to transform the document content into a form that is appropriate for the embedded structure parser using simple replacement rules. Using our knowledge of natural boundaries and statistical analysis of token frequency, we are able to locate regions of embedded structures. Combined with replacement rules which transform document content into a parsable form, we are successfully able to parse a range of documents with embedded structures using existing parsers.by Philip Rha.M.Eng

    The Computational Analysis of the Syntax and Interpretation of Free Word Order in Turkish

    Get PDF
    In this dissertation, I examine a language with “free” word order, specifically Turkish, in order to develop a formalism that can capture the syntax and the context-dependent interpretation of “free” word order within a computational framework. In “free” word order languages, word order is used to convey distinctions in meaning that are not captured by traditional truth-conditional semantics. The word order indicates the “information structure”, e.g. what is the “topic” and the “focus” of the sentence. The context-appropriate use of “free” word order is of considerable importance in developing practical applications in natural language interpretation, generation, and machine translation. I develop a formalism called Multiset-CCG, an extension of Combinatory Categorial Grammars, CCGs, (Ades/Steedman 1982, Steedman 1985), and demonstrate its advantages in an implementation of a data-base query system that interprets Turkish questions and generates answers with contextually appropriate word orders. Multiset-CCG is a context-sensitive and polynomially parsable grammar that captures the formal and descriptive properties of “free” word order and restrictions on word order in simple and complex sentences (with discontinuous constituents and long distance dependencies). Multiset-CCG captures the context-dependent meaning of word order in Turkish by compositionally deriving the predicate-argument structure and the information structure of a sentence in parallel. The advantages of using such a formalism are that it is computationally attractive and that it provides a compositional and flexible surface structure that allows syntactic constituents to correspond to information structure constituents. A formalism that integrates information structure and syntax such as Multiset-CCG is essential to the computational tasks of interpreting and generating sentences with contextually appropriate word orders in “free” word order languages

    音声翻訳における文解析技法について

    Get PDF
    本文データは平成22年度国立国会図書館の学位論文(博士)のデジタル化実施により作成された画像ファイルを基にpdf変換したものである京都大学0048新制・論文博士博士(工学)乙第8652号論工博第2893号新制||工||968(附属図書館)UT51-94-R411(主査)教授 長尾 真, 教授 堂下 修司, 教授 池田 克夫学位規則第4条第2項該当Doctor of EngineeringKyoto UniversityDFA

    The Role of Lexical Morphology, In Light of Recent Developments.

    Get PDF
    In recent years there has been a growing interest in psycholinguistic approaches to modelling morphology. Theorists working within this framework claim that the formal theory of lexical stratification is untenable in light of recent discoveries. In order to address these claims, this paper engages closely with a number of lexical stratification models, with a particular focus on Giegerich’s base-driven stratal model, as well as a number of cognitive based approaches. A critical discussion of some “problematic” circumstances — which arise as a result of derivational suffixation as well as compounding — that have identified in the psycholinguistic and lexicalist literature reveals some interesting similarities between the stratal model and the cognitive approaches. To investigate these apparent similarities, this paper examines a number of theories that model the way words are accessed from the mental lexicon, and their applicability to the stratal model. Finally, key data from a number of neuro-imaging studies is brought to bear upon the stratal model. Engaging closely with this data, it became clear that the neuro-linguistic findings are not incompatible with the features of stratal models. By exploiting this data, some ideas regarding a potential synthesis between the two theoretical frameworks are tentatively put forward, and some key issues are highlighted as possible areas of interest for future research

    A community convention for ecological forecasting: output files and metadata

    Get PDF
    This document summarizes the open community standards developed by the Ecological Forecasting Initiative (EFI) for the common formatting and archiving of ecological forecasts and the metadata associated with these forecasts. Such open standards are intended to promote interoperability and facilitate forecast adoption, distribution, validation, and synthesis. For output files EFI has adopted a three-tiered approach reflecting trade-offs in forecast data volume and technical expertise. The preferred output file format is netCDF following the Climate and Forecast Convention for dimensions and variable naming, including an ensemble dimension where appropriate. The second-tier option is a semi-long CSV format, with state variables as columns and each row representing a unique issue date time, prediction date time, location, ensemble member, etc. The third-tier option is similar to option 2, but each row represents a specific summary statistic (mean, upper/lower CI) rather than individual ensemble members. For metadata, EFI expands upon the Ecological Metadata Language (EML), using additional Metadata tags to store information designed to facilitate cross-forecast synthesis (e.g. uncertainty propagation, data assimilation, model complexity) and setting a subset of base EML tags (e.g. temporal resolution, output variables) to be required. To facilitate community adoption we also provides a R package containing a number of vignettes on how to both write and read in the EFI standard, as well as a metadata validator tool.First author draf

    Polish and English consonantal clusters : a contrastive analysis within the strict CV frameworks

    Get PDF
    Podstawowym zadaniem niniejszej pracy jest wyjaśnienie przyczyny zróżnicowania grup spółgłoskowych w języku angielskim i polskim. Różnica ta sprowadza się do liczby segmentów i kolejności ich występowania, jest ona szczególnie widoczna w nagłosowych zbitkach spółgłoskowych występujących w początkowej pozycji wyrazu. Ogólnie rzecz ujmując, język polski, w przeciwieństwie do języka angielskiego, ma złożone grupy spółgłoskowe (nawet do czterech segmentów), w których kolejność spółgłosek jest stosunkowo dowolna — spółgłoska właściwa może poprzedzać spółgłoskę oraz następować po spółgłosce sonornej. Dodatkowo w pracy tej staramy się wyjaśnić ścisłą zależność między liczbą segmentów pojawiających się w nagłosowych grupach spółgłoskowych i ich stosunkowo dowolną kolejnością. Inaczej mówiąc, próbujemy odpowiedzieć na pytanie, dlaczego w językach o względnie prostych grupach spółgłoskowych, jak na przykład w języku angielskim, segmenty pojawiają się w ściśle określonej kolejności — spółgłoska właściwa zawsze poprzedza spółgłoskę sonorną (pomijając zbitki typu s + spółgłoska), a w językach o złożonych grupach spółgłoskowych kolejność występowania segmentów jest stosunkowo dowolna. Kolejnym celem, jaki stawiamy sobie w tej pracy, jest udowodnienie, że granica początku wyrazu, tradycyjnie oznaczana symbolem kratki ,,#”, jest w rzeczywistości obiektem o ściśle fonologicznym charakterze — pustą jednostką CV, tj. pustą pozycją spółgłoskową, po której następuje pusta pozycja samogłoskowa. Z uwagi na fakt, że obiekt ten, będąc pustą jednostką CV, musi podlegać tym samym prawom co inne puste pozycje, jego obecność ma bezpośredni wpływ na procesy fonologiczne, a także na sylabifikację grup spółgłoskowych. Ściślej mówiąc, w pracy tej staramy się wykazać, iż zastąpienie granicy początku wyrazu pustą jednostką CV ( L o w e n s t am m 1999) jest nie tyle możliwe, ile bezwzględnie konieczne, szczególnie w przypadku wyjaśnienia różnic w budowie nagłosowych grup spółgłoskowych w różnych językach. Do zrealizowania wspomnianych celów posłużyła nam szczegółowa analiza procesów fonologicznych, które swoim zasięgiem obejmują spółgłoski sonorne. W języku polskim są to: zbitki spółgłoskowe, w których pojawiają się tzw. uwięzione sonoranty (trapped sonorants), jak również zjawisko rozbicia wargowych spółgłosek miękkich na dwa segmenty, tj. na spółgłoskę wargową i półsamogłoskę j, i ich dalszy rozwój w dialekcie kurpiowskim. W języku angielskim zajęliśmy się natomiast analizą spółgłosek zgłoskotwórczych. Dodatkowo proponujemy wyjaśnienie przyczyny powstania „pozornych” zbitek spółgłoskowych (bogus clusters) i wyjaśnienie mechanizmu synkopy samogłoskowej w języku angielskim. W pracy tej udowadniamy, że zjawiska pozornie niemające ze sobą nic wspólnego, takie jak spółgłoski zgłoskotwórcze, , pozorne” zbitki spółgłoskowe i synkopa, mają w rzeczywistości jedno źródło i można je opisać za pomocą tego samego mechanizmu. Wnioski płynące z analizy poszczególnych procesów fonologicznych oraz z dystrybucji segmentów w nagłosowych grupach spółgłoskowych potwierdzają konieczność wprowadzenia pustej jednostki CV do fonologicznego opisu języków. Dodatkowo, analiza poszczególnych przykładów z języka polskiego i angielskiego dowodzi, iż spółgłoski sonorne odgrywają aktywną, a nie, jak zwykło się przyjmować we wcześniejszych analizach, bierną rolę w procesach fonologicznych. Dotyczy to również takich procesów, w których spółgłoskom sonornym przypisywano do tej pory zdecydowanie bierny charakter, np. formowanie półgeminantów typu nosowa + wybuchowa i wybuchowa + nosowa w języku angielskim i niemieckim czy synkopa samogłoskowa w języku angielskim. W niniejszej pracy wykazaliśmy, że czynnikiem warunkującym fonologiczną aktywność sonorantów jest pozycja, jaką spółgłoski te zajmują w strukturze sylaby. W sytuacji, gdy spółgłoska sonorna znajdzie się w pozycji słabej (przed pustą pozycją samogłoskową), możemy obserwować jej ekspansję w kierunku pozycji sąsiednich. To rozwiązanie tłumaczy obecność uwięzionych spółgłosek sonornych w języku polskim, powstawanie spółgłosek zgłoskotwórczych w języku angielskim, niemieckim czy czeskim, a także występowanie takich zjawisk, jak „pozorne” zbitki spółgłoskowe i synkopa samogłoskowa w języku angielskim i niemieckim. Podsumowując, w pracy tej wyjaśniamy przyczynę zróżnicowania nagłosowych grup spółgłoskowych między językiem angielskim a językiem polskim. Wskazujemy na konieczność zastąpienia tradycyjnego pojęcia początku wyrazu pustą jednostką CV i wprowadzenia jej do teorii fonologii. Ponadto udowadniamy, że część zjawisk fonologicznych, często pozornie ze sobą niezwiązanych, można wyjaśnić, podając ich wspólną przyczynę, którą jest reakcja sonorantów na zajmowane miejsce w strukturze sylaby. Rozwiązanie to otwiera drogę dalszym badaniom, pozwalając spojrzeć w nowatorski sposób na grupy spółgłoskowe w innych językach, może przyczynić się również do zrozumienia procesów, w których obserwuje się obecność spółgłosek sonornych

    The information rate and other parameters of probabilistic context free grammars and their parsers

    Get PDF
    Probabilistic context-free languages are defined by giving predetermined probabilities (preprobabilities) for the choices that their grammars make when generating. Chapter 1 shows how to carry out the above definition, and how to calculate some parameters or the language; for instance: average length or work, mean square length, digraph probabilities, entropy. Chapter 2 introduces generating ffunctions related to grammars. It uses them to derive a condition for which preprobabilities give rise to well-fformed probability spaces. Two ffunctions, the length and entropy generating ffunctions are studied in detail. They are algebraic ffunctions, can in general only be defined implicitly, but can be used to give unified explicit methods or calculating all the parameters or chapter I (and more). Chapter 3 defines and shows how to calculate the information rate or a language. As a by-blow, Macmillan's theorem is extended (for a small class or processes) to an analogue or the Central Limit Theorem. Chapter 4 tries to compare the efficiencies or different parsing algorithms. In a reasonable sense, all deterministic parsers take equal average time to parse, any backtracking parser is slower, but there is no general algorithm for calculating the speed or a backtracking parser
    corecore