3 research outputs found
Treebank-based acquisition of Chinese LFG resources for parsing and generation
This thesis describes a treebank-based approach to automatically acquire robust,wide-coverage Lexical-Functional Grammar (LFG) resources for Chinese parsing
and generation, which is part of a larger project on the rapid construction of deep, large-scale, constraint-based, multilingual grammatical resources. I present an application-oriented LFG analysis for Chinese core linguistic phenomena and (in cooperation with PARC) develop a gold-standard dependency-bank of Chinese f-structures for evaluation. Based on the Penn Chinese Treebank, I design and implement two architectures for inducing Chinese LFG resources, one annotation-based and the other dependency conversion-based. I then apply the f-structure acquisition algorithm together with external, state-of-the-art parsers to parsing new text into "proto" f-structures. In order to convert "proto" f-structures into "proper" f-structures or deep dependencies, I present a novel Non-Local Dependency (NLD) recovery algorithm using subcategorisation frames and f-structure paths linking antecedents and traces in NLDs extracted from the automatically-built LFG f-structure treebank. Based on the grammars extracted from the f-structure annotated treebank, I develop a PCFG-based chart generator and a new n-gram based pure dependency generator to realise Chinese sentences from LFG f-structures.
The work reported in this thesis is the first effort to scale treebank-based, probabilistic Chinese LFG resources from proof-of-concept research to unrestricted, real
text. Although this thesis concentrates on Chinese and LFG, many of the methodologies, e.g. the acquisition of predicate-argument structures, NLD resolution and
the PCFG- and dependency n-gram-based generation models, are largely language and formalism independent and should generalise to diverse languages as well as to labelled bilexical dependency representations other than LFG
Wide-coverage statistical parsing with minimalist grammars
Syntactic parsing is the process of automatically assigning a structure to a string
of words, and is arguably a necessary prerequisite for obtaining a detailed and precise
representation of sentence meaning. For many NLP tasks, it is sufficient to use
parsers based on simple context free grammars. However, for tasks in which precision
on certain relatively rare but semantically crucial constructions (such as unbounded
wh-movements for open domain question answering) is important, more expressive
grammatical frameworks still have an important role to play.
One grammatical framework which has been conspicuously absent from journals
and conferences on Natural Language Processing (NLP), despite continuing to dominate
much of theoretical syntax, is Minimalism, the latest incarnation of the Transformational
Grammar (TG) approach to linguistic theory developed very extensively
by Noam Chomsky and many others since the early 1950s. Until now, all parsers
using genuine transformational movement operations have had only narrow coverage
by modern standards, owing to the lack of any wide-coverage TG grammars or treebanks
on which to train statistical models. The received wisdom within NLP is that
TG is too complex and insufficiently formalised to be applied to realistic parsing tasks.
This situation is unfortunate, as it is arguably the most extensively developed syntactic
theory across the greatest number of languages, many of which are otherwise
under-resourced, and yet the vast majority of its insights never find their way into NLP
systems. Conversely, the process of constructing large grammar fragments can have
a salutary impact on the theory itself, forcing choices between competing analyses of
the same construction, and exposing incompatibilities between analyses of different
constructions, along with areas of over- and undergeneration which may otherwise go
unnoticed.
This dissertation builds on research into computational Minimalism pioneered by
Ed Stabler and others since the late 1990s to present the first ever wide-coverage Minimalist
Grammar (MG) parser, along with some promising initial experimental results.
A wide-coverage parser must of course be equipped with a wide-coverage grammar,
and this dissertation will therefore also present the first ever wide-coverage MG, which
has analyses with a high level of cross-linguistic descriptive adequacy for a great many
English constructions, many of which are taken or adapted from proposals in the mainstream
Minimalist literature. The grammar is very deep, in the sense that it describes
many long-range dependencies which even most other expressive wide-coverage grammars
ignore. At the same time, it has also been engineered to be highly constrained,
with continuous computational testing being applied to minimize both under- and over-generation.
Natural language is highly ambiguous, both locally and globally, and even with a
very strong formal grammar, there may still be a great many possible structures for a
given sentence and its substrings. The standard approach to resolving such ambiguity
is to equip the parser with a probability model allowing it to disregard certain unlikely
search paths, thereby increasing both its efficiency and accuracy. The most successful
parsing models are those extracted in a supervised fashion from labelled data in the
form of a corpus of syntactic trees, known as a treebank. Constructing such a treebank
from scratch for a different formalism is extremely time-consuming and expensive,
however, and so the standard approach is to map the trees in an existing treebank into
trees of the target formalism. Minimalist trees are considerably more complex than
those of other formalisms, however, containing many more null heads and movement
operations, making this conversion process far from trivial. This dissertation will describe
a method which has so far been used to convert 56% of the Penn Treebank trees
into MG trees. Although still under development, the resulting MGbank corpus has
already been used to train a statistical A* MG parser, described here, which has an
expected asymptotic time complexity of O(n3); this is much better than even the most
optimistic worst case analysis for the formalism
Explicitation in simultaneous interpreting : a study into explicitating behaviour of trainee interpreters
"Eksplicytacja w tłumaczeniu symultanicznym.
Analiza zachowań eksplicytacyjnych studentów tłumaczenia ustnego" Do niedawna uważano, że eksplicytacja, jako zjawisko często przybierające formę amplifikacji
tekstowej, występuje niezwykle rzadko w przekładzie symultanicznym, w którym ograniczenia
czasowe nie pozwalają na tego typu operacje tekstowe. Badania między innymi Shlesinger (1995)
dowiodły jednak, że eksplicytacja występuje w tłumaczeniu symultanicznym i choć uwarunkowana
w dużej mierze ograniczeniami medium, nie jest bynajmniej zjawiskiem marginalnym.
Celem niniejszej monografii jest analiza zjawiska eksplicytacji w tłumaczeniu symultanicznym
studentów tłumaczenia ustnego. Trzy aspekty, na których skupia się autorka, to strategiczność
eksplicytacji, wpływ kierunku tłumaczenia na tego typu zmiany oraz zależność pomiędzy indywidualnym
stylem tłumaczenia a zachowaniem eksplicytacyjnym. Badanie ma charakter eksperymentalny.
Badany jest zarówno produkt przekładu (poprzez porównanie tekstów wyjściowych
z docelowymi), jak i sam proces tłumaczenia symultanicznego (poprzez analizę protokołów
retrospektywnych). Korpus pracy stanowią nagrania i transkrypcje 240 tekstów docelowych wykonanych
przez 120 tłumaczy – łącznie około 75 godzin nagrań.
Część pierwsza (rozdziały od pierwszego do trzeciego) stanowi wprowadzenie do części
empirycznej (drugiej). Rozdział pierwszy przedstawia aktualny stan badań nad eksplicytacją
w przekładzie. Eksplicytacja to jedno z najczęściej omawianych zagadnień we współczesnej
translatoryce. Jednak przyglądając się licznym opracowaniom i badaniom empirycznym, trudno
oprzeć się wrażeniu, że już samo jednoznaczne zdefiniowanie tego zjawiska nastręcza niemałych
trudności. Autorka omawia różne propozycje definicji eksplicytacji, zestawiając to pojęcie z pokrewnymi
terminami, takimi jak dodanie, amplifikacja czy nadtłumaczenie, oraz charakteryzując
pojęcia eksplicytności i implicytności leżące u podstaw eksplicytacji. Definicja przyjęta w niniejszej
monografii, oparta w dużej mierze na pracach Murtisari (2013, 2016) i Séguinot (1988), zakłada,
że eksplicytacja to transformacja polegająca na eksplicytnym wyrażeniu w tekście docelowym
tego, co implicytne w tekście wyjściowym, lub na bardziej eksplicytnym wyrażeniu tego, co już
eksplicytne w oryginale. Innymi słowy, eksplicytacja ma miejsce, jeśli treści implikowane czy też
presuponowane w tekście wyjściowym zostały wyrażone wprost w tekście docelowym lub jeśli
element tekstu wyjściowego został uwydatniony w tekście przekładu poprzez zastosowanie emfazy
bądź dobór środków leksykalnych. Innym istotnym czynnikiem definiującym eksplicytację
jest jej niezależność od różnic systemowych. Istnieje co prawda szereg prac, w których zmiany
uwarunkowane różnicami systemowymi są uważane za tak zwaną eksplicytację obligatoryjną,
większość współczesnych badaczy jest jednak zgodna, że za eksplicytację należy uznać jedynie te
zmiany, które są całkowicie niezależne od różnic systemowych, a nawet preferencji stylistycznych
danej pary języków. Zatem dowodem na istnienie eksplicytacji w tekście przekładu jest możliwość
wypracowania jego poprawnej, lecz mniej eksplicytnej wersji. W rozdziale drugim zostały omówione mechanizmy językowe, które służą eksplikowaniu
treści w tekście docelowym. Eksplicytacja może przyjmować formę amplifikacji tekstowej, a co
za tym idzie, pociągać za sobą wprowadzenie do tekstu docelowego dodatkowych elementów
leksykalnych lub syntaktycznych, lub formę konkretyzacji, która wiąże się nie z wprowadzeniem
dodatkowych elementów, a jedynie z uwydatnieniem istniejących poprzez dobór bardziej eksplicytnych
środków leksykalnych lub struktur syntaktycznych. Do pierwszej grupy należą: dodawanie
konektorów, zastępowanie zaimków osobowych powtórzeniami danych jednostek leksykalnych,
reiteracja, uzupełnianie konstrukcji eliptycznych, dodawanie przydawek i określników, dodawanie
wyrażeń asekuracyjnych (hedges), dodawanie wyrażeń porządkujących tekst, dodawanie nazw
własnych do nazw rodzajowych, dookreślanie znaczenia oraz rozwinięcie definicyjne; do drugiej:
zastępowanie nominalizacji konstrukcjami czasownikowymi (demetaforyzacja gramatyczna), demetaforyzacja
leksykalna lub zastępowanie metafor porównaniami, dookreślanie leksykalne, a także
zamiana nazwy rodzajowej na nazwę własną. Niniejsza klasyfikacja eksplicytacji pod względem
jej manifestacji w strukturze powierzchniowej tekstu została zastosowana w analizie przedstawionej
w rozdziałach empirycznych.
Rozdział trzeci przedstawia metodologię wykorzystaną w pracy oraz główne hipotezy i pytania
badawcze. Autorka opisuje także szczegółowo procedury zastosowane w badaniu eksperymentalnym
oraz charakteryzuje samą metodę retrospekcji w szerszym kontekście badań nad
procesem przekładu; podaje również informacje na temat uczestników eksperymentu oraz tekstów
stanowiących korpus badawczy. Znaczna część rozdziału została poświęcona modelowi teoretycznemu,
stanowiącemu podstawę analizy eksplicytacji w tłumaczeniu symultanicznym. Analiza
została przeprowadzona z uwzględnieniem ograniczeń typowych dla tłumaczenia ustnego (The
Interpreting Constraints), użytych po raz pierwszy w badaniach nad spójnością tekstu tłumaczonego
symultanicznie przez Shlesinger (1995). Czynniki ograniczające proces tłumaczenia ustnego
obejmują: ograniczenie czasowe (The Time Constraint), ograniczenie związane z wymogiem
linearności wypowiedzi (The Linearity Constraint), ograniczenie wynikające z braku wspólnego
kontekstu komunikacyjnego (The (Un)shared Knowledge Constraint) oraz ograniczenie ze względu
na pojemność pamięci (The Memory Load Constraint). Model ograniczeń w przekładzie ustnym
(The Interpreting Constraints) zaproponowany przez Shlesinger został rozbudowany w niniejszej
monografii o założenia Teorii Przetwarzania Informacji, a w szczególności Modeli Wysiłkowych
oraz Modelu Grawitacyjnego Gile’a (1995). W poszerzonym modelu ograniczeń w przekładzie
ustnym uwzględniono także koncepcję domen tekstualności Hatima i Masona (1997).
Pierwszy z rozdziałów empirycznych (rozdział czwarty) prezentuje wyniki analizy dotyczącej
strategiczności eksplicytacji w tłumaczeniu symultanicznym. Rezultaty badań świadczą o tym, że
strategiczne zastosowanie tego typu modyfikacji tekstowych jest stosunkowo rzadkie w przekładzie
symultanicznym, a co za tym idzie, niewielki odsetek przypadków eksplicytacji jest efektem świadomej
decyzji tłumacza. Większość tego typu zmian w strukturze powierzchniowej tekstu nie została
zwerbalizowana w protokołach retrospektywnych, a część tłumaczy przyznaje, że niektórych
eksplicytacji dokonali odruchowo, w sposób automatyczny. Analiza protokołów retrospektywnych
pokazuje również powody stosowania strategicznej, w pełni świadomej eksplicytacji. Jedną z motywacji
jest aspekt komunikacyjny, podkreślany w pracach wielu badaczy przekładu. Zgodnie z tym
założeniem, eksplicytacja bywa efektem troski tłumacza o odbiorców, którym chce on jak najlepiej
przybliżyć treść komunikatu. Zastosowanie eksplicytacji wiąże się także ze zmniejszeniem wysiłku
wkładanego w przetwarzanie informacji, przez co łatwiej odczytać komunikat. Wiele komentarzy
retrospektywnych jednoznacznie wskazuje na świadome dążenie tłumacza do podniesienia walorów
komunikacyjnych tekstu docelowego. Jednak przeważającą motywacją są same ograniczenia
przekładu symultanicznego. Wydawać by się mogło, że ograniczenia te nie pozwalają tłumaczowi
na eksplikowanie treści w tekście docelowym. Wyniki badań wskazują jednak, że w wielu przypadkach
zastosowanie bardziej eksplicytnych form jest spowodowane właśnie ograniczeniami. W rozdziale piątym przedstawiono wyniki analizy wpływu kierunkowości na zachowania
eksplicytacyjne tłumaczy. Tłumaczenie na język B jest powszechnie uważane za trudniejsze i wiąże
się z większym wysiłkiem kognitywnym. Z tego też powodu kierunek ten charakteryzuje się większą
częstotliwością eksplicytacji. Tłumacze częściej uzasadniają tego typu zmiany ograniczeniami,
a jako powód podają konieczność kompensacji pominiętych segmentów tekstu, wypełnienia pauz
spowodowanych koniecznością wydłużenia EVS-u, problemy z doborem leksykalnym oraz inne
tym podobne. Interesujące wyniki dało porównanie tekstów docelowych i protokołów retrospektywnych
z ankietą. W wielu przypadkach widać wyraźny brak korelacji pomiędzy realnym
zachowaniem eksplicytacyjnym danej osoby a deklarowanymi przez nią w ankiecie preferencjami.
Dowodzi to, że większość przypadków eksplicytacji w tłumaczeniu symultanicznym nie wynika
ze świadomej decyzji tłumacza.
Ostatni z rozdziałów analitycznych (rozdział szósty) dotyczy zależności pomiędzy indywidualnym
stylem tłumaczenia a użyciem eksplicytacji. Autorka wyodrębnia dziewięć stylów eksplicytacyjnych,
biorąc pod uwagę kryteria częstotliwości występowania oraz konsekwencji użycia
tej transformacji tekstowej. Wiele tłumaczeń tego samego tekstu wyjściowego (każdy z 6 tekstów
został przetłumaczony przez 40 tłumaczy) pozwoliło także na analizę zbieżności zachowań eksplicytacyjnych.
Analiza wykazała bardzo niski poziom zbieżności, co świadczy o tym, że eksplicytacja
jest zachowaniem bardzo indywidualnym, nie tylko zależnym od elementów stałych, takich jak
ogólny styl tłumaczenia i preferowanie co do stosowania określonych strategii ratunkowych, lecz
także uwarunkowanym sposobem przetworzenia poprzednich segmentów tekstu w danej sytuacji