981 research outputs found
Japanese Discourse and the Process of Centering
This paper has two aims: (1) to generalize a computational account of discourse processing called CENTERING and apply it to discourse processing in Japanese, and (2) to provide some insights on the effect of syntactic factors in Japanese on discourse interpretation. We argue that while discourse interpretation is an inferential process, the syntactic cues constrain this process, and demonstrate this argument with respect to the interpretation of ZEROS, unexpressed arguments of the verb, in Japanese. The syntactic cues in Japanese discourse that we investigate are the morphological markers for grammatical TOPIC, the post-position wa, as well as those for grammatical functions such as SUBJECT, ga, OBJECT, o and OBJECT2, ni. In addition, we investigate the role of speakers\u27 EMPATHY, which is the perspective from which an event is described. This is morphologically indicated through the use of verbal compounding, i.e. the auxiliary use of verbs such as kureta, kita. Our results are based on a survey of native speakers of their interpretation of short discourses, consisting of minimal pairs, varied by one of the above factors. We demonstrate that these syntactic cues do indeed affect the interpretation of ZEROS, but that having previously been the TOPIC and being realized as a ZERO also contribute to an entity being interpreted as the TOPIC. We propose a new notion of TOPIC AMBIGUITY, and show that CENTERING provides constraints on when a ZERO can be interpreted as the TOPIC
CLiFF Notes: Research In Natural Language Processing at the University of Pennsylvania
CLIFF is the Computational Linguists\u27 Feedback Forum. We are a group of students and faculty who gather once a week to hear a presentation and discuss work currently in progress. The \u27feedback\u27 in the group\u27s name is important: we are interested in sharing ideas, in discussing ongoing research, and in bringing together work done by the students and faculty in Computer Science and other departments.
However, there are only so many presentations which we can have in a year. We felt that it would be beneficial to have a report which would have, in one place, short descriptions of the work in Natural Language Processing at the University of Pennsylvania. This report then, is a collection of abstracts from both faculty and graduate students, in Computer Science, Psychology and Linguistics. We want to stress the close ties between these groups, as one of the things that we pride ourselves on here at Penn is the communication among different departments and the inter-departmental work.
Rather than try to summarize the varied work currently underway at Penn, we suggest reading the abstracts to see how the students and faculty themselves describe their work. The report illustrates the diversity of interests among the researchers here, as well as explaining the areas of common interest. In addition, since it was our intent to put together a document that would be useful both inside and outside of the university, we hope that this report will explain to everyone some of what we are about
Forward and backward anaphora resolution in European Portuguese and Chinese: syntatic properties and second language acquisition
The purpose of this thesis is twofold: to compare European Portuguese (EP) and Mandarin
Chinese, two null subject languages with different properties, regarding the resolution of
forward and backward anaphora in temporal adverbial adjunct clauses; and to investigate the
acquisition of these properties by Chinese learners who acquire EP as a second language (L2).
It is observed that, in Romance null subject languages such as EP, a null subject is preferentially
interpreted as referring to a subject antecedent, while an overt subject (pronoun) is preferentially
interpreted as referring to a non-subject antecedent. This bias was systematized/described by
Carminati 2002 as the Position of Antecedent Hypothesis (PAH).
Chinese does not show the properties predicted by PAH in forward anaphora, as an overt
pronoun may easily take a subject antecedent (Yang et al. 1999, Zhao 2012). However, in
backward anaphora, Chinese has a similar interpretation as EP, as a null subject is preferentially
interpreted as referring to a subject antecedent, while an overt pronoun is preferentially
interpreted as referring to a non-subject antecedent. The current thesis uses the theory of topic
chain developed by Pu & Pu 2014 to explain the asymmetry between forward and backward
anaphora in Chinese and proposes that anaphoric resolution in Chinese is constrained by
discourse pragmatic factors, and not merely by syntactic properties.
Considering the similarities and differences between EP and Chinese in their pronominal
anaphoric resolution, the current thesis aims to test if the Chinese learners of L2 EP will be
influenced by their first language (L1) when interpreting forward and backward anaphora in EP.
Experiment 1 of the thesis is an off-line comprehension test, where B1 and C1 level learners
were requested to read sentences of EP in forward and backward anaphora structures, with a
null or an overt pronoun in the temporal adverbial adjunct. The results show that it is easier for
the Chinese learners to master the EP anaphoric resolution in backward anaphora than in
forward anaphora, probably because resolution strategies are similar in both languages in
backward anaphora, and, therefore, there might have been an effect of L1 on the L2.
Experiment 2 is an on-line self-paced reading task, where B2 and C1 level learners were
requested to read segmented sentences of EP, which are similar to those tested in Experiment 1.
The results show that the L2 learners’ real time processing is influenced by their L1 in forward anaphora conditions, but fail to explain their processing in backward anaphora conditions.A presente tese compara duas línguas de sujeito nulo de natureza diferente, a saber o português
europeu (PE) e o chinês mandarim, considerando a resolução anafórica das orações adverbiais
temporais em estruturas de anáfora e de catáfora. Esta tese também investiga a aquisição destas
propriedades por parte dos aprendentes chineses que adquirem o PE como língua segunda (L2).
O segundo capítulo da tese apresenta estudos anteriores sobre o sujeito nulo nas línguas
românicas de sujeito nulo (incluindo o PE), que é considerado como pro e que está relacionado
com a concordância verbal rica. Para as línguas de sujeito nulo sem concordância verbal, como
o caso do chinês, Huang 1984 defendeu que o sujeito nulo pode ser tanto pro, legitimado e
recuperado através da Generalized Control Rule (GCR), como uma variável gerada por
movimento-A’. Trabalhos posteriores como o de Liu 2014 defendem que pro em chinês também
pode ser recuperado através da operação de Concordância (Agree), com base na proposta de
“tópico de aboutness-shift” de Frascarelli 2007. Segundo Li 2007, o sujeito nulo do chinês
contém um traço uD (uninterpretable definite), que terá de ser valorado pela GCR. No capítulo
4 da tese, vou apresentar também as propostas mais recentes de Pan 2016, 2017, que avaliam a
questão da dependência-A’ do chinês relativamente às teorias de Agree e Match. Procuro
mostrar que os sujeitos nulos nas orações subordinadas, sobretudo nas estruturas de ilhas, não
podem ser gerados por Agree, uma vez que esta operação está sujeita a condições de ilha.
Também não é adequado considerar que estes sujeitos nulos são gerados por Match, uma vez
que a intervenção de um outro elemento nominal pode excluir a legitimidade do sujeito nulo.
Neste sentido, proponho que pro nas orações subordinadas do chinês é legitimado pela GCR e
tem de ser controlado pelo elemento nominal mais próximo. Quanto a pro nas orações matriz,
considero que este pode ser gerado por Agree, em conformidade com as propostas de Liu 2014.
Nas línguas Românicas de sujeito nulo, um sujeito nulo é preferencialmente interpretado como
referindo-se a um antecedente sujeito, enquanto um sujeito pleno é preferencialmente
interpretado como referindo-se a um antecedente não sujeito. Estas propriedades serão
discutidas no Capítulo 2 da tese, em que apresento as estruturas sintáticas das condições de
anáfora e catáfora, sobretudo as propostas de Canceiro 2016, que mostra que estas
interpretações sobre os pronomes não estão exclusivamente sujeitas às condições de ligação, pois são determinadas por fatores pragmático-discursivos.
Em termos de processamento, estas propriedades foram generalizadas por Carminati 2002
como a Hipótese da Posição de Antecedente (HPA), que se baseia na Teoria de Acessibilidade
de Ariel 1990, 2001, que analisa esta questão considerando a estrutura da memória. Estes
aspetos serão discutidos no Capítulo 3 da tese, juntamente com outras hipóteses de
processamento, incluindo a Hipótese da Carga Informacional, a Teoria da Centralidade, a
Hipótese da Vantagem da Primeira Referência e o Mecanismo de Active Search.
Quanto ao chinês, esta língua não mostra as propriedades previstas pela HPA em anáfora, uma
vez que um pronome pleno pode ter facilmente um antecedente sujeito (Yang et al. 1999, Zhao
2012). No entanto, em catáfora, o chinês tem uma interpretação semelhante à do PE, dado que
um sujeito nulo é preferencialmente interpretado como referindo-se a um antecedente sujeito,
enquanto um pronome pleno é preferencialmente interpretado como referindo-se a um
antecedente não sujeito. Huang 1982 e Zhao 2014 utilizam a noção de c-commando cíclico para
explicar a interpretação do chinês em catáfora, enquanto Lust et al. 1996 utilizam a Elevação
na Forma Lógica para tal. A presente tese mostra que ambas as análises têm desvantagens.
Desenvolvendo as análises de Pan & Paul 2018 para as orações condicionais do chinês, a
presente tese (no Capítulo 4) faz uma análise detalhada das orações adverbiais temporais do
chinês e propõe que as predições feitas pelo c-comando cíclico são na verdade o resultado de
uma ambiguidade de análise da estrutura sintática do adjunto adverbial temporal. Desta forma,
a presente tese utiliza a teoria de cadeia de tópico desenvolvida por Pu & Pu 2014 para explicar
a assimetria entre a anáfora e a catáfora do chinês.
Ainda no Capítulo 4, a presente tese propõe que no chinês existem dois níveis de tópicos: um
nível sintático e um nível abstrato. O tópico sintático ocorre em posição-A’ da frase e funciona
como um operator sem realização fonética, no sentido de Lobo 1994, 1995. Proponho que no
chinês algumas frases ou uma frase por si só podem formar uma cadeia de tópico, cuja cabeça
(tópico abstrato) será determinada pelo contexto discursivo. Sempre que a cabeça da cadeia seja
estabelecida, todos os operatores (tópico sintático) dentro da cadeia também recebem o valor
referencial da cabeça. Consequentemente, o operator pode ter uma operação de Agree com o
pro da frase e atribuir-lhe o seu valor referencial.
A presente tese propõe que as frases de catáfora do chinês com pronome pleno no adjunto adverbial temporal contêm duas cadeias de tópico separadas, que não podem ter uma cabeça de
cadeia com a mesma referência, uma vez que a cabeça de tópico na oração matriz é um DP, que
implica a mudança de tópico e não favorece a interpretação correferencial entre o sujeito
encaixado e o sujeito matriz. Para as estruturas de catáfora com sujeito nulo, é adoptada a ideia
de Biller-Lappin 1983 de que o sujeito nulo é uma forma convencional para introduzir uma
entidade nova. Assim, a correferência entre o sujeito nulo encaixado e o sujeito matriz é
aceitável. Desta maneira, a presente tese mostra que a resolução anafórica do chinês é
determinada pelos fatores pragmático-discursivos, e não é restringida apenas pelas propriedades
sintáticas.
Quanto à aquisição de L2, Sorace & Filiaci 2006 propõem a Hipótese de Interface (HI) que
defende que as propriedades puramente sintáticas podem ser adquiridas completamente em L2,
enquanto as propriedades relacionadas com a interface entre dois módulos (a sintaxe e o
discurso-pragmática neste caso) podem não ser completamente adquiridas. Isto implica que os
aprendentes de L2 podem ter dificuldades em adquirir as propriedades relacionadas à resolução
anafórica. Estes aspetos serão discutidos no Capítulo 5 da tese.
Considerando as semelhanças e diferenças entre o PE e o chinês na resolução anafórica, a
presente tese visa testar se os aprendentes chineses de L2 PE são influenciados pela sua língua
materna (L1) quando interpretam anáfora e catáfora em PE.
A Experiência 1 (apresentada no Capítulo 6) desta tese é um questionário off-line de
compreensão, em que foi solicitado aos aprendentes do nível B1 e C1 que lessem frases do PE
em anáfora e catáfora, com sujeito nulo e pleno no adjunto adverbial temporal. Os resultados
mostram que, tanto em anáfora como em catáfora, os falantes nativos do PE (o grupo controlo)
preferem um antecedente sujeito para pronomes nulos e um antecedente não sujeito para
pronomes plenos. Quanto aos aprendentes, em anáfora, eles têm uma interpretação semelhante
à da sua L1, uma vez que preferem o antecedente sujeito para os pronomes encaixados nulos e
plenos e não há nenhuma mudança do nível B1 para o nível C1. Entretanto, em catáfora, os
aprendentes do B1 mostram uma interpretação indeterminada para pronome pleno, enquanto os
aprendentes do C1 mostram uma interpretação alvo, que favorece o antecedente não sujeito.
Para os pronomes nulos, os aprendentes de B1 e C1 mostram uma interpretação alvo, uma vez
que preferem o antecedente sujeito tanto em anáfora como em catáfora, que é consistente com o chinês. Os resultados da Experiência 1 indicam que os aprendentes de L2 são influenciados
pela sua L1, que tem interpretações distintas para anáfora e catáfora no caso de pronome pleno.
Quando a interpretação da sua L1 é semelhante ao PE, verifica-se também um desenvolvimento
em direção à interpretação alvo na passagem do nível B1 para o nível C1.
A Experiência 2 (apresentada no Capítulo 7) é uma tarefa on-line de Leitura auto-Monitorada
(self-paced reading), em que foi pedido aos aprendentes do nível B2/C1 que lessem frases
segmentadas do PE nas estruturas de anáfora e catáfora, com pronome nulo e pleno na oração
matriz (no caso de anáfora) ou na oração adverbial temporal (no caso de catáfora). O objectivo
desta experiência foi comparar o processamento de anáfora e catáfora e testar se os aprendentes
são influenciados pelo Mecanismo de Active Search de Kazanina et al. 2007 no processamento
das estruturas de catáfora. Os resultados mostram que os falantes nativos preferem um
antecedente sujeito para pronome nulo e pleno em anáfora e um antecedente sujeito para o
pronome nulo em catáfora. No entanto, não se verificam efeitos significativos nas condições
com pronome pleno em catáfora. Os aprendentes, em anáfora, também preferem o antecedente
sujeito tanto para o nulo como para o pleno, o que é consistente com a sua L1. No entanto, em
catáfora, não houve resultados significativos nesta experiência. Com efeito, a Experiência 2 só
revela que o processamento em tempo real dos aprendentes de L2 é influenciado pela sua L1
nas condições de anáfora, mas não conseguem explicar o seu processamento no caso de catáfora
Towards Entity Status
Discourse entities are an important construct in computational linguistics. They introduce an additional level of representation between referring expressions and that which they refer to: the level of mental representation. In this thesis, I first explore some semiotic and communication theoretic aspects of discourse entities. Then, I develop the concept of "entity status". Entity status is a meta-variable that collects two dimensions formations about the role that an entity plays a discourse, and management informations about how the entity is created, accessed, and updated. Finally, the concept is applied to two case studies: the first one focusses on the choice of referring expressions in radio news, while the second looks at the conditions under which a discourse entity can be mentioned as a pronoun.Diskursentitäten sind ein wichtiger Konstrukt in der Computerlinguistik. Sie führen eine zusätzliche Repräsentationsebene ein zwischen referierenden Ausdrücken, und dem, auf das diese Ausdrücke referieren: die Ebene der mentalen Repräsentation. In dieser Dissertation erkunde ich zunächst einige semiotische und kommunikationstheoretische Aspekte von Diskursentitäten. Danach führe ich den Begriff des "Entitätenstatus" ein. Entitätenstatus ist eine Meta-Variable, die zwei Dimensionen von Information über eine Diskursentität vereinigt: Struktur-Informationen über die Rolle, die eine Entität im Diskurs spielt, und Verwaltungs-Informationen über Erstellung, Zugriff und Update. Dieser Begriff wird schlussendlich auf zwei Fallstudien angewendet: die erste Studie konzentriert sich auf die Wahl referierender Ausdrücke in Radionachrichten, während die zweite Studie die Bedingungen untersucht, in denen eine Diskursentität als Pronomen erwähnt werden kann
- …