981 research outputs found

    Japanese Discourse and the Process of Centering

    Get PDF
    This paper has two aims: (1) to generalize a computational account of discourse processing called CENTERING and apply it to discourse processing in Japanese, and (2) to provide some insights on the effect of syntactic factors in Japanese on discourse interpretation. We argue that while discourse interpretation is an inferential process, the syntactic cues constrain this process, and demonstrate this argument with respect to the interpretation of ZEROS, unexpressed arguments of the verb, in Japanese. The syntactic cues in Japanese discourse that we investigate are the morphological markers for grammatical TOPIC, the post-position wa, as well as those for grammatical functions such as SUBJECT, ga, OBJECT, o and OBJECT2, ni. In addition, we investigate the role of speakers\u27 EMPATHY, which is the perspective from which an event is described. This is morphologically indicated through the use of verbal compounding, i.e. the auxiliary use of verbs such as kureta, kita. Our results are based on a survey of native speakers of their interpretation of short discourses, consisting of minimal pairs, varied by one of the above factors. We demonstrate that these syntactic cues do indeed affect the interpretation of ZEROS, but that having previously been the TOPIC and being realized as a ZERO also contribute to an entity being interpreted as the TOPIC. We propose a new notion of TOPIC AMBIGUITY, and show that CENTERING provides constraints on when a ZERO can be interpreted as the TOPIC

    CLiFF Notes: Research In Natural Language Processing at the University of Pennsylvania

    Get PDF
    CLIFF is the Computational Linguists\u27 Feedback Forum. We are a group of students and faculty who gather once a week to hear a presentation and discuss work currently in progress. The \u27feedback\u27 in the group\u27s name is important: we are interested in sharing ideas, in discussing ongoing research, and in bringing together work done by the students and faculty in Computer Science and other departments. However, there are only so many presentations which we can have in a year. We felt that it would be beneficial to have a report which would have, in one place, short descriptions of the work in Natural Language Processing at the University of Pennsylvania. This report then, is a collection of abstracts from both faculty and graduate students, in Computer Science, Psychology and Linguistics. We want to stress the close ties between these groups, as one of the things that we pride ourselves on here at Penn is the communication among different departments and the inter-departmental work. Rather than try to summarize the varied work currently underway at Penn, we suggest reading the abstracts to see how the students and faculty themselves describe their work. The report illustrates the diversity of interests among the researchers here, as well as explaining the areas of common interest. In addition, since it was our intent to put together a document that would be useful both inside and outside of the university, we hope that this report will explain to everyone some of what we are about

    Forward and backward anaphora resolution in European Portuguese and Chinese: syntatic properties and second language acquisition

    Get PDF
    The purpose of this thesis is twofold: to compare European Portuguese (EP) and Mandarin Chinese, two null subject languages with different properties, regarding the resolution of forward and backward anaphora in temporal adverbial adjunct clauses; and to investigate the acquisition of these properties by Chinese learners who acquire EP as a second language (L2). It is observed that, in Romance null subject languages such as EP, a null subject is preferentially interpreted as referring to a subject antecedent, while an overt subject (pronoun) is preferentially interpreted as referring to a non-subject antecedent. This bias was systematized/described by Carminati 2002 as the Position of Antecedent Hypothesis (PAH). Chinese does not show the properties predicted by PAH in forward anaphora, as an overt pronoun may easily take a subject antecedent (Yang et al. 1999, Zhao 2012). However, in backward anaphora, Chinese has a similar interpretation as EP, as a null subject is preferentially interpreted as referring to a subject antecedent, while an overt pronoun is preferentially interpreted as referring to a non-subject antecedent. The current thesis uses the theory of topic chain developed by Pu & Pu 2014 to explain the asymmetry between forward and backward anaphora in Chinese and proposes that anaphoric resolution in Chinese is constrained by discourse pragmatic factors, and not merely by syntactic properties. Considering the similarities and differences between EP and Chinese in their pronominal anaphoric resolution, the current thesis aims to test if the Chinese learners of L2 EP will be influenced by their first language (L1) when interpreting forward and backward anaphora in EP. Experiment 1 of the thesis is an off-line comprehension test, where B1 and C1 level learners were requested to read sentences of EP in forward and backward anaphora structures, with a null or an overt pronoun in the temporal adverbial adjunct. The results show that it is easier for the Chinese learners to master the EP anaphoric resolution in backward anaphora than in forward anaphora, probably because resolution strategies are similar in both languages in backward anaphora, and, therefore, there might have been an effect of L1 on the L2. Experiment 2 is an on-line self-paced reading task, where B2 and C1 level learners were requested to read segmented sentences of EP, which are similar to those tested in Experiment 1. The results show that the L2 learners’ real time processing is influenced by their L1 in forward anaphora conditions, but fail to explain their processing in backward anaphora conditions.A presente tese compara duas línguas de sujeito nulo de natureza diferente, a saber o português europeu (PE) e o chinês mandarim, considerando a resolução anafórica das orações adverbiais temporais em estruturas de anáfora e de catáfora. Esta tese também investiga a aquisição destas propriedades por parte dos aprendentes chineses que adquirem o PE como língua segunda (L2). O segundo capítulo da tese apresenta estudos anteriores sobre o sujeito nulo nas línguas românicas de sujeito nulo (incluindo o PE), que é considerado como pro e que está relacionado com a concordância verbal rica. Para as línguas de sujeito nulo sem concordância verbal, como o caso do chinês, Huang 1984 defendeu que o sujeito nulo pode ser tanto pro, legitimado e recuperado através da Generalized Control Rule (GCR), como uma variável gerada por movimento-A’. Trabalhos posteriores como o de Liu 2014 defendem que pro em chinês também pode ser recuperado através da operação de Concordância (Agree), com base na proposta de “tópico de aboutness-shift” de Frascarelli 2007. Segundo Li 2007, o sujeito nulo do chinês contém um traço uD (uninterpretable definite), que terá de ser valorado pela GCR. No capítulo 4 da tese, vou apresentar também as propostas mais recentes de Pan 2016, 2017, que avaliam a questão da dependência-A’ do chinês relativamente às teorias de Agree e Match. Procuro mostrar que os sujeitos nulos nas orações subordinadas, sobretudo nas estruturas de ilhas, não podem ser gerados por Agree, uma vez que esta operação está sujeita a condições de ilha. Também não é adequado considerar que estes sujeitos nulos são gerados por Match, uma vez que a intervenção de um outro elemento nominal pode excluir a legitimidade do sujeito nulo. Neste sentido, proponho que pro nas orações subordinadas do chinês é legitimado pela GCR e tem de ser controlado pelo elemento nominal mais próximo. Quanto a pro nas orações matriz, considero que este pode ser gerado por Agree, em conformidade com as propostas de Liu 2014. Nas línguas Românicas de sujeito nulo, um sujeito nulo é preferencialmente interpretado como referindo-se a um antecedente sujeito, enquanto um sujeito pleno é preferencialmente interpretado como referindo-se a um antecedente não sujeito. Estas propriedades serão discutidas no Capítulo 2 da tese, em que apresento as estruturas sintáticas das condições de anáfora e catáfora, sobretudo as propostas de Canceiro 2016, que mostra que estas interpretações sobre os pronomes não estão exclusivamente sujeitas às condições de ligação, pois são determinadas por fatores pragmático-discursivos. Em termos de processamento, estas propriedades foram generalizadas por Carminati 2002 como a Hipótese da Posição de Antecedente (HPA), que se baseia na Teoria de Acessibilidade de Ariel 1990, 2001, que analisa esta questão considerando a estrutura da memória. Estes aspetos serão discutidos no Capítulo 3 da tese, juntamente com outras hipóteses de processamento, incluindo a Hipótese da Carga Informacional, a Teoria da Centralidade, a Hipótese da Vantagem da Primeira Referência e o Mecanismo de Active Search. Quanto ao chinês, esta língua não mostra as propriedades previstas pela HPA em anáfora, uma vez que um pronome pleno pode ter facilmente um antecedente sujeito (Yang et al. 1999, Zhao 2012). No entanto, em catáfora, o chinês tem uma interpretação semelhante à do PE, dado que um sujeito nulo é preferencialmente interpretado como referindo-se a um antecedente sujeito, enquanto um pronome pleno é preferencialmente interpretado como referindo-se a um antecedente não sujeito. Huang 1982 e Zhao 2014 utilizam a noção de c-commando cíclico para explicar a interpretação do chinês em catáfora, enquanto Lust et al. 1996 utilizam a Elevação na Forma Lógica para tal. A presente tese mostra que ambas as análises têm desvantagens. Desenvolvendo as análises de Pan & Paul 2018 para as orações condicionais do chinês, a presente tese (no Capítulo 4) faz uma análise detalhada das orações adverbiais temporais do chinês e propõe que as predições feitas pelo c-comando cíclico são na verdade o resultado de uma ambiguidade de análise da estrutura sintática do adjunto adverbial temporal. Desta forma, a presente tese utiliza a teoria de cadeia de tópico desenvolvida por Pu & Pu 2014 para explicar a assimetria entre a anáfora e a catáfora do chinês. Ainda no Capítulo 4, a presente tese propõe que no chinês existem dois níveis de tópicos: um nível sintático e um nível abstrato. O tópico sintático ocorre em posição-A’ da frase e funciona como um operator sem realização fonética, no sentido de Lobo 1994, 1995. Proponho que no chinês algumas frases ou uma frase por si só podem formar uma cadeia de tópico, cuja cabeça (tópico abstrato) será determinada pelo contexto discursivo. Sempre que a cabeça da cadeia seja estabelecida, todos os operatores (tópico sintático) dentro da cadeia também recebem o valor referencial da cabeça. Consequentemente, o operator pode ter uma operação de Agree com o pro da frase e atribuir-lhe o seu valor referencial. A presente tese propõe que as frases de catáfora do chinês com pronome pleno no adjunto adverbial temporal contêm duas cadeias de tópico separadas, que não podem ter uma cabeça de cadeia com a mesma referência, uma vez que a cabeça de tópico na oração matriz é um DP, que implica a mudança de tópico e não favorece a interpretação correferencial entre o sujeito encaixado e o sujeito matriz. Para as estruturas de catáfora com sujeito nulo, é adoptada a ideia de Biller-Lappin 1983 de que o sujeito nulo é uma forma convencional para introduzir uma entidade nova. Assim, a correferência entre o sujeito nulo encaixado e o sujeito matriz é aceitável. Desta maneira, a presente tese mostra que a resolução anafórica do chinês é determinada pelos fatores pragmático-discursivos, e não é restringida apenas pelas propriedades sintáticas. Quanto à aquisição de L2, Sorace & Filiaci 2006 propõem a Hipótese de Interface (HI) que defende que as propriedades puramente sintáticas podem ser adquiridas completamente em L2, enquanto as propriedades relacionadas com a interface entre dois módulos (a sintaxe e o discurso-pragmática neste caso) podem não ser completamente adquiridas. Isto implica que os aprendentes de L2 podem ter dificuldades em adquirir as propriedades relacionadas à resolução anafórica. Estes aspetos serão discutidos no Capítulo 5 da tese. Considerando as semelhanças e diferenças entre o PE e o chinês na resolução anafórica, a presente tese visa testar se os aprendentes chineses de L2 PE são influenciados pela sua língua materna (L1) quando interpretam anáfora e catáfora em PE. A Experiência 1 (apresentada no Capítulo 6) desta tese é um questionário off-line de compreensão, em que foi solicitado aos aprendentes do nível B1 e C1 que lessem frases do PE em anáfora e catáfora, com sujeito nulo e pleno no adjunto adverbial temporal. Os resultados mostram que, tanto em anáfora como em catáfora, os falantes nativos do PE (o grupo controlo) preferem um antecedente sujeito para pronomes nulos e um antecedente não sujeito para pronomes plenos. Quanto aos aprendentes, em anáfora, eles têm uma interpretação semelhante à da sua L1, uma vez que preferem o antecedente sujeito para os pronomes encaixados nulos e plenos e não há nenhuma mudança do nível B1 para o nível C1. Entretanto, em catáfora, os aprendentes do B1 mostram uma interpretação indeterminada para pronome pleno, enquanto os aprendentes do C1 mostram uma interpretação alvo, que favorece o antecedente não sujeito. Para os pronomes nulos, os aprendentes de B1 e C1 mostram uma interpretação alvo, uma vez que preferem o antecedente sujeito tanto em anáfora como em catáfora, que é consistente com o chinês. Os resultados da Experiência 1 indicam que os aprendentes de L2 são influenciados pela sua L1, que tem interpretações distintas para anáfora e catáfora no caso de pronome pleno. Quando a interpretação da sua L1 é semelhante ao PE, verifica-se também um desenvolvimento em direção à interpretação alvo na passagem do nível B1 para o nível C1. A Experiência 2 (apresentada no Capítulo 7) é uma tarefa on-line de Leitura auto-Monitorada (self-paced reading), em que foi pedido aos aprendentes do nível B2/C1 que lessem frases segmentadas do PE nas estruturas de anáfora e catáfora, com pronome nulo e pleno na oração matriz (no caso de anáfora) ou na oração adverbial temporal (no caso de catáfora). O objectivo desta experiência foi comparar o processamento de anáfora e catáfora e testar se os aprendentes são influenciados pelo Mecanismo de Active Search de Kazanina et al. 2007 no processamento das estruturas de catáfora. Os resultados mostram que os falantes nativos preferem um antecedente sujeito para pronome nulo e pleno em anáfora e um antecedente sujeito para o pronome nulo em catáfora. No entanto, não se verificam efeitos significativos nas condições com pronome pleno em catáfora. Os aprendentes, em anáfora, também preferem o antecedente sujeito tanto para o nulo como para o pleno, o que é consistente com a sua L1. No entanto, em catáfora, não houve resultados significativos nesta experiência. Com efeito, a Experiência 2 só revela que o processamento em tempo real dos aprendentes de L2 é influenciado pela sua L1 nas condições de anáfora, mas não conseguem explicar o seu processamento no caso de catáfora

    Towards Entity Status

    Get PDF
    Discourse entities are an important construct in computational linguistics. They introduce an additional level of representation between referring expressions and that which they refer to: the level of mental representation. In this thesis, I first explore some semiotic and communication theoretic aspects of discourse entities. Then, I develop the concept of "entity status". Entity status is a meta-variable that collects two dimensions formations about the role that an entity plays a discourse, and management informations about how the entity is created, accessed, and updated. Finally, the concept is applied to two case studies: the first one focusses on the choice of referring expressions in radio news, while the second looks at the conditions under which a discourse entity can be mentioned as a pronoun.Diskursentitäten sind ein wichtiger Konstrukt in der Computerlinguistik. Sie führen eine zusätzliche Repräsentationsebene ein zwischen referierenden Ausdrücken, und dem, auf das diese Ausdrücke referieren: die Ebene der mentalen Repräsentation. In dieser Dissertation erkunde ich zunächst einige semiotische und kommunikationstheoretische Aspekte von Diskursentitäten. Danach führe ich den Begriff des "Entitätenstatus" ein. Entitätenstatus ist eine Meta-Variable, die zwei Dimensionen von Information über eine Diskursentität vereinigt: Struktur-Informationen über die Rolle, die eine Entität im Diskurs spielt, und Verwaltungs-Informationen über Erstellung, Zugriff und Update. Dieser Begriff wird schlussendlich auf zwei Fallstudien angewendet: die erste Studie konzentriert sich auf die Wahl referierender Ausdrücke in Radionachrichten, während die zweite Studie die Bedingungen untersucht, in denen eine Diskursentität als Pronomen erwähnt werden kann
    corecore