    Detección de la unidad central en dos géneros y lenguajes diferentes: un estudio preliminar en portugués brasileño y euskera

    The aim of this paper is to present the development of a rule-based automatic detector which determines the main idea or the most pertinent discourse unit in two different languages such as Basque and Brazilian Portuguese and in two distinct genres such as scientific abstracts and argumentative answers. The central unit (CU) may be of interest to understand texts regarding relational discourse structure and it can be applied to Natural Language Processing (NLP) tasks such as automatic summarization, question-answer systems or sentiment analysis. In the case of argumentative answer genre, the identification of CU is an essential step for an eventual implementation of an automatic evaluator for this genre. The theoretical background which underlies the paper is Mann and Thompson’s (1988) Rhetorical Structure Theory (RST), following discourse segmentation and CU annotation. Results show that the CUs in different languages and in different genres are detected automatically with similar results, although there is space for improvement.El objetivo de este trabajo es presentar las mejoras de un detector automático basado en reglas que determina la idea principal o unidad discursiva más pertinente de dos lenguas tan diferentes como el euskera y el portugués de Brasil y en dos géneros muy distintos como son los resúmenes de los artículos científicos y las respuestas argumentativas. La unidad central (CU, por sus siglas en inglés) puede ser de interés para entender los textos partiendo de la estructura discursiva relacional y poderlo aplicar en tareas de Procesamiento del Lenguaje Natural (PLN) tales como resumen automático, sistemas de pregunta-respuesta o análisis de sentimiento. En los textos de respuesta argumentativa, identificar la CU es un paso esencial para un evaluador automático de considere la estructura discursiva de dichos textos. El marco teórico en el que hemos desarrollado el trabajo es la Rhetorical Structure Theory (RST) de Mann y Thompson (1988), que parte de la segmentación discursiva y finaliza con la anotación de la unidad central. Los resultados demuestran que las unidades centrales en diferentes lenguas y géneros son detectadas con similares resultados automáticamente, aunque todavía hay espacio para mejora

    Identificação da unidade central de textos dissertativo-argumentativos em contexto de avaliação

    This study aims to investigate criteria for the identification of the central unit of argumentative texts in the context of university entrance examinations. The results of a previous study on argumentative answers produced by entrance examinations candidates are compared with the results obtained from the application of the same criteria to a corpus formed by argumentative essays produced by Brazilian National High School Exam (Exame Nacional do Ensino Médio - Enem) candidates. The theoretical and methodological apparatus used was the Rhetorical Structure Theory, a descriptive theory that studies textual organization through implicit relations established between the parts of the text. Unlike argumentative answers, in which the central unit appears at the beginning of most texts, the most common position of the central unit in argumentative essays is between 20% and 30% of the length of the text. This organizational difference is due to the fact that, in argumentative answers, the text producer must start the text answering the question, whereas in argumentative essays, creating a background with relevant information is necessary to situate the reader with respect to the theme of the text. Another important feature in the search for a pattern is the frequency of certain words used in the central units. Nouns and adjectives used in the question show high frequency, since candidates tend to use these words in order to ensure that they meet the theme requested. The more subjective character of the answer in the argumentative answer genre favors the use of evidential verbs expressing propositional attitude (“believe” and “think”), acting as the matrix of the sentence in which the answer is given. In argumentative essays, the point of view is more objective, which does not favor the use of such verbs.Keywords: central unit, argumentative essays, argumentative answers.Este trabalho tem como objetivo investigar critérios para a identificação da unidade central de textos argumentativos em contexto de vestibular. Comparam-se os resultados de trabalho anterior sobre textos do gênero resposta argumentativa produzidos por candidatos ao vestibular com os resultados obtidos a partir da aplicação dos mesmos critérios a um córpus formado por textos dissertativo-argumentativos produzidos por candidatos do Enem. O aparato teórico-metodológico utilizado é a Rhetorical Structure Theory, teoria de caráter descritivo que visa estudar a organização textual por meio das relações implícitas que se estabelecem entre as partes do texto. Ao contrário do gênero resposta argumentativa, em que a unidade central ocorre em posição inicial na maioria dos textos, no texto dissertativo-argumentativo, a posição mais comum da unidade central é na porção que vai de 20% a 30% da extensão do texto. Essa diferença organizacional se deve ao fato de, no gênero resposta argumentativa, o produtor dever iniciar seu texto respondendo à pergunta que o motivou. No texto dissertativo-argumentativo, é necessária a criação de um fundo com informações que situem o destinatário do texto com relação à temática. Outro traço importante na busca de um padrão é a frequência de determinadas palavras utilizadas nas unidades centrais. Substantivos e adjetivos que compõem o comando da proposta de redação do texto dissertativo-argumentativo apresentam alta frequência, uma vez que os candidatos tendem a utilizar essas palavras como forma de garantir o atendimento do tema solicitado. O caráter mais subjetivo que a resposta pode assumir no gênero resposta argumentativa favorece a emergência de verbos evidenciais que expressam atitude proposicional (“acreditar”, “crer” e “pensar”), atuando como matriz da sentença na qual a resposta é dada. Nos textos dissertativo-argumentativos, o caráter mais objetivo da expressão do ponto de vista não favorece o uso de verbos desse tipo.Palavras-chave: unidade central, texto dissertativo-argumentativo, gênero resposta argumentativa

    Remembering Bill Mann

    William C. Mann passed away on August 13, 2004, after a long struggle with leukemia. He is known to readers of Computational Linguistics as a keen supporter and past president (1987) of ACL, a pioneer in the development of text generation as a field of research in computational linguistics, the originator of rhetorical structure theory (RST) and dialogue game theory (DGT), and the developer (together with DavidWeber) of dialect adaptation as a technique within machine translation. And he’ll be remembered for these and many other contributions, but above all, in this context, he’ll be remembered as a unique visionary in computational linguistics (CL) and as a truly wonderful and extraordinarily generous colleague.11 page(s