34 research outputs found

    On strategies of human multi-document summarization

    Get PDF
    In this paper, using a corpus with manual alignments of humanwritten summaries and their source news, we show that such summaries consist of information that has specific linguistic features, revealing human content selection strategies, and that these strategies produce indicative results that are competitive with a state of the art system for Portuguese.Neste artigo, a partir de um corpus com alinhamentos manuais entre sumários e suas respectivas notícias-fonte, evidencia-se que tais sumários são compostos por informações que possuem características linguísticas específicas, revelando estratégias humanas de sumarização, e que essas estratégias produzem resultados iniciais que são competitivos com um sistema do estado da arte para o português

    O desenvolvimento de uma base de dados léxico-conceitual bilíngue (inglês norte-americano/português brasileiro)

    Get PDF
    Para os sistemas computacionais que processam línguas naturais, como os de tradução automática, os recursos léxico-conceituais bilíngues ou multilíngues são de extrema importância. Consequentemente, o desenvolvimento de tais recursos tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN). Para o português do Brasil (PB), os recursos desse tipo ainda são escassos. Neste trabalho, apresenta-se REBECA, uma base de dados léxico-conceitual bilíngue desenvolvida para o par de línguas “inglês americano-PB” (Ingl-PB). Na introdução, contextualiza-se o projeto de desenvolvimento dessa base. Na sequência, apresentam-se (i) o equacionamento metodológico do projeto, enfatizando as atividades de pesquisa realizadas em cada uma das etapas previstas pela metodologia, (ii) a construção da base com o auxílio do editor de ontologias Protégé-OWL, (iii) as principais características e potencialidades da base REBECA e, por fim, (iv) as possíveis extensões e algumas considerações finais

    Uma metodologia para o desenvolvimento de Wordnets terminológicas em português do Brasil

    Get PDF
    The development of computational systems capable of understanding and producing natural languages (e.g.: machine translation systems) requires some linguistic resources (lingwares), e.g. lexical knowledge databases. These resources are a crucial component of a wide variety of natural language processing (NLP) applications. Due to the increasing need to process specialized texts, domain-specific (or terminological) lexical databases have been built in many languages, especially in wordnet format. Despite the existence of a reasonable number of terminological wordnets in many languages, there is no clear and generic methodology to build them. For Brazilian Portuguese (BP), by the way, there is no domain-specific lexical database in the wordnet model. In this scenario, the TermiNet project has been developed. This project aims (i) to instantiate the generic NLP methodology proposed by Dias-da-Silva (2006) to develop terminological wordnets and (ii) to apply it to build a terminological wordnet in BP. In addition to the benefits to the NLP field, terminological wordnets may also contribute to the development of terminological/terminographic products as the organization of lexical-conceptual knowledge is an essential step in building such products. In this paper, we offer an introduction to the TermiNet project focusing on the instantiation of the generic NLP methodology.Para o desenvolvimento de vários sistemas computacionais que processam língua natural (p.ex., sistemas de sumarização, sistemas de tradução automática etc.), os pesquisadores da área do Processamento Automático das Línguas Naturais (PLN) necessitam de certos recursos linguísticos (os lingwares), os quais desempenham papel central na arquitetura desses sistemas, p.ex.: as “bases de conhecimento lexical”. Dada a necessidade crescente de se processar textos especializados, bases de conhecimento lexical especializado (ou terminológico) passaram a ser desenvolvidas para várias línguas, principalmente no formato wordnet. Ocorre que, embora exista um número razoável de wordnets terminológicas em diversas línguas, observa-se a carência de uma metodologia suficientemente clara que facilite e, sobretudo, estimule a criação dessas bases. Para o português do Brasil (PB), aliás, não há bases de conhecimento especializado no formato wordnet. Nesse cenário, está sendo desenvolvido o projeto TermiNet (do inglês, terminological wordnet), que objetiva: (i) a instanciação (ou seja, versão mais definida), para o desenvolvimento específico de wordnets terminológicas, da metodologia genérica de pesquisa no PLN proposta por Dias-da-Silva (2006) e (ii) a sua aplicação na construção de uma base desse tipo em PB. Acredita-se que o TermiNet pode beneficiar não só o PLN, mas também a Terminologia/ Terminografia em PB, pois o formato wordnet é um modelo robusto e eficaz para a sistematização do conhecimento léxico-conceitual, fundamental também para o desenvolvimento de produtos terminográficos tradicionais. Neste artigo, em especial, apresenta-se o referido projeto, focalizando a primeira etapa das atividades, que é a instanciação da metodologia trifásica de Dias-da-Silva (2006)

    O desenvolvimento de uma base de dados léxico-conceitual bilíngue (inglês norte-americano/português brasileiro)

    Get PDF
    <p>Para os sistemas computacionais que processam línguas naturais, como os de tradução automática, os recursos léxico-conceituais bilíngues ou multilíngues são de extrema importância. Consequentemente, o desenvolvimento de tais recursos tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN). Para o português do Brasil (PB), os recursos desse tipo ainda são escassos. Neste trabalho, apresenta-se REBECA, uma base de dados léxico-conceitual bilíngue desenvolvida para o par de línguas “inglês americano-PB” (Ingl-PB). Na introdução, contextualiza-se o projeto de desenvolvimento dessa base. Na sequência, apresentam-se (i) o equacionamento metodológico do projeto, enfatizando as atividades de pesquisa realizadas em cada uma das etapas previstas pela metodologia, (ii) a construção da base com o auxílio do editor de ontologias Protégé-OWL, (iii) as principais características e potencialidades da base REBECA e, por fim, (iv) as possíveis extensões e algumas considerações finais.</p&gt

    In this paper, we provide a brief description of the multidisciplinary domain of research called Natural Language Processing (NLP), which aims at enabling the computer to deal with natural languages. In accordance with this description, NLP is conceived a

    Get PDF
    In this paper, we provide a brief description of the multidisciplinary domain of research called Natural Language Processing (NLP), which aims at enabling the computer to deal with natural languages. In accordance with this description, NLP is conceived as “human language engineering or technology”. Therefore, NLP requires consistent description of linguistic facts on every linguistic level: morphological, syntactic, semantic, and even the level of pragmatics and discourse. In addition to the linguistically-motivated conception of NLP, we emphasize the origin of such research field, the place occupied by NLP inside a multidisciplinary scenario, their objectives and challenges. Finally, we provide some remarks on the automatic processing of Brazilian Portuguese language. Key words: natural language processing, human language technology, computational linguistics, linguistics, natural language

    Caracterização da complementaridade temporal: subsídios para sumarização automática multidocumento

    Get PDF
    Complementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese.A complementaridade é um fenômeno multidocumento comumente observado entre notícias que versam sobre um mesmo evento. A partir de um corpus em português composto por um conjunto de pares de sentenças manualmente anotadas com as relações da Cross-Document Structure Theory (CST) que explicitam a complementaridade temporal (Historical background e Follow-up), identificou-se um conjunto potencial de atributos linguísticos desse tipo de complementaridade. Por meio de algoritmos de Aprendizado de Máquina, testou-se o potencial dos atributos em distinguir as referidas relações. O classificador simbólico gerado pelo algoritmo JRip obteve o melhor desempenho ao se considerar a precisão e o tamanho reduzido do conjunto de regras. Somente com base em 5 regras, tal classificador identificou Follow-up e Historical background com precisão aproximada de 80%. Ademais, as regras do classificador indicam que o atributo ocorrência de expressão temporal na sentença 2 é o mais relevante para a tarefa. Como contribuição, salienta-se que o classificador JRip aqui gerado pode ser utilizado nos analisadores discursivos multidocumento para o português do Brasil que são baseados na CST

    A survey of automatic term extraction for Brazilian Portuguese

    Get PDF
    Background: Term extraction is highly relevant as it is the basis for several tasks, such as the building of dictionaries, taxonomies, and ontologies, as well as the translation and organization of text data. \ud Methods and Results: In this paper, we present a survey of the state of the art in automatic term extraction (ATE) for the Brazilian Portuguese language. In this sense, the main contributions and projects related to such task have been classified according to the knowledge they use: statistical, linguistic, and hybrid (statistical and linguistic). We also present a study/review of the corpora used in the term extraction in Brazilian Portuguese, as well as a geographic mapping of Brazil regarding such contributions, projects, and corpora, considering their origins. \ud Conclusions: In spite of the importance of the ATE, there are still several gaps to be filled, for instance, the lack of consensus regarding the formal definition of meaning of ‘term’. Such gaps are larger for the Brazilian Portuguese when compared to other languages, such as English, Spanish, and French. Examples of gaps for Brazilian Portuguese include the lack of a baseline ATE system, as well as the use of more sophisticated linguistic information, such as the WordNet and Wikipedia knowledge bases. Nevertheless, there is an increase in the number of contributions related to ATE and an interesting tendency to use contrasting corpora and domain stoplists, even though most contributions only use frequency, noun phrases, and morphosyntactic patterns.Sao Paulo Research Foundation (FAPESP) (Grants 2009/16142-3, 2011/19850-9, 2012/03071-3, and 2012/09375-4)National Counsel of Technological and Scientific Development (CNPq

    The AMR-PT corpus and the semantic annotation of challenging sentences from journalistic and opinion texts

    Get PDF
    ABSTRACT One of the most popular semantic representation languages in Natural Language Processing (NLP) is Abstract Meaning Representation (AMR). This formalism encodes the meaning of single sentences in directed rooted graphs. For English, there is a large annotated corpus that provides qualitative and reusable data for building or improving existing NLP methods and applications. For building AMR corpora for non-English languages, including Brazilian Portuguese, automatic and manual strategies have been conducted. The automatic annotation methods are essentially based on the cross-linguistic alignment of parallel corpora and the inheritance of the AMR annotation. The manual strategies focus on adapting the AMR English guidelines to a target language. Both annotation strategies have to deal with some phenomena that are challenging. This paper explores in detail some characteristics of Portuguese for which the AMR model had to be adapted and introduces two annotated corpora: AMRNews, a corpus of 870 annotated sentences from journalistic texts, and OpiSums-PT-AMR, comprising 404 opinionated sentences in AMR

    A qualitative analysis of a corpus of opinion summaries based on aspects

    Get PDF
    Aspect-based opinion summarization is the task of automatically generating a summary\ud for some aspects of a specific topic from a set of opinions. In most cases, to evaluate the quality of the automatic summaries, it is necessary to have a reference corpus of human\ud summaries to analyze how similar they are. The scarcity of corpora in that task has been a limiting factor for many research works. In this paper, we introduce OpiSums-PT, a corpus of extractive and abstractive summaries of opinions written in Brazilian Portuguese. We use this corpus to analyze how similar human summaries are and how people take into account the issues of aspect coverage and sentimento orientation to generate manual summaries. The results of these analyses show that human summaries are diversified and people generate summaries only for some aspects, keeping the overall sentiment orientation with little variation.Samsung Eletrônica da Amazônia Ltda
    corecore