Search CORE

34 research outputs found

On strategies of human multi-document summarization

Author: Camargo Renata T.
Di-Felippo Ariani
Pardo Thiago Alexandre Salgueiro
Publication venue: Natal
Publication date
Field of study

In this paper, using a corpus with manual alignments of humanwritten summaries and their source news, we show that such summaries consist of information that has specific linguistic features, revealing human content selection strategies, and that these strategies produce indicative results that are competitive with a state of the art system for Portuguese.Neste artigo, a partir de um corpus com alinhamentos manuais entre sumários e suas respectivas notícias-fonte, evidencia-se que tais sumários são compostos por informações que possuem características linguísticas específicas, revelando estratégias humanas de sumarização, e que essas estratégias produzem resultados iniciais que são competitivos com um sistema do estado da arte para o português

Universidade de São Paulo

O desenvolvimento de uma base de dados léxico-conceitual bilíngue (inglês norte-americano/português brasileiro)

Author: Di Felippo Ariani
Dias-da-Silva Bento Carlos
Publication venue: 'Departamento de Educacao FCT/Unesp'
Publication date: 03/07/2009
Field of study

Para os sistemas computacionais que processam línguas naturais, como os de tradução automática, os recursos léxico-conceituais bilíngues ou multilíngues são de extrema importância. Consequentemente, o desenvolvimento de tais recursos tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN). Para o português do Brasil (PB), os recursos desse tipo ainda são escassos. Neste trabalho, apresenta-se REBECA, uma base de dados léxico-conceitual bilíngue desenvolvida para o par de línguas “inglês americano-PB” (Ingl-PB). Na introdução, contextualiza-se o projeto de desenvolvimento dessa base. Na sequência, apresentam-se (i) o equacionamento metodológico do projeto, enfatizando as atividades de pesquisa realizadas em cada uma das etapas previstas pela metodologia, (ii) a construção da base com o auxílio do editor de ontologias Protégé-OWL, (iii) as principais características e potencialidades da base REBECA e, por fim, (iv) as possíveis extensões e algumas considerações finais

Universidade Estadual Paulista São Paulo (UNESP), Faculdade de Ciências e Letras (FCLAr): Portal de Periódicos

Uma metodologia para o desenvolvimento de Wordnets terminológicas em português do Brasil

Author: Almeida Gladis Maria de Barcellos
Di Felippo Ariani
Publication venue: Universidade de São Paulo. Faculdade de Filosofia, Letras e Ciências Humanas
Publication date: 18/06/2010
Field of study

The development of computational systems capable of understanding and producing natural languages (e.g.: machine translation systems) requires some linguistic resources (lingwares), e.g. lexical knowledge databases. These resources are a crucial component of a wide variety of natural language processing (NLP) applications. Due to the increasing need to process specialized texts, domain-specific (or terminological) lexical databases have been built in many languages, especially in wordnet format. Despite the existence of a reasonable number of terminological wordnets in many languages, there is no clear and generic methodology to build them. For Brazilian Portuguese (BP), by the way, there is no domain-specific lexical database in the wordnet model. In this scenario, the TermiNet project has been developed. This project aims (i) to instantiate the generic NLP methodology proposed by Dias-da-Silva (2006) to develop terminological wordnets and (ii) to apply it to build a terminological wordnet in BP. In addition to the benefits to the NLP field, terminological wordnets may also contribute to the development of terminological/terminographic products as the organization of lexical-conceptual knowledge is an essential step in building such products. In this paper, we offer an introduction to the TermiNet project focusing on the instantiation of the generic NLP methodology.Para o desenvolvimento de vários sistemas computacionais que processam língua natural (p.ex., sistemas de sumarização, sistemas de tradução automática etc.), os pesquisadores da área do Processamento Automático das Línguas Naturais (PLN) necessitam de certos recursos linguísticos (os lingwares), os quais desempenham papel central na arquitetura desses sistemas, p.ex.: as “bases de conhecimento lexical”. Dada a necessidade crescente de se processar textos especializados, bases de conhecimento lexical especializado (ou terminológico) passaram a ser desenvolvidas para várias línguas, principalmente no formato wordnet. Ocorre que, embora exista um número razoável de wordnets terminológicas em diversas línguas, observa-se a carência de uma metodologia suficientemente clara que facilite e, sobretudo, estimule a criação dessas bases. Para o português do Brasil (PB), aliás, não há bases de conhecimento especializado no formato wordnet. Nesse cenário, está sendo desenvolvido o projeto TermiNet (do inglês, terminological wordnet), que objetiva: (i) a instanciação (ou seja, versão mais definida), para o desenvolvimento específico de wordnets terminológicas, da metodologia genérica de pesquisa no PLN proposta por Dias-da-Silva (2006) e (ii) a sua aplicação na construção de uma base desse tipo em PB. Acredita-se que o TermiNet pode beneficiar não só o PLN, mas também a Terminologia/ Terminografia em PB, pois o formato wordnet é um modelo robusto e eficaz para a sistematização do conhecimento léxico-conceitual, fundamental também para o desenvolvimento de produtos terminográficos tradicionais. Neste artigo, em especial, apresenta-se o referido projeto, focalizando a primeira etapa das atividades, que é a instanciação da metodologia trifásica de Dias-da-Silva (2006)

Cadernos Espinosanos (E-Journal)

O desenvolvimento de uma base de dados léxico-conceitual bilíngue (inglês norte-americano/português brasileiro)

Author: Ariani Di Felippo
Bento Carlos Dias-da-Silva
Publication venue: Universidade Estadual Paulista Júlio de Mesquita Filho
Publication date: 01/07/2009
Field of study

<p>Para os sistemas computacionais que processam línguas naturais, como os de tradução automática, os recursos léxico-conceituais bilíngues ou multilíngues são de extrema importância. Consequentemente, o desenvolvimento de tais recursos tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN). Para o português do Brasil (PB), os recursos desse tipo ainda são escassos. Neste trabalho, apresenta-se REBECA, uma base de dados léxico-conceitual bilíngue desenvolvida para o par de línguas “inglês americano-PB” (Ingl-PB). Na introdução, contextualiza-se o projeto de desenvolvimento dessa base. Na sequência, apresentam-se (i) o equacionamento metodológico do projeto, enfatizando as atividades de pesquisa realizadas em cada uma das etapas previstas pela metodologia, (ii) a construção da base com o auxílio do editor de ontologias Protégé-OWL, (iii) as principais características e potencialidades da base REBECA e, por fim, (iv) as possíveis extensões e algumas considerações finais.</p&gt

Directory of Open Access Journals

In this paper, we provide a brief description of the multidisciplinary domain of research called Natural Language Processing (NLP), which aims at enabling the computer to deal with natural languages. In accordance with this description, NLP is conceived a

Author: Ariani Di Felippo
Bento Carlos Dias-da-Silva
Publication venue: 'UNISINOS - Universidade do Vale do Rio Dos Sinos'
Publication date: 01/05/2010
Field of study

In this paper, we provide a brief description of the multidisciplinary domain of research called Natural Language Processing (NLP), which aims at enabling the computer to deal with natural languages. In accordance with this description, NLP is conceived as “human language engineering or technology”. Therefore, NLP requires consistent description of linguistic facts on every linguistic level: morphological, syntactic, semantic, and even the level of pragmatics and discourse. In addition to the linguistically-motivated conception of NLP, we emphasize the origin of such research field, the place occupied by NLP inside a multidisciplinary scenario, their objectives and challenges. Finally, we provide some remarks on the automatic processing of Brazilian Portuguese language. Key words: natural language processing, human language technology, computational linguistics, linguistics, natural language

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Unisinos (Universidade do Vale do Rio dos Sinos): SEER Unisinos

Directory of Open Access Journals

Caracterização da complementaridade temporal: subsídios para sumarização automática multidocumento

Author: Felippo Ariani Di
Souza Jackson Wilke da Cruz
Publication venue: 'Departamento de Educacao FCT/Unesp'
Publication date: 25/04/2018
Field of study

Complementarity is a usual multi-document phenomenon that commonly occurs among news texts about the same event. From a set of sentence pairs (in Portuguese) manually annotated with CST (Cross-Document Structure Theory) relations (Historical background and Follow-up) that make explicit the temporal complementary among the sentences, we identified a potential set of linguistic attributes of such complementary. Using Machine Learning algorithms, we evaluate the capacity of the attributes to discriminate between Historical background and Follow-up. JRip learned a small set of rules with high accuracy. Based on a set of 5 rules, the classifier discriminates the CST relations with 80% of accuracy. According to the rules, the occurrence of temporal expression in sentence 2 is the most discriminative feature in the task. As a contribution, the JRip classifier can improve the performance of the CST-discourse parsers for Portuguese.A complementaridade é um fenômeno multidocumento comumente observado entre notícias que versam sobre um mesmo evento. A partir de um corpus em português composto por um conjunto de pares de sentenças manualmente anotadas com as relações da Cross-Document Structure Theory (CST) que explicitam a complementaridade temporal (Historical background e Follow-up), identificou-se um conjunto potencial de atributos linguísticos desse tipo de complementaridade. Por meio de algoritmos de Aprendizado de Máquina, testou-se o potencial dos atributos em distinguir as referidas relações. O classificador simbólico gerado pelo algoritmo JRip obteve o melhor desempenho ao se considerar a precisão e o tamanho reduzido do conjunto de regras. Somente com base em 5 regras, tal classificador identificou Follow-up e Historical background com precisão aproximada de 80%. Ademais, as regras do classificador indicam que o atributo ocorrência de expressão temporal na sentença 2 é o mais relevante para a tarefa. Como contribuição, salienta-se que o classificador JRip aqui gerado pode ser utilizado nos analisadores discursivos multidocumento para o português do Brasil que são baseados na CST

Universidade Estadual Paulista São Paulo (UNESP), Faculdade de Ciências e Letras (FCLAr): Portal de Periódicos

A survey of automatic term extraction for Brazilian Portuguese

Author: Conrado Merley da Silva
Felippo Ariani Di
Pardo Thiago Alexandre Salgueiro
Rezende Solange Oliveira
Publication venue: Dordrecht
Publication date: 01/01/2014
Field of study

Background: Term extraction is highly relevant as it is the basis for several tasks, such as the building of dictionaries, taxonomies, and ontologies, as well as the translation and organization of text data. \ud Methods and Results: In this paper, we present a survey of the state of the art in automatic term extraction (ATE) for the Brazilian Portuguese language. In this sense, the main contributions and projects related to such task have been classified according to the knowledge they use: statistical, linguistic, and hybrid (statistical and linguistic). We also present a study/review of the corpora used in the term extraction in Brazilian Portuguese, as well as a geographic mapping of Brazil regarding such contributions, projects, and corpora, considering their origins. \ud Conclusions: In spite of the importance of the ATE, there are still several gaps to be filled, for instance, the lack of consensus regarding the formal definition of meaning of ‘term’. Such gaps are larger for the Brazilian Portuguese when compared to other languages, such as English, Spanish, and French. Examples of gaps for Brazilian Portuguese include the lack of a baseline ATE system, as well as the use of more sophisticated linguistic information, such as the WordNet and Wikipedia knowledge bases. Nevertheless, there is an increase in the number of contributions related to ATE and an interesting tendency to use contrasting corpora and domain stoplists, even though most contributions only use frequency, noun phrases, and morphosyntactic patterns.Sao Paulo Research Foundation (FAPESP) (Grants 2009/16142-3, 2011/19850-9, 2012/03071-3, and 2012/09375-4)National Counsel of Technological and Scientific Development (CNPq

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Springer - Publisher Connector

RCAAP - Repositório Científico de Acesso Aberto de Portugal

Universidade de São Paulo

The AMR-PT corpus and the semantic annotation of challenging sentences from journalistic and opinion texts

Author: Ariani Di Felippo
Marcio Lima Inácio
Marco Antonio Sobrevilla Cabezudo
Renata Ramisch
Thiago Alexandre Salgueiro Pardo
Publication venue: Pontifícia Universidade Católica de São Paulo
Publication date: 01/09/2023
Field of study

ABSTRACT One of the most popular semantic representation languages in Natural Language Processing (NLP) is Abstract Meaning Representation (AMR). This formalism encodes the meaning of single sentences in directed rooted graphs. For English, there is a large annotated corpus that provides qualitative and reusable data for building or improving existing NLP methods and applications. For building AMR corpora for non-English languages, including Brazilian Portuguese, automatic and manual strategies have been conducted. The automatic annotation methods are essentially based on the cross-linguistic alignment of parallel corpora and the inheritance of the AMR annotation. The manual strategies focus on adapting the AMR English guidelines to a target language. Both annotation strategies have to deal with some phenomena that are challenging. This paper explores in detail some characteristics of Portuguese for which the AMR model had to be adapted and introduces two annotated corpora: AMRNews, a corpus of 870 annotated sentences from journalistic texts, and OpiSums-PT-AMR, comprising 404 opinionated sentences in AMR

Directory of Open Access Journals

A qualitative analysis of a corpus of opinion summaries based on aspects

Author: Avanço Lucas Vinicius
Balage Filho Pedro Paulo
Bokan Alessandro Y.
Cabezudo Marco Antonio Sobrevilla
Cardoso Paula Christina Figueira
Dias Márcio de Souza
Felippo Ariani di
López Roque E.
Nóbrega Fernando Antônio Asevêdo
Pardo Thiago Alexandre Salgueiro
Seno Eloize M. R.
Souza Jackson W. C.
Zacarias Andressa C. I.
Publication venue: Denver
Publication date: 01/06/2015
Field of study

Aspect-based opinion summarization is the task of automatically generating a summary\ud for some aspects of a specific topic from a set of opinions. In most cases, to evaluate the quality of the automatic summaries, it is necessary to have a reference corpus of human\ud summaries to analyze how similar they are. The scarcity of corpora in that task has been a limiting factor for many research works. In this paper, we introduce OpiSums-PT, a corpus of extractive and abstractive summaries of opinions written in Brazilian Portuguese. We use this corpus to analyze how similar human summaries are and how people take into account the issues of aspect coverage and sentimento orientation to generate manual summaries. The results of these analyses show that human summaries are diversified and people generate summaries only for some aspects, keeping the overall sentiment orientation with little variation.Samsung Eletrônica da Amazônia Ltda

Universidade de São Paulo