59 research outputs found

    Automatic extraction of term candidates from Course in General Linguistics with resources from corpus linguistics and natural language processing

    Get PDF
    Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.This paper presents a study based on Natural Language Processing techniques (PLN) and Corpus Linguistics (CL) approaches to extract terms related to important saussurean concepts in the Brazilian Portuguese edition of the Course in General Linguistics. Taking the CGL as a corpus, we aim at an automatic representation method of content through computer tools. Once submitted to the parser PALAVRAS, a morphossyntatic tagger, the corpus is processed by ExATOlp, a tool implementing various linguistic and statistically based NLP techniques. The tool generates hierarchical lists and charts of noun phrases, which are organized according to their specificity / relevance in the target corpus. These lists are then compared to data generated by AntConc - a free access tool quite used in LC approaches - applied to the same corpus. The results show the potential of ExATOlp in works on LC and in colleting lexical data for terminology studies, data mining and generation of ontologies in Portuguese

    Processamento de linguagem natural para indexação automática semântico-ontológica

    Get PDF
    Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.A pesquisa propõe uma arquitetura de indexação automática de documentos utilizando mecanismos de processamento de linguagem natural em nível semântico. Por meio do arranjo de ferramentas e recursos existentes, agregado ao desenvolvimento de software para integração, é construído um sistema de indexação automática que utiliza conhecimento modelado em uma ontologia para análise semântica. A aplicação da arquitetura é exemplificada e posta à prova em um conjunto de laudos periciais de crimes cibernéticos produzidos pela Perícia Criminal da Polícia Federal. Os resultados de pesquisa apontam para a melhoria que o aprofundamento à análise semântica do processamento de linguagem natural oferece para a seleção automática de descritores e, por extensão, para a recuperação da informação. Dentre as contribuições inéditas desta tese incluem-se a arquitetura de sistema de informação para indexação automática proposta, a ontologia construída para a análise semântica e as implementações em linguagem de programação Python. Por fim, o trabalho insere-se em uma área de pesquisa que tem sido cada vez mais investigada, no entanto ainda carece de resultados amadurecidos, qual seja o processamento de linguagem natural em língua portuguesa. __________________________________________________________________________ ABSTRACTThe research proposes an automatic indexing architecture of documents using natural language processing mechanisms on semantic level. By organizing existing tools and resources, added to software development for integration, an automatic indexing system which uses knowledge modeled by ontology to semantic analysis is built. The applicability of the architecture is exemplified and put into proof on forensics reports of cybercrimes produced by Federal Police Forensics Experts. The research results point to the benefits that semantic analysis on natural language processing offers to automatic descriptor selection and information retrieval. As contributions of this thesis there are the proposed automatic indexing information system architecture, the ontology built to semantic analysis and the implementations on Python programming language. Concluding, the work inserts itself in a research area that has been increasingly more investigated, however still demanding mature results, which is natural language processing on portuguese language

    Mineração e uso de padrões linguísticos para desambiguação de palavras e análise do discurso

    Get PDF
    Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2020.A extração de informação contida em textos na web tem o potencial de alavancar uma série de aplicações, mas muitas delas requerem a captura automática da semântica exata de elementos textuais relevantes. O Twitter, por exemplo, gera diariamente centenas de milhões de pequenos textos (tweets), muitos dos quais com rica informação sobre usuários, fatos, produtos, serviços, desejos, opiniões, etc. A anotação semântica de palavras relevantes em tweets é um grande desafio, pois eles impõem dificuldades adicionais (e.g., pouca informação de contexto, agramaticalidade) para métodos automáticos realizarem uma desambiguação de qualidade, o que leva a resultados com baixa precisão e cobertura. Inclusive, porque a língua é um sistema simbólico polissêmico, que não tem uma semântica pronta, o que se manifesta acentuadamente em linguagem coloquial e particularmente em mídias sociais. As soluções atuais de anotação geralmente não conseguem encontrar o sentido correto de palavras em construções envolvendo a semântica implícita que, às vezes, é colocada intencionalmente, por exemplo, para fazer humor, ironia, jogo de palavras ou trocadilhos. Este trabalho propõe o desenvolvimento de uma abordagem para minerar padrões léxico-semânticos, com a finalidade de captar a semântica em texto para utilizar em tarefas que processam a linguagem. Estes padrões foram denominados de padrões MSC+, pois são definidos por sequências de Componentes Morfo-semânticos (MSC). Um algoritmo não-supervisionado foi desenvolvido para minerar tais padrões, que suportam a identificação de um novo tipo de característica semântica em documentos, assim como métodos para desambiguar o sentido de palavras. Os resultados de experimentos com a tarefa de Word Sense Disambiguation (WSD), em texto de mídia social, mostraram que instâncias de alguns padrões MSC+ aparecem em vários tweets, mas às vezes usando palavras diferentes para transmitir o sentido. Os testes realizados nos resultados do experimento em WSD demonstraram que a exploração dos padrões MSC+ permite mecanismos eficazes na desambiguação do sentido de palavras, levando a melhorias no estado da arte, segundo medidas de precisão, cobertura e medida-F. Os padrões MSC+ também foram explorados em experimentos com Análise do Discurso (AD) do conteúdo de diferentes obras do escritor Machado de Assis. Os experimentos revelaram a incidência de padrões morfo-semânticos que evidenciam características de obras literárias e que podem auxiliar na classificação de discurso das obras analisadas, tais como a preponderância de verbos específicos nos contos, de substantivos femininos nos romances e adjetivos nos poemas.Abstract: Information extraction from social media texts has the potential to boost a number of applications, but many of them require the automatic capture of accurate semantics of relevant textual elements. Twitter, for example, generates hundreds of millions of short texts (tweets) daily, many of which containing rich information about users, facts, products, services, desires, opinions, etc. The semantic annotation of relevant words in tweets is a challenge because social media impose additional difficulties (e.g., little context information, poor grammatical rules conformity) for automatic methods to carry out quality disambiguation. It leads to results with low accuracy and coverage. In addition, a language is a polysemic symbolic system without ready semantics for some constructs. Sometimes words have implicit semantics (e.g., to make humor, irony, wordplay). It is common in colloquial language, and particularly in social media. In this work, we propose the development of an approach to mine lexical-semantic patterns and capture the semantics of texts for use in language processing tasks. We learn these patterns, that we call MSC+ patterns, from text data defined by Morpho-semantic Components (MSC). An unsupervised algorithm was developed to mine such patterns, which support the identification of a new kind of semantic feature in documents, as well as methods for disambiguating the meaning of words. Experimental results on Word Sense Disambiguation (WSD) task, from tweets, show that instances of some MSC+ patterns arise in many tweets, but sometimes using different words to convey the sense of the respective MSC in some tweets where pattern instances appear. The exploitation of MSC+ patterns when they induce semantics on target words enables effective word sense disambiguation mechanisms leading to improvements in the state of the art (e.g., metrics such as accuracy, coverage, and F-measure). We also explored the MSC+ patterns on the Discourse Analysis (DA) with literary content. Experimental results on selected works of a Brazilian writer submitted to our algorithm reveal the incidence of distinct morpho-semantic patterns in different types of works, such as the preponderance of specific verbs in tales, feminine nouns in romances, and adjectives in poems

    Um método para a construção de taxonomias utilizando a DBpedia

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2017.O processo de criação de taxonomias demanda esforço de especialistas de domínio, engenheiros de taxonomias, investimento financeiro e tempo. Devido às limitações existentes em fornecer estes recursos em sua integralidade em diversas organizações, muitos projetos que envolvem a construção de taxonomias não atingem o êxito esperado. Este trabalho pretende auxiliar na construção de taxonomias através da proposição de um método automatizado para a sua construção. Para a construção deste método, foi adotada uma série de procedimentos metodológicos, que se iniciou com o levantamento do referencial teórico sobre taxonomias e sua construção. Em sequência, foi realizada uma busca sistemática no domínio de construção automatizada de taxonomias, buscando encontrar abordagens e procedimentos já existentes neste campo de estudo. A partir desta revisão, foi elaborado um método para a geração de taxonomias a partir de repositórios de informações textuais com o apoio de bases de conhecimento, que fornecem as relações hierárquicas para verificação das relações taxonômicas entre os termos. Uma implementação deste método em formato de software foi realizada, utilizando uma amostra de currículos da área de conhecimento das Ciências Agrárias cadastrados na Plataforma Lattes como repositório de informações. A versão em português da DBpedia foi adotada como base de conhecimento neste experimento. Esta implementação também adota um processo de reconhecimento de entidades para a descoberta dos termos relevantes que podem ser cadastrados nas taxonomias. As propostas de taxonomias geradas pela implementação foram comparadas estatisticamente com o tesauro AGROVOC, referência na área da agricultura. Com a análise, verificou-se que 60% a 80% dos termos encontrados nas taxonomias geradas pela implementação também estão presentes no AGROVOC, sendo esta oscilação pertinente aos parâmetros de filtragem informados na entrada do método, o repositório de informações textuais utilizado e a base de conhecimento empregada para validação das relações hierárquicas.Abstract : The process of creating taxonomies demands effort from domain experts, taxonomy engineers, financial investment and time. Due to the limitations of providing these resources in their entirety in several organizations, many projects that involve the construction of taxonomies do not achieve the expected success. This work intends to assist in the construction of taxonomies through the proposition of an automated method for its construction. For the construction of this method, a series of methodological procedures was adopted, which began with the survey of the theoretical reference on taxonomies and their construction. In sequence, a systematic search was made in the field of automated taxonomy construction, seeking to find approaches and procedures that already exist in this field of study. From this review, a method was developed for the generation of taxonomies from textual information repositories with the support of knowledge bases, which provide the hierarchical relationships for the verification of the taxonomic relations between the terms. An implementation of this method in software format was performed, using a sample of curricula from the Agrarian Sciences knowledge area registered in the Plataforma Lattes as a repository of information. The DBpedia?s Portuguese language version was adopted as knowledge base in this experiment. This implementation also adopts a process of entity recognition for the discovery of the relevant terms that can be registered in the taxonomies. The taxonomy proposals generated by the implementation were compared statistically with the AGROVOC thesaurus, reference in the area of agriculture. With the analysis, it was verified that 60% to 80% of the terms found in the taxonomies generated by the implementation are also present in AGROVOC, being this oscillation pertinent to the filter parameters informed in the method entry, the textual information repository used and the knowledge base used to validate hierarchical relationships

    Recomendações para construção de taxonomia em portais corporativos

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação. Programa de Pós-graduação em Ciência da Informaçã

    Tradução comentada e anotada para o português de Di alcune specie nuove di rettili, e piante brasiliane, de Giuseppe Raddi

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Estudos de Tradução, Florianópolis, 2017.A proposta desse estudo é apresentar uma tradução comentada e anotada do artigo Di alcune specie nuove di rettili, e piante brasiliane [Sobre algumas novas espécies de répteis e plantas brasileiras], escrito pelo botânico naturalista italiano Giuseppe Raddi (1770-1829), que veio ao Brasil em uma missão científica, de 13 de agosto de 1817 até 19 de agosto de 1818, com intuito de coletar, nomear e descrever espécimes da flora e da fauna brasileiras. Raddi é considerado pela crítica como um homem empreendedor e estimado pelos seus contemporâneos como notável botânico. Parte dos seus escritos encontra-se publicada nas Memorie della Società Italiana della Scienze, 1820 [Memórias da Sociedade Italiana das Ciências, 1820]; outra parte, os manuscritos, encontra-se conservada em museus italianos. Ao propor a tradução da referida obra de Giuseppe Raddi evidenciam-se aspectos relativos à sua pesquisa iniciada no Brasil e terminada na Itália com a publicação dos resultados. Ademais, o estudo abre a possibilidade de conhecer suas impressões sobre as paisagens, plantas e costumes da época em que esteve no Brasil. O trabalho está dividido em três capítulos: no primeiro são tratados aspectos relativos à vida e à obra do autor, visto que ele não é devidamente conhecido no Brasil; o segundo expõe a tradução do referido texto com notas e, por fim, o terceiro capítulo apresenta os comentários da tradução, que se concentram nos seguintes aspectos: terminologias e linguagem especializada. Como referencial teórico crítico da pesquisa, destacam-se Lerat (1997), Cabré (1999), Mayer (2011), Hurtado Albir (2001) e Krieger e Finatto (2004). O trabalho se justifica por explorar a área da tradução especializada em um âmbito específico e pouco pesquisado, o da botânica e zoologia dos répteis.Abstract : The aim of this study is to present an annotated translation and commentaries of the work Di alcune specie nuove di rettili e piante brasiliane [An account of some of the new species of Brazilian reptiles and plants], written by the Italian naturalist Giuseppe Raddi (1770-1829), who was in Brazil in a scientific mission, from August, 13th, 1817 until August, 19th, 1818, with the purpose of collecting, naming and describing the Brazilian species of fauna and flora. Raddi is considered by the critics as an entrepreneur and was estimated by his contemporaries as one of the most prominent naturalist of his time. Part of his writings was published in the Memorie della Società Italiana della Scienze, 1820 [Memories of the Italian Society of Sciences, 1820]; another part, his manuscripts, are kept in Italian museums. By proposing the translation of the referred work of Giuseppe Raddi, the aim is to stress elements of the research that was initiated in Brazil and later concluded in Italy, when was released it?s findings. Furthermore, the present study allows the possibility of knowing his impressions on the landscape, flora and habits from the time that he was in Brazil. The present work is divided in three sections: in the first, are addressed the aspects of the life and the work of the author, since he is not well known in Brazil; the second section presents the translation of the referred text with notes and, at last, the third section provides the commentaries of such translation, which is concentrated on the following elements: terminology and specialized language. As for theoretical and critical framework, it will stress the works of Lerat (1997), Cabré (1999), Mayer (2010), Hurtado Albir (2001) e Krieger e Finatto (2004). The present work, moreover, is justified by the need of exploring a specialized area of the Translation Studies, in a specific and scarcely researched field that is the Botanic and Zoology of reptiles

    Re-Auto-Meta Arquivo: formas e transformações do arquivo

    Get PDF
    O objetivo deste volume de Cibertextualidades é observar e analisar formas e práticas contemporâneas de arquivo, quer através de ensaios críticos, quer através de apropriações e intervenções artísticas. Os prefixos re-, auto- e meta- pretendem evocar a reconstrução em curso da noção e das práticas de arquivo, a produção artefactual do sujeito como item arquivável e a integração em larga escala de múltiplos arquivos promovida pelos sistemas digitais. A arquivabilidade da temporalidade histórica criada pelos meios de inscrição automática e a especificidade da reprodutibilidade digital são tópicos abordados quer teoricamente, quer com base em estudos de caso. Rearquivo designa os processos críticos de reorganização e revisitação dos arquivos, incluindo a transformação do arquivo em matéria-prima de criação em práticas da arte contemporânea. Autoarquivo remete para a história social e política dos dispositivos de arquivamento do sujeito nos processos de burocratização que mantêm e instituem o poder do Estado, mas também para as formas contemporâneas de autoarquivamento coletivo na tecnocultura dos metadados e dos megadados. Meta-arquivo pretende aludir aos processos de simulação e reconfiguração que permitem a extensão do conceito a modelos digitais e à radical transformação da arquivização do tempo presente criada pelos media audiovisuais e computacionais.info:eu-repo/semantics/publishedVersio

    Aprendizado automático de relações semânticas entre tags de folksonomias.

    Get PDF
    As folksonomias têm despontado como ferramentas úteis de gerenciamento online de conteúdo digital. A exemplo dos populares websites Delicious, Flickr e BibSonomy, diariamente os usuários utilizam esses sistemas para efetuar upload de recursos web (e.g., url, fotos, vídeos e referências bibliográficas) e categorizá-los por meio de tags. A ausência de relações semânticas do tipo sinonímia e hiperonímia/hiponímia no espaço de tags das folksonomias reduz a capacidade do usuário de encontrar recursos relevantes. Para mitigar esse problema, muitos trabalhos de pesquisa se apoiam na aplicação de medidas de similaridade para detecção de sinonímia e construção automática de hierarquias de tags por meio de algoritmos heurísticos. Nesta tese de doutorado, o problema de detecção de sinonímia e hiperonímia/hiponímia entre pares de tags é modelado como um problema de classificação em Aprendizado de Máquina. A partir da literatura, várias medidas de similaridade consideradas boas indicadoras de sinonímia e hiperonímia/hiponímia foram identificadas e empregadas como atributos de aprendizagem. A incidência de um severo desbalanceamento e sobreposição de classes motivou a investigação de técnicas de balanceamento para superar ambos os problemas. Resultados experimentais usando dados reais das folksonomias BibSonomy e Delicious mostraram que a abordagem proposta denominada CPDST supera em termos de acurácia o baseline de melhor desempenho nas tarefas de detecção de sinonímia e hiperonímia/hiponímia. Também, aplicou-se a abordagem CPDST no contexto de geração de listas de tags semanticamente relacionadas, com o intuito de prover acesso a recursos adicionais anotados com outros conceitos pertencentes ao domínio da busca. Além da abordagem CPDST, foram propostos dois algoritmos fundamentados no acesso ao WordNet e ConceptNet para sugestão de listas especializadas com tags sinônimas e hipônimas. O resultado de uma avaliação quantitativa demonstrou que a abordagem CPDST provê listas de tags relevantes em relação às listas providas pelos métodos comparados.Folksonomies have emerged as useful tools for online management of digital content. Popular websites as Delicious, Flickr and BibSonomy are now widespread with thousands of users using them daily to upload digital content (e.g., webpages, photos, videos and bibliographic information) and tagging for later retrieval. The lack of semantic relations such as synonym and hypernym/hyponym in the tag space may diminish the ability of users in finding relevant resources. Many research works in the literature employ similarity measures to detect synonymy and to build hierarchies of tags automatically by means of heuristic algorithms. In this thesis, the problems of synonym and subsumption detection between pairs of tags are cast as a pairwise classification problem. From the literature, several similarity measures that are good indicators of synonymy and subsumption were identified, which are used as learning features. Under this setting, there is a severe class imbalance and class overlapping which motivated us to investigate and employ class imbalance techniques to overcome these problems. A comprehensive set of experiments were conducted on two large real-world datasets of BibSonomy and Delicious systems, showing that the proposed approach named CPDST outperforms the best performing heuristic-based baseline in the tasks of synonym and subsumption detection. CPDST is also applied in the context of tag list generation for providing access to additional resources annotated with other semantically related tags. Besides CPDST approach, two algorithms based on WordNet and ConceptNet accesses are proposed for capturing specifically synonyms and hyponyms. The outcome of an evaluative quantitative analysis showed that CPDST approach yields relevant tag lists in relation to the produced ones by the compared methods

    Uma análise lexicográfica dos elementos coesivos sequenciais do Português para a elaboração de uma proposta de definição: um estudo com base em corpus

    Get PDF
    This research analyzes how some of the portuguese sequential cohesive elements are defined in four dictionaries: a) Novíssimo Aulete – dicionário contemporâneo da língua portuguesa, b) Dicionário Houaiss Conciso, c) Aulete Digital e d) Dicionário eletrônico Houaiss da língua portuguesa. The dictionaries a and b are considered as Type 4, that is, directed to students of first to third year of high school, and the dictionaries c and d are thesaurus. The aim is to analyze if the school dictionaries present significant differences from the thesaurus dictionaries and develop a definition proposed for the sequential cohesive elements to lexicographers who are engaged in producing dictionaries that are used by students of the last years of the high school. Knowing that students must complete the high school with developed writing skills, we ask ourselves: are the dictionaries a support for the writing practice and, in particular, for the use of elements that help sequential cohesion of a text? To select the cohesive elements investigated in our research, we used the methodology / approach of Corpus Linguistics and prepared a corpus of essays with written textual productions which were taken from the site UOL Educação and refer to the period 2009-2014. After the corpus analysis has been done, we obtained a list of sequential cohesion elements used in the texts and a list of the same elements that have been used improperly, being the last one the criterion established to define the target words analysis in dictionaries. To get the results of this research, we used the theoretical contributions from the Lexicography, Pedagogical Lexicography, Text Linguistics and Argumentative Semantics.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorDissertação (Mestrado)Esta pesquisa consiste em verificar como alguns dos elementos coesivos sequenciais do português são definidos em quatro dicionários: a) Novíssimo Aulete – dicionário contemporâneo da língua portuguesa, b) Dicionário Houaiss Conciso, c) Aulete Digital e d) Dicionário eletrônico Houaiss da língua portuguesa. Os dicionários a e b são considerados como Tipo 4, ou seja, são direcionados aos alunos de 1º ao 3º ano do Ensino Médio, e as obras c e d são dicionários thesaurus. O objetivo é analisar se os dicionários escolares apresentam diferenças significativas em relação às obras thesaurus e elaborar uma proposta de definição para os elementos coesivos sequenciais aos lexicógrafos que se ocupam em produzir dicionários que são utilizados pelos discentes dos últimos anos do Ensino Básico. Sabendo que os alunos devem concluir o Ensino Médio com a habilidade de escrita desenvolvida, nos questionamos: os dicionários escolares são um suporte para a prática de escrita e, em específico, para o uso dos elementos que auxiliam na coesão sequencial de um texto? Para selecionarmos os elementos coesivos investigados em nossa pesquisa, contamos com a metodologia/abordagem da Linguística de Corpus e elaboramos um corpus de redações, cujas produções textuais escritas foram extraídas do site UOL Educação e referemse ao período de 2009 a 2014. Após análises realizadas nesse corpus, obtivemos uma lista dos elementos de coesão sequencial usados nos textos e uma lista dos mesmos elementos que foram utilizados de modo inadequado, sendo este último o critério que estabelecemos para definir as palavras alvo de análise nos dicionários. Para chegarmos aos resultados desta pesquisa, lançamos mão das contribuições teóricas advindas da Lexicografia, da Lexicografia Pedagógica, da Linguística Textual e da Semântica Argumentativa

    Estudo da compreensão leitora de futuros professores: análise de resumos produzidos por estudantes de graduação no projeto OBEDUC "Ler & Educar"

    Get PDF
    In Brazil, the theme concerning reading and understanding has gained importance in recent years, especially since the national assessments (SAEB/Prova Brasil and INAF) and the international ones (PISA) have revealed the low performance of Brazilian students. In general, data has shown that the reading competence of most students assessed does not go beyond the ability to find explicit information in short and familiar texts. Such data lead us to question many of the practices developed by schools and known as "reading activities", which, actually, do not provide reasonable elements to verify the degree of understanding by the reader in face of the material to be read. From this concern, this study tried to shed some light on the activities of summarization, common pedagogical practice, both at school and in the academic environment. Given the scenario described, this study aims to assess the level of reading comprehension by graduate students from undergraduate courses, expressed through summaries produced during their participation in the project OBEDUC “Ler & Educar”, aiming at contributing to the training of future teachers, relating features that might influence the performance of the subjects as readers and pointing the reading skills they demonstrate to use (or not) in the summarization activities. Theoretical foundation for this analysis is the comprehension model named construction-integration (CI) model (KINTSCH,1998; KINTSCH; VAN DIJK,1978) which provides wide explanation of how knowledge is used in comprehension and mental processes involved in the processing of reading, and contemplate in their summarization activities as a way to assess the ability of reading comprehension. Based on the presuppositions within the model, we have accessed the macro-structure of the basis texts, target of the summarization activities, determined the main ideas and compared them to the ones evoked in the summarizations by the undergrad students. In order to explain the performance of participants, we have related their performance to factors such as the previous knowledge about the theme inside the texts summarized and the use of macro-rules. As to pointing the reading skills we have related the performance by the participants to the domains “Location and Retrieval” and “Integration and Interpretation” presented by PISA 2012 proficiency index. The results demonstrate that the continuing education activities by the project OBEDUC “Ler & Educar”, which involve summarization, influence the previous knowledge and improve the reading comprehension by the undergrad students. However, there is evidence that the performance is also influenced by variables (summarization production conditions), which are not controlled by the survey. Undergrad students use the macro-rule of erasure/selection to perceive inherent aspects to the main idea and, thus, and evoke (through different structures) the most prominent pieces of information from the text surface. However, as the amount of information increases and the presence of topic sentences decreases, being the task for the reader to infer them and to create them, they demonstrate difficulties to determine the inherent aspects to the main idea, and, thus, they fail to use generalization and construction/integration. As for the summarized texts, most of the participants of the survey demonstrate fragilities using the reading skills from level 4 within PISA 2012 proficiency index.No Brasil, o tema em torno da leitura e compreensão tem ganhado relevância nos últimos anos, sobretudo porque as avaliações nacionais (SAEB/Prova Brasil e o INAF) e internacionais (PISA) têm revelado o baixo rendimento por parte dos estudantes brasileiros. Em geral, os dados mostram que a competência leitora da maioria dos estudantes avaliados não vai além da capacidade de localizar informações explícitas em textos curtos e familiares. Esses dados levam a questionar muitas das práticas pedagógicas desenvolvidas pela escola e denominadas de “atividades de leitura”, mas que na verdade, não proporcionam elementos palpáveis para verificar o grau de entendimento do leitor frente ao material lido. A partir dessa preocupação, o presente estudo lançou um olhar para as atividades de sumarização, prática pedagógica comum tanto na escola quanto no ambiente acadêmico. Considerando essa realidade, a presente pesquisa busca avaliar o nível de compreensão leitora de estudantes de graduação de dois cursos de licenciatura, expressa por meio de resumos produzidos durante a participação do projeto OBEDUC “Ler & Educar”, com objetivo de contribuir com a formação dos futuros professores, relacionando aspectos que podem influenciar no desempenho desses sujeitos como leitores e apontando as habilidades em leitura que eles demonstram utilizar (ou não) nas atividades de sumarização. O suporte teórico para a análise é o modelo de compreensão denominado, construction-integration (CI) model (KINTSCH,1998; KINTSCH; VAN DIJK,1978) que fornece uma explicação ampla de como o conhecimento é usado na compreensão e dos processos mentais implicados no processamento da leitura, além de contemplar em suas formulações as atividades de sumarização como forma de avaliar a capacidade de compreensão leitora. Com base nos pressupostos do modelo, acessamos a macroestrutura dos textos-fonte, alvo dos resumos, determinamos as ideias principais e as comparamos com as resgatadas nos resumos dos graduandos. No intuito de explicarmos a performance dos participantes, relacionamos seu desempenho com fatores como o conhecimento prévio sobre a temática dos textos resumidos e o uso das macrorregras. Para apontar as habilidades leitoras relacionamos o desempenho dos participantes com os domínios “Localização e Recuperação da Informação” e “Integração e Interpretação” apresentados na escala de proficiência PISA 2012. Os resultados demonstram que as atividades de formação continuada do projeto OBEDUC “Ler & Educar”, que envolvem a sumarização, influenciam no conhecimento prévio e melhoram a compreensão leitora dos graduandos. Contudo, há evidências de que o desempenho dos participantes também é influenciado por variáveis (condições de produção dos resumos) não controladas pela pesquisa. Os graduandos utilizam a macrorregra de apagamento/seleção para perceber aspectos inerentes à ideia principal e, a partir disso, selecionam e recuperam (por meio de diferentes construções) informações mais proeminentes da superfície textual. Contudo, à medida que a quantidade de informação aumenta e diminui a presença de sentenças tópicas, cabendo ao leitor inferi-las e criá-las, demonstram dificuldades de determinar os aspectos inerentes à ideia principal e, por conseguinte, falham em utilizar a macrorregra de generalização e de construção/integração. Em relação aos textos sumarizados, a maioria dos participantes da pesquisa demonstra fragilidades no uso de habilidades leitoras situadas a partir do Nível 4 da escala de proficiência do PISA 2012
    corecore