3 research outputs found

    Corpus Linguistics software:Understanding their usages and delivering two new tools

    Get PDF
    The increasing availability of computers to ordinary users in the last few decades has led to an exponential increase in the use of Corpus Linguistics (CL) methodologies. The people exploring this data come from a variety of backgrounds and, in many cases, are not proficient corpus linguists. Despite the ongoing development of new tools, there is still an immense gap between what CL can offer and what is currently being done by researchers. This study has two outcomes. It (a) identifies the gap between potential and actual uses of CL methods and tools, and (b) enhances the usability of CL software and complement statistical application through the use of data visualization and user-friendly interfaces. The first outcome is achieved through (i) an investigation of how CL methods are reported in academic publications; (ii) a systematic observation of users of CL software as they engage in the routine tasks; and (iii) a review of four well-established pieces of software used for corpus exploration. Based on the findings, two new statistical tools for CL studies with high usability were developed and implemented on to an existing system, CQPweb. The Advanced Dispersion tool allows users to graphically explore how queries are distributed in a corpus, which makes it easier for users to understand the concept of dispersion. The tool also provides accurate dispersion measures. The Parlink Tool was designed having as its primary target audience beginners with interest in translations studies and second language education. The tool’s primary function is to make it easier for users to see possible translations for corpus queries in the parallel concordances, without the need to use external resources, such as translation memories

    Processing a learner corpus to identify differences: the influence of task, genre and student background

    No full text
    Exportado OPUSMade available in DSpace on 2019-08-14T21:55:50Z (GMT). No. of bitstreams: 1 processing_a_learner_corpus_to_identify_differences.pdf: 2552813 bytes, checksum: 6b0bf15a3b17a71ca8505272034b59f5 (MD5) Previous issue date: 21Esta dissertação trata dos aspectos técnicos e metodológicos na criação, limpeza e processamento de um corpus de nível universitário de aprendizes brasileiros, o Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. Os dois principais objetivos deste estudo consistem em tornar replicável o processamento do CorIsF e em investigar e descrever a variação de algumas características linguísticas em diferentes perfis de alunos, tarefas e gêneros. O procedimento foi realizado com auxílio da ferramenta R, um ambiente de software livre para computação estatística e gráfica, e foi dividido em quatro partes: a compilação e o pré-processamento do conjunto de dados; o processamento do corpus; a extração de principais aspectos; e a visualização de dados. O primeiro passo lida com os passos utilizados para coletar os dados e fazer oprimeiro processo de limpeza, tais como a eliminação de dados indesejados e manutenção de informações relevantes. No passo seguinte, CorIsF foi subdivido em cinco pequenos corpora que cobrem diferentes perfis de alunos, tarefas e gênero e anotado com um etiquetador de classes gramaticais. No terceiro passo, a variabilidade de classes gramaticais em cada subcorpus, a frequência de types e tokens, e a utilização de n-gramas foram investigados. Na etapa final algumas visualizações como nuvens de palavras e gráficos foram geradas para análise dos dados. Após a preparação dos dados, a linguagem utilizada em cada subcorpora foi contrastada e analisada, sugerindo que a tarefa, o gênero e o perfil aluno são propensos a influenciar a produção escrita dos alunos.This master thesis deals with the technical and methodological aspects in creating, cleaning and processing a Brazilian university level learner corpus, the Corpus do Inglês sem Fronteiras (CorIsF) v 1.0. The two main goals of this study consist of making the processing of CorIsF replicable and in investigating and describing the variation of some linguistic characteristics across different learner groups, tasks andgenres. The procedure was carried in R, a free software environment for statistical computing and graphics, and was divided in four parts: dataset compilation and preprocessing; dataset processing; extraction of the key features; and data visualization. The first step deals with the method used to collect the data and to do the first cleaning process, such as eliminating unwanted data and keeping the relevant ones. In the following step, CorIsF was subset in five small corpora covering different learner profiles, two different tasks, and on genre, and annotated with a part-ofspeech (POS) tagger. In the third step the variability of POS within subcorpora, the frequency of types and tokens, and the usage of n-grams were investigated. In the final step some exploratory data visualization were performed with the creation and analysis of plots and wordclouds. After the preparation of the data, the language used in each subcorpora was contrasted and analysed, suggesting that task, genre and student background are likely to influence learners written production

    Compilation of a University Learner Corpus = A criação de um Corpus de Aprendizes Universitários

    No full text
    As áreas de Linguística de Corpus (LC) e de Aquisição de Segunda Língua (ASL) têm sido pano de fundo complementares para pesquisadores interessados em análise contrastiva da interlíngua (Granger, 1998), iluminando nossa compreensão sobre a aquisição de inglês por aprendizes de vários grupos. No Brasil, há poucas pesquisas que descrevem o inglês de aprendizes universitários que permitam que intervenções pedagógicas sejam adequadas a suas necessidades. O objetivo principal deste artigo é descrever a compilação de um corpus de aprendizes brasileiros, CorIsF-Inglês, e ilustrar como uma análise de frequência pode revelar as escolhas dos aprendizes quando eles fazem tarefas de escrita. O tipo de tarefa, independente ou integrada, pode ter influenciado a frequência de substantivos, verbos e adjetivos que os aprendizes utilizara
    corecore