970 research outputs found
Intelligent CALL
This chapter describes the provision of corrective feedback in Tutorial CALL, sketching the challenges in the research and development of computational parsers and grammars. The automatic evaluation and assessment of free-form learner texts paying attention to linguistic accuracy, rhetorical structures, textual complexity, and written fluency is at the centre of attention in the section on Automatic Writing Evaluation. Reading and Incidental Vocabulary Learning Aids looks at the advantages of lexical glosses, or look-up information in electronic dictionaries for reading material aimed at language learners. The conclusion looks at the role of ICALL in the context of general trends in CALL
Teaching the Spanish Preterite Tense through Temporal Aspectual Discourse
Thesis (PhD) - Indiana University, Spanish, 2005English-speaking students of Spanish as a second language frequently have difficulty understanding the distinction between the two Spanish simple past tenses. Since English has only one simple past tense, students must distinguish between two possible past tenses: the preterite and the imperfect. In the present study the preterite tense, only, was taught to first- and third-semester students to determine whether beginning and intermediate students may better understand the functions of this tense through the use of a temporal discourse approach. To date no study has examined the relationship between instruction at both the beginning and intermediate levels using a temporal discourse approach. The significance of this study is that it examines the potential effect of teaching with this approach to beginning and intermediate students.
A total of sixty-three subjects participated in the investigation. One research cell of twenty-one subjects was used in Instruction group 1 at the first-semester level. Two research cells were used at the third-semester level: Instruction group 2 and No Instruction group. The No Instruction group was included as a control group for the third-semester level. All subjects in groups 1 and 2 received instruction; all subjects in all three groups received one pretest and three posttests.
Findings reveal a significantly greater production of correct preterite tense verbs as compared to learners receiving no instruction. Findings also reveal that learners receiving temporal aspectual instruction maintained increases in correct preterite tense verb production over time. Performance by both beginning- and intermediate-level learners receiving temporal aspectual discourse instruction showed no significant difference in the pattern of change in scores on the production of preterite tense verbs.
Results of the present study provide evidence that temporal discourse instruction improves correct production of preterite tense verbs
Error in the learning and teaching of english as a second language at higher education level
Linguistic error has proven to be a recurrent area of interest for researchers. There exist several types of approaches to error; some studies have focused on specific errors, such as grammatical errors, others on more general or exogenous issues, such as the perception of error of the group object of study, etc. From the point of view of methodology, some have been dedicated to the definition and description of error, while others have studied the identification of erroneous uses of language. Several proposals for error categorisation have also been propounded.
In the case of error production in languages foreign to the speaker, the learning factor must also be included. Some authors have focused on the underlying reasons, questioning if the cause for errors rests upon an inadequate teaching method, or the actual teacher, or even if the cause is intrinsic to any learnt language, as opposed to the Mother Tongue.
From the principle that it is possible to improve the language proficiency level of students by looking at the errors produced, this doctoral dissertation studies pragmatic error in the production of written English.
In addition, it includes pedagogic perspectives that introduce a Second Language to potential speakers and the European Framework of Reference.
The thesis is structured as follows: the first part is dedicated to a theoretical justification of the research, with an introduction to Pragmatics, Error Analysis, Contrastive Analysis, Second Language Acquisition -in particular the Communicative Approach- and the European Framework for Languages. The third chapter is dedicated to the objectives. Chapter 4 explains the methodology used for data processing and analysis. The results are explained in chapter 5 and chapter 6 presents the conclusions derived from these.
To begin with, a proposal for error analysis and identification is presented. This takes into account error distribution and classification and language levels proposed in the Common Europea Framework of
Reference for Languages as an open tool for the analysis of errors
investigated.Mestre I Mestre, EM. (2011). Error in the learning and teaching of english as a second language at higher education level [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/11277Palanci
A design proposal of an online corpus-driven dictionary of Portuguese for University Students
University students are expected to read and write academic texts as part of typical literacy practices in higher education settings. Hyland (2009, p. viii-ix) states that meeting these literacy demands involves “learning to use language in new ways”. In order to support the mastery of written academic Portuguese, the primary aim of this PhD research was to propose a design of an online corpus-driven dictionary of Portuguese for university students (DOPU) attending Portuguese-medium institutions, speakers of Brazilian Portuguese (BP) and European Portuguese (EP), either as a mother tongue or as an additional language.
The semi-automated approach to dictionary-making (Gantar et al., 2016), which is the latest method for dictionary compilation and had never been employed for Portuguese, was tested as a means of provision of lexical content that would serve as a basis for compiling entries of DOPU. It consists of automatic extraction of data from the corpus and import into dictionary writing system, where lexicographers then analyse, validate and edit the information. Thus, evaluation of this method for designing DOPU was a secondary goal of this research.
The procedure was performed on the Sketch Engine (Kilgarriff et al., 2004) corpus tool and the dictionary writing system used was iLex (Erlandsen, 2010). A number of new resources and tools were created especially for the extraction, given the unsuitability of the existing ones. These were: a 40 million-word corpus of academic texts (CoPEP), balanced between BP and EP and covering six areas of knowledge, a sketch grammar, and GDEX configurations for academic Portuguese.
Evaluation of the adoption of the semi-automated approach in the context of the DOPU design indicated that although further development of these brand-new resources and tools, as well as the procedure itself, would greatly contribute to increasing the quality of DOPU’s lexical content, the extracted data can already be used as a basis for entry writing. The positive results of the experiment also suggest that this approach should be highly beneficial to other lexicographic projects of Portuguese as well.No ensino superior, espera-se que estudantes participem, em maior ou menor extensão, em atividades de leitura e escrita de textos que tipicamente circulam no contexto universitário, como artigos, livros, exames, ensaios, monografias, projetos, trabalhos de conclusão de curso, dissertações, teses, entre outros. Contudo, essas práticas costumam se apresentar como verdadeiros desafios aos alunos, que não estão familiarizados com esses novos gêneros discursivos. Conforme Hyland (2009, p. viii-ix), a condição para se ter sucesso nessas práticas é “aprender a usar a língua de novas maneiras”.
A linguagem acadêmica é objeto de pesquisa há muitos anos, sendo especialmente desenvolvida no âmbito da língua inglesa. Se por um lado, durante um longo período todas as atenções estavam voltadas para o English for Academic Purposes (EAP) (inglês para fins acadêmicos), tendo em vista o incomparável apelo comercial dessa área, mais recentemente tem-se entendido que falantes de inglês como língua materna também precisam aprender inglês acadêmico, pois, como dito acima, trata-se de uma nova maneira de usar a língua, que os estudantes universitários desconhecem. Nesse sentido, é natural que a grande maioria de matérias pedagógicos como livros, manuais, gramáticas, listas de palavras e dicionários, por exemplo, sejam produzidos para o contexto de uso da língua inglesa.
Assim como o inglês e tantas outras línguas, o português também é usado em universidades como língua na e pela qual se constrói conhecimento. Aliás, nos últimos 15 anos, temos vivenciado um fenômeno de expansão do acesso ao ensino universitário no Brasil, paralelamente a um grande aumento da presença de alunos estrangeiros fazendo ensino superior no Brasil e em Portugal, o que reforça a natureza do português como língua de construção e difusão científica. É de se saudar os esforços e as medidas de política linguística da Comunidade dos Países de Língua Portuguesa (CPLP) para apoiar e fomentar o português como língua da ciência.
Apesar dessa clara importância do português acadêmico, sabemos que sua presença como objeto de estudo de uma área específica ainda é bastante restrita. Tem-se observado algum crescimento no que diz respeito à abordagem discursiva da linguagem acadêmica; contudo, descrições ao nível léxico-gramatical ainda são bastante escassas. Em especial, no que concerne recursos lexicográficos como auxiliares pedagógicos, a existência de um dicionário de português acadêmico especialmente criado para atender as necessidades de estudantes universitários é desconhecida.
Nesse sentido, tendo em vista a demanda apresentada acima e a lacuna nos estudos atuais, a presente pesquisa de doutorado buscou colaborar tanto com o campo dos recursos ao ensino de português acadêmico quanto com o de elaboração de recursos lexicográficos através da proposta de desenho de um dicionário online corpus-driven de português para estudantes universitários (DOPU). Baseando-se em uma perspectiva de português como língua pluricêntrica, este dicionário contempla as variedades português brasileiro (PB) e europeu (PE). Além disso, o público-alvo se constitui por falantes de português como língua materna e como língua adicional.
Para a construção do desenho, adotou-se a mais moderna abordagem de compilação de dicionários atualmente existente, qual seja, a semi-automated approach to dictionary-making (Gantar et al., 2016). Esse método consiste na extração automática de dados de um corpus e importação para um sistema de escrita de dicionários, no qual lexicógrafos analisam, editam e validam as informações que foram automaticamente pré-organizadas nos campos da entrada conforme definições previamente estabelecidas. Esta abordagem é revolucionária no sentido em que o ponto de partida da análise lexical do corpus não mais se dá na ferramenta de análise de corpus, mas sim diretamente no sistema de escrita de dicionários. Experimentar essa abordagem no desenvolvimento do desenho do DOPU constitui-se em um objetivo secundário desta pesquisa de doutorado, uma vez que tal método nunca foi aplicado para a construção de dicionários de português.
Os programas utilizados para a aplicação do procedimento de extração foram o Sketch Engine (SkE) (Kilgarriff et al., 2004), provavelmente a mais sofisticada ferramenta de criação, análise e manutenção de corpus da atualidade, e o iLex (Erlandsen, 2010), um sistema de escrita de dicionários bastante flexível e com alta capacidade de processamento de dados.
Para a implementação da abordagem, são necessários: um corpus anotado com classes de palavra; uma sketch grammar (trata-se de um arquivo com relações gramaticais e diretivas de processamento para o sistema do SkE computar diferentes tipos de relações através de cálculos estáticos); uma configuração de GDEX, isto é, Good Dictionary Examples – bons exemplos para dicionários (trata-se de uma configuração com classificadores para avaliar frases e atribuir pontuações conforme os critérios estabelecidos); e definições de parâmetros (frequência mínima dos colocados e das relações gramaticais). Tendo em vista a inadequação de corpora de português, bem como da sketch grammar e do GDEX existentes para o português, em função do propósito dessa extração de dados, qual seja, a compilação de entradas para o DOPU, foi necessário elaborar novos recursos.
Foi compilado o Corpus de Português Escrito em Periódicos (CoPEP), com 40 milhões de palavras, equilibrado entre as variedades PB e PE, e que cobre seis áreas de conhecimento. Os metadados do corpus foram detalhadamente anotados, permitindo fazer pesquisas avançadas. É o primeiro corpus internacional de português acadêmico de que temos notícia. De forma a padronizar a análise lexical e diminuir desequilíbrios na contagem estatística, o CoPEP foi pós-processado com o conversor Lince de forma a atualizar as ortografias de cada variedade conforme a determinação do Acordo Ortográfico da Língua Portuguesa, de 1990.
Uma sketch grammar foi especialmente elaborada para o CoPEP, e, nesse sentido, pode ser aplicada a outros corpora de português anotados pelo mesmo anotador. Optou-se por usar o anotador oferecido por padrão no SkE, qual seja, o Freeling v3. Criou-se uma sketch grammar com mais e mais precisas relações gramaticais do que aquela oferecida por padrão pelo SkE. Assim, usuários trabalhando com corpora de português anotados com Freeling no SkE poderão usar a minha versão, que já está disponível no Sketch Engine.
Uma configuração de GDEX havia sido produzida para fornecer exemplos para a compilação do Oxford Portuguese Dicionary (2015). No entanto, por ser bastante geral, elaborada para um corpus Web e por buscar selecionar exemplos para um dicionário bilíngue português-inglês/inglês-português, julgou-se mais apropriado criar uma configuração completamente nova. Assim, desenvolvi tal recurso, tendo em vista as características de uso da língua como apresentadas no CoPEP e o perfil do usuário do DOPU. O procedimento de extração automática de dados do CoPEP e importação para o iLex tomou como base o procedimento usado para a criação de dicionários de esloveno (criadores desse método), fazendo-se adaptações. Acrescentaram-se dois elementos ao processo de extração: o longest-commonest match (LCM), que mostra a realização mais comum do par keyword e colocado, ajudando a entender o uso mais típico das colocações; e sugestões para atribuição de etiquetas com variedade típica, tanto para a keyword quanto para o colocado.
A avaliação do processo de escrita de entradas-piloto indicou que o método de extração de dados do CoPEP e importação para o iLex foi extremamente positivo, dado que a análise lexical pôde ser bastante sofisticada sem demandar o tempo rotineiro necessário quando se parte das linhas de concordância para elaboração de entradas. Alguns dados que nesta pesquisa não foram extraídos automaticamente e que tiveram que ser analisados manualmente na ferramenta de corpus poderão ser incluídos numa próxima versão do procedimento. Análise do processo de criação dos recursos necessários indicou que aprimoramentos podem ser feitos, assim aumentando a acurácia da extração.
Espera-se que o desenho de dicionário online corpus-driven de português para estudantes universitários proposto por esta pesquisa de doutorado sirva como base para o desenvolvimento de outras pesquisas relacionadas de forma que a sustentar a elaboração do DOPU
The Influence of Conceptual Number in Coreference Establishing: An ERP Study on Brazilian and European Portuguese
Number agreement depends on two kinds of information: grammatical and conceptual information. And, generally, they converge. However, for collective nouns, syntactic and conceptual number do not match. When collective nouns are involved in coreference establishing, the pronoun agrees with the noun’s conceptual number, thus creating a number disagreement (e.g. the bandSG played last night. TheyPL were great). This PhD Thesis aims to investigate how conceptual number affects coreference establishing and we explore such linguistic phenomena in both Brazilian (partial pro-drop) and European Portuguese (pro-drop). We also investigate whether intra and inter-sentential processing affects the way conceptual number influences coreference establishing
Culture Clubs: Processing Speech by Deriving and Exploiting Linguistic Subcultures
Spoken language understanding systems are error-prone for several reasons, including individual speech variability. This is manifested in many ways, among which are differences in pronunciation, lexical inventory, grammar and disfluencies. There is, however, a lot of evidence pointing to stable language usage within subgroups of a language population. We call these subgroups linguistic subcultures.
The two broad problems are defined and a survey of the work in this space is performed. The two broad problems are: linguistic subculture detection, commonly performed via Language Identification, Accent Identification or Dialect Identification approaches; and speech and language processing tasks taken which may see increases in performance by modeling for each linguistic subculture.
The data used in the experiments are drawn from four corpora: Accents of the British Isles (ABI), Intonational Variation in English (IViE), the NIST Language Recognition Evaluation Plan (LRE15) and Switchboard. The speakers in the corpora come from different parts of the United Kingdom and the United States and were provided different stimuli. From the speech samples, two features sets are used in the experiments.
A number of experiments to determine linguistic subcultures are conducted. The set of experiments cover a number of approaches including the use traditional machine learning approaches shown to be effective for similar tasks in the past, each with multiple feature sets. State-of-the-art deep learning approaches are also applied to this problem.
Two large automatic speech recognition (ASR) experiments are performed against all three corpora: one, monolithic experiment for all the speakers in each corpus and another for the speakers in groups according to their identified linguistic subcultures.
For the discourse markers labeled in the Switchboard corpus, there are some interesting trends when examined through the lens of the speakers in their linguistic subcultures.
Two large dialogue acts experiments are performed against the labeled portion of the Switchboard corpus: one, monocultural (or monolithic ) experiment for all the speakers in each corpus and another for the speakers in groups according to their identified linguistic subcultures.
We conclude by discussing applications of this work, the changing landscape of natural language processing and suggestions for future research
Social and structural aspects of language contact and change
This book brings together papers that discuss social and structural aspects of language contact and language change.
Several papers look at the relevance of historical documents to determine the linguistic nature of early contact varieties, while others investigate the specific processes of contact-induced change that were involved in the emergence and development of these languages. A third set of papers look at how new datasets and greater sensitivity to social issues can help to (re)assess persistent theoretical and empirical questions as well as help to open up new avenues of research. In particular they highlight the heterogeneity of contemporary language practices and attitudes often obscured in sociolinguistic research.
The contributions all focus on language variation and change but investigate it from a variety of disciplinary and empirical perspectives and cover a range of linguistic contexts
Social and structural aspects of language contact and change
This book brings together papers that discuss social and structural aspects of language contact and language change. Several papers look at the relevance of historical documents to determine the linguistic nature of early contact varieties, while others investigate the specific processes of contact-induced change that were involved in the emergence and development of these languages. A third set of papers look at how new datasets and greater sensitivity to social issues can help to (re)assess persistent theoretical and empirical questions as well as help to open up new avenues of research. In particular they highlight the heterogeneity of contemporary language practices and attitudes often obscured in sociolinguistic research. The contributions all focus on language variation and change but investigate it from a variety of disciplinary and empirical perspectives and cover a range of linguistic contexts
- …