3 research outputs found

    Brazilian Portuguese-Russian (BraPoRus) Corpus: Automatic transcription and acoustic quality of elderly speech during Covid-19 pandemic

    Full text link
    This article presents the Brazilian Portuguese-Russian (BraPoRus) corpus, whose goal is to collect, analyze, and preserve for posterity the spoken heritage Russian still used today in Brazil by approximately 1,500 elderly bilingual heritage Russian–Brazilian Portuguese speakers. Their unique 100-year-old variety of moribund Russian is disappearing because it has not been passed to their descendants born in Brazil. During the COVID-19 pandemic, we remotely collected 170 h of speech samples in heritage Russian from 26 participants (Mage = 75.7 years) in naturalistic settings using Zoom or a phone call. To estimate the quality of collected data, we focus on two methodological challenges, automatic transcription and acoustic quality of remote recordings. First, we find that among commercially available transcription programs, Sonix far outperforms Google Transcribe and Vocalmatic on the measure of word error rate (WER). Second, we also establish that the acoustic quality of the remote recordings was adequate for intonational and speech rate analysis. Moreover, this remote method of collecting and analyzing speech samples works successfully with elderly bilingual participants who speak a heritage language different from their dominant societal language, and it can become a new norm when face-to-face communication with elderly participants is not possible

    Braporus, corpus de fala coletada em falantes de russo de herança no Brasil: protocolo de coleta de dados

    No full text
    Heritage speakers represent a special category of bilinguals who are exposed to their first language at home in the childhood, but later acquire the main language of their society that becomes dominant.  Brazil has numerous communities of heritage speakers of many languages such as Japanese, German, Italian, Polish, and Ukrainian; however, only few speech corpora are being collected. In the current work, we describe the protocol of the data collection and discuss some points about data management for the BraPoRus (Brazilian Portuguese-Russian) corpus, a spoken corpus of heritage Russian in Brazil. The participants are 26 elderly speakers who were born in Brazil or came to Brazil as children in the 1950s. The protocol of the data collection includes: 1) a brief sociodemographic questionnaire; 2) a working memory test in Russian and Brazilian Portuguese using the Month-Ordering task; 3) a semi-spontaneous narrative about the history of the participants’ family and their immigration to Brazil; 4) the Bilingual Language Profile; 5) a sociolinguistic interview with 139 questions; 6) unscripted dialogues between participants in Russian; 7) intonation task; and 8) reading task. The BraPoRus corpus contains more than 160 hours of speech recordings and represents a unique collection of heritage Russian in Brazil. We expect that the protocol described in this work will be useful both for Brazilian linguists who study other heritage languages, and for research on heritage Russian in other countries.Os falantes de herança representam uma categoria especial de bilíngues que adquirem a sua primeira língua no ambiente familiar na infância, e a sua segunda língua, que com o tempo se torna dominante, na sua vida em sociedade. No Brasil, há muitas comunidades que falam línguas de herança como japonês, alemão, italiano, polonês e ucraniano. No entanto, poucos trabalhos de preservação dessas línguas, com a coleta de corpus, estão sendo conduzidos. No presente trabalho, descrevemos o protocolo de coleta do BraPoRus, o corpus de fala em russo como língua de herança no Brasil. Os participantes são 26 falantes idosos nascidos no Brasil ou que vieram ao país nos anos 1950 ainda crianças. O protocolo de coleta de dados inclui: 1) um curto questionário sociodemográfico; 2) teste de memória de trabalho em russo e em português; 3) uma narrativa semi-espontânea sobre a história da família do participante e a sua imigração ao Brasil; 4) questionário de caracterização de perfil bilíngue; 5) entrevista sociolinguística com 139 perguntas; 6) diálogos em russo entre os falantes de herança sobre temas livres; 7) tarefas de leitura de enunciados com variados padrões entoacionais; 8) tarefa de leitura de texto. O corpus BraPoRus contém mais de 160 horas de gravações de fala e representa um acervo único de russo como língua de herança no Brasil. Esperamos que o protocolo descrito neste trabalho seja útil tanto para linguistas brasileiros que estudam outras línguas de herança, quanto para pesquisas sobre russo como língua de herança em outros países

    Imigrantes russos no Brasil: para entender, para ser compreendido

    No full text
    While L2 acquisition by Brazilians has been studied for different languages, the acquisition of Brazilian Portuguese by foreigners has been poorly explored. Recent studies of non-native accented speech in other languages have shown that a foreign accent could largely influence the perception of personal qualities of speakers, and this issue presents a large interest for intercultural research projects. Our research project is focused on Russophone immigrants living in Brazil, bilingual speakers of Russian and Portuguese. The specific aim of the current work is to describe a database containing information about 40 native Russian speakers living in São Paulo for at least six months. Their linguistic and sociocultural profiles are presented, and the experimental protocol of the data collection is described. The protocol included recording speech samples in Russian and in Portuguese and video recordings for further facial expression analysis of bilinguals by the program FaceReader 7.0. The analysis of the sociocultural profiles of the Russophones, presented in the current work, provides a strong basis for the enrichment of the phonetic, sociolinguistic, and nonverbal behavior analysis of these speakers.A aquisição de L2 por brasileiros tem sido foco de um grande número de estudos. No entanto, a aquisição de português brasileiro por falantes de outras línguas tem sido pouco explorada. Pesquisas recentes sobre o sotaque estrangeiro mostram que este pode exercer forte influência na percepção de características pessoais de falantes, fator este que se reveste de grande interesse em projetos de pesquisa de natureza intercultural. O nosso projeto de pesquisa tem como foco imigrantes russófonos que moram no Brasil, falantes bilíngues de russo e português. O objetivo específico deste trabalho é descrever um banco de dados que contém informação sobre 40 falantes nativos de russo que moram em São Paulo há pelo menos 6 meses. Descrevemos seus perfis linguísticos e socioculturais, e apresentamos o protocolo de coleta de dados desenvolvido. O protocolo inclui a gravação de amostras de fala em russo e em português, e também a gravação em vídeo para futura análise de expressões faciais em bilingues, utilizando o programa FaceReader 7.0. A análise de perfis socioculturais de russófonos, apresentada no presente trabalho, fornece subsídios para enriquecer as análises fonéticas, sociolinguísticas e de comportamento não-verbal desses falantes
    corecore