927 research outputs found

    AN ANALYSIS OF THE CHARACTERISTICS OF LANGUAGE VARIETY USED ON FACEBOOK® STATUSES OF AVARA VADYA’S ACCOUNT

    Get PDF
    NOVITRI FADHILAH 14111310048 AN ANALYSIS OF THE CHARACTERISTICS OF LANGUAGE VARIETY USED ON FACEBOOK® STATUSES OF AVARA VADYA’S ACCOUNT Language is a tool to deliver a message from someone orally or written and can be understood in the society. Sociolinguistics is an important study how to use the language in society with different culture, gender, status and social background. As stated by Holmes “sociolinguists study the relationship between language and society” (Holmes, 1992: 1). Now, the social media undergone has many developments, from Friendster, Facebook, Twitter, Path and etc. Here the researcher will discuss the social media Facebook, which is used as an object of research to determine variations and characteristics of the language used by Facebook users. The purposes of this research are to enrich knowledge about language variety and kinds of languages on social media Facebook. This study was primarily intended to capture characteristics of language variety and the functions of language used on facebook statuses of Avara Vayda’s account. Contribute to the language of the field of sociolinguistic study in linguistic particular and expected to provide insight into benefits of language study in particular the characteristics of language use on facebook status. The researcher used qualitative method using documentation study from statuses facebook of Avara Vadya’s account. Qualitative method is used for this research because first, it is expected the researcher will be able to find out the characteristics of language, and analyze the characteristics of language variety used on facebook statuses of Avara Vadya’s account. Second, it is more useful and has high contribution for the students skill in English especially Sociolinguistics. Third, to know the feelings of the participants involved and further to discover the underlying motivate of their behavior. Last, It primarily uses a qualitative approach in analyzing the data considering the purpose of this study is to authentically capture the phenomenon of human linguistic experience. There are results of the researcher’s analysis of The Characteristics of Language Variety Used on Facebook® Statuses of Avara Vadya’s Account, language variety that much used by the facebook users, there are Consultative, Casual and Intimate. Beside that functions of language, there are from speaker aspect, listener aspect, contact between listener and speaker, topics, code, and messages. Keyword : Analysis, Language variety, and Facebook statuse

    Reviews Matter: How Distributed Mentoring Predicts Lexical Diversity on Fanfiction.net

    Full text link
    Fanfiction.net provides an informal learning space for young writers through distributed mentoring, networked giving and receiving of feedback. In this paper, we quantify the cumulative effect of feedback on lexical diversity for 1.5 million authors.Comment: Connected Learning Summit 201

    GENDER AND LANGUAGE VARIATION ON THE COMMENTS OF VIRAL YOUTUBE VIDEOS

    Get PDF
    This study aims at analyzing the language variations between female and male comments on YouTube viral videos as to abbreviations, emojis, laughter variants, and spelling variants of personal pronouns, utilizing a mixed-method design. This study revealed that males tend to use abbreviations in their comments in the leisure domain. Females used more abbreviations in the information and knowledge domains and emojis in the two domains. The female users used haha, hehe, and jaja more frequently than male users in the leisure domain. Male and female users used the laughter variant more often in the leisure domain than in the information and knowledge domain. Women preferred to write the standard spelling of the personal pronouns "I" and "you." Moreover, both men and women used abbreviations to express their views immediately to speed up the typing of messages. Women were more familiar with positive and negative emojis than men. Language varies according to YouTube users' preferences in using the language when posting comments online, and the core social attributes influencing language use are social class, social networks, sex and gender, ethnicity, and age. Thus, infographic material with meanings and examples can be distributed to students and teachers

    The Linguistic Perspectives on Computer Mediated Communication

    Get PDF
    This paper aims to explore the role of production and perception constraints in computer mediated communication. I review Lindblom's (1990) theory of phonetic variation and propose a new model of linguistic production in Computer Mediated Communication. Cyber citizens use cyber communication as conceptually oral, medially written. The reason to use chat-mode is that it saves time and space (the principle of least effort); here sound, not spelling, is the first thing to be considered. With respect to production in the proposed model, effort is no longer equated with articulatory movement, but rather with the number of keystrokes involved in typing an utterance. On discussing online, discussants show paralinguistic actions such as smile, frown, screaming, etc., and they also reduplicate writings, capitalize all the sentences, and use emoticons; net-communication is headed toward less grammatical and more telegraphic type. The production of hyper-and hypo-forms such as reduplication, punctuation and capitalization will vary according to the sender's estimation of signal-complementary processes and his attempts to compensate for the restricted context.We discuss online and off line on the issues; why we like cyber communication and how we classify the phenomena. The more computer mediated communications we use, the moreissues we have to review beyond words and linguistic principles

    The Linguistic Perspectives onComputer Mediated Communication

    Get PDF
    This paper aims to explore the role of production and perception constraints in computer mediated communication. I review Lindblom's (1990) theory of phonetic variation and propose a new model of linguistic production in Computer Mediated Communication. Cyber citizens use cyber communication as conceptually oral, medially written. The reason to use chat-mode is that it saves time and space (the principle of least effort); here sound, not spelling, is the first thing to be considered. With respect to production in the proposed model, effort is no longer equated with articulatory movement, but rather with the number of keystrokes involved in typing an utterance. On discussing online, discussants show paralinguistic actions such as smile, frown, screaming, etc., and they also reduplicate writings, capitalize all the sentences, and use emoticons; net-communication is headed toward less grammatical and more telegraphic type. The production of hyper-and hypo-forms such as reduplication, punctuation and capitalization will vary according to the sender's estimation of signal-complementary processes and his attempts to compensate for the restricted context.We discuss online and off line on the issues; why we like cyber communication and how we classify the phenomena. The more computer mediated communications we use, the moreissues we have to review beyond words and linguistic principles

    Analysis on the impact of the source text quality: Building a data-driven typology

    Get PDF
    In this study we propose a typology which concerns source errors and linguistic structures that might have an impact on Machine Translation (MT). Although most typologies are built on a bilingual level, the source text (ST) also presents issues that cannot be expected to be resolved by MT. In this study, we were able to test whether or not the quality of the ST has an impact on the target text (TT) quality. For that purpose, source data was annotated. The data analyzed was both inbound (user-generated content) and outbound (agent) in the context of chat. Through this analysis, it was possible to build a data driven typology. To aid the construction of a new typology, there was also a comparison between multiple typologies, whether they have a bilingual or a monolingual focus. This allowed us to see what could be applied to a monolingual typology and what was missing. With the annotation results, it was possible to build a new typology — Source Typology. To assist future annotators, we provided annotation guidelines with a listing of all the issue types, an explanation of the different span types, the severities to be used and the tricky cases that might occur during the annotation process. In order to test the reliability of the typology, three different case studies of an internal pilot were conducted. Each case study had a different goal and took into account different language pairs. By testing the Source Typology, we could see its effectiveness and reliability and what should be improved. In the end, we demonstrated that the quality of the ST can actually have an impact on the TT quality, where, at times, minor errors on the source would become or originate critical errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo impacto. Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e também quais as classes de erros previamente utilizadas. De forma a ter mais informações sobre este tema, foi realizada uma análise de dados do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este processo permite a identificação e categorização de erros e difere conforme as diretrizes apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP. Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante específica, trazendo consigo simultaneamente as características da escrita e do diálogo. Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é requerida no apoio ao cliente, e de ter condições de vida precárias. Esta análise foi efetuada através de uma das métricas manuais de qualidade mais amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP. Através desta análise, foi possível criar uma tipologia baseada em dados. Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o processo de anotação com a listagem de todas as classes de erros (incluindo as novas adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as severidades utilizadas e os casos complicados que podem surgir durante o processo de anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a assistir na escolha da severidade adequada. De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas (representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências, emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas. Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA. O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos, algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9 estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em erros críticos no TC. O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra no TP ter tido impacto no TC. O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu, português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta análise, que o número de erros foi superior ao número de segmentos, o que significa que, por média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros. Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também se verificou que algumas classes de erros não foram anotadas de forma correta ou que não foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa, também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC. Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não concordância entre os anotadores, como também a concordância que os anotadores tiveram consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção nas diretrizes. Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto, impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar a tipologia, que está em produção na Unbabel

    Laughing with Letters: A Corpus Investigation of the Use of Written Laughter on Twitter

    Full text link
    Honors (Bachelor's)LinguisticsUniversity of Michiganhttp://deepblue.lib.umich.edu/bitstream/2027.42/112101/1/izzymck.pd

    GENDER AND LANGUAGE VARIATION ON THE COMMENTS OF VIRAL YOUTUBE VIDEOS

    Get PDF
    This study aims at analyzing the language variations between female and male comments on YouTube viral videos as to abbreviations, emojis, laughter variants, and spelling variants of personal pronouns, utilizing a mixed-method design. This study revealed that males tend to use abbreviations in their comments in the leisure domain. Females used more abbreviations in the information and knowledge domains and emojis in the two domains. The female users used haha, hehe, and jaja more frequently than male users in the leisure domain. Male and female users used the laughter variant more often in the leisure domain than in the information and knowledge domain. Women preferred to write the standard spelling of the personal pronouns "I" and "you." Moreover, both men and women used abbreviations to express their views immediately to speed up the typing of messages. Women were more familiar with positive and negative emojis than men. Language varies according to YouTube users' preferences in using the language when posting comments online, and the core social attributes influencing language use are social class, social networks, sex and gender, ethnicity, and age. Thus, infographic material with meanings and examples can be distributed to students and teachers

    A symbolism study of expression in text-based communication

    Get PDF
    Modern communication technology such as mobile phone and the Internet have made long-distance text-based communication very convenient. As a result, more and more people choose to send text messages via SMS or instant message software (e.g., WhatsApp) as a major approach to communicate with each other. However, due to the limitations of written language, text-based communication usually cannot accurately express the emotions and feelings of the message sender. Symbolic facial expressions, such as emoji and emoticons, were invented to overcome this shortcoming of text-based communication. By inserting symbols in a text message, the sender has an ability to express his emotions and feelings represented by facial expressions. In this thesis, I study the usage of symbolic facial expressions in text-based communications and it\u27s impact on people\u27s communication behaviors. 1. Is the use of Emoji partially too culturally specific? 2. Can symbolic facial expression be used by themselves? If so, in what situations? 3. During SMS conversation, how many facial expressions are excessive? Will excessive symbolic facial expression impede SMS communication? 4. What factors influence the behavior of emoji usage in a SMS sender? These questions explore different aspects of the usage of facial expressions/emoji in text communication including culture differences, usage of emoji compared to text, the definition of excessive usage of emoji, and the interpretation of these symbols in general. In order to find answers to the above research questions, I conducted a survey among approximately 1000 students and faculty members in Iowa State University. I have calculated the statistical data of the survey answers, and drew my conclusion based on the analysis of these results
    corecore