858 research outputs found
Proceedings of the VIIth GSCP International Conference
The 7th International Conference of the Gruppo di Studi sulla Comunicazione Parlata, dedicated to the memory of Claire Blanche-Benveniste, chose as its main theme Speech and Corpora. The wide international origin of the 235 authors from 21 countries and 95 institutions led to papers on many different languages. The 89 papers of this volume reflect the themes of the conference: spoken corpora compilation and annotation, with the technological connected fields; the relation between prosody and pragmatics; speech pathologies; and different papers on phonetics, speech and linguistic analysis, pragmatics and sociolinguistics. Many papers are also dedicated to speech and second language studies. The online publication with FUP allows direct access to sound and video linked to papers (when downloaded)
An Investigation of Digital Reference Interviews: A Dialogue Act Approach
The rapid increase of computer-mediated communications (CMCs) in various forms such as micro-blogging (e.g. Twitter), online chatting (e.g. digital reference) and community- based question-answering services (e.g. Yahoo! Answers) characterizes a recent trend in web technologies, often referred to as the social web. This trend highlights the importance of supporting linguistic interactions in people\u27s online information-seeking activities in daily life - something that the web search engines still lack because of the complexity of this hu- man behavior. The presented research consists of an investigation of the information-seeking behavior of digital reference services through analysis of discourse semantics, called dialogue acts, and experimentation of automatic identification of dialogue acts using machine-learning techniques. The data was an online chat reference transaction archive, provided by the Online Computing Library Center (OCLC). Findings of the discourse analysis include supporting evidence of some of the existing theories of the information-seeking behavior. They also suggest a new way of analyzing the progress of information-seeking interactions using dia- logue act analysis. The machine learning experimentation produced promising results and demonstrated the possibility of practical applications of the DA analysis for further research across disciplines
Metaphors in spoken academic discourse in german and english
Metaphors have been increasingly associated with cognitive functions, which means that metaphors structure how we think and express ourselves. Metaphors are embodied in our basic physical experience, which is one reason why certain abstract concepts are expressed in more concrete terms, such as visible entities, journeys, and other types of movement, spaces etc. This communicative relevance also applies to specialised, institutionalised settings and genres, such as those produced in or related to higher education institutions, among which is spoken academic discourse. A significant research gap has been identified regarding spoken academic discourse and metaphors therein, but also given the fact that with increasing numbers of students in higher education and international research and cooperation e.g. in the form of invited lectures, spoken academic discourse can be seen as nearly omnipresent. In this context, research talks are a key research genre. A mixed methods study has been conducted, which investigates metaphors in a corpus of eight fully transcribed German and English L1 speaker conference talks and invited lectures, totalling to 440 minutes. A wide range of categories and functions were identified in the corpus. Abstract research concepts, such as results or theories are expressed in terms of concrete visual entities that can be seen or shown, but also in terms of journeys or other forms of movement. The functions of these metaphors are simplification, rhetorical emphasis, theory-construction, or pedagogic illustration. For both the speaker and the audience or discussants, anthropomorphism causes abstract and complex ideas to become concretely imaginable and at the same time more interesting because the contents of the talk appear to be livelier and hence closer to their own experience, which ensures the audience’s attention. These metaphor categories are present in both the English and the German sub corpus of this study with similar functions
Proceedings of the Seventh Italian Conference on Computational Linguistics CLiC-it 2020
On behalf of the Program Committee, a very warm welcome to the Seventh Italian Conference on Computational Linguistics (CLiC-it 2020). This edition of the conference is held in Bologna and organised by the University of Bologna. The CLiC-it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after six years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges
Analysis on the impact of the source text quality: Building a data-driven typology
In this study we propose a typology which concerns source errors and linguistic
structures that might have an impact on Machine Translation (MT). Although most typologies
are built on a bilingual level, the source text (ST) also presents issues that cannot be expected
to be resolved by MT. In this study, we were able to test whether or not the quality of the ST
has an impact on the target text (TT) quality.
For that purpose, source data was annotated. The data analyzed was both inbound
(user-generated content) and outbound (agent) in the context of chat. Through this analysis, it
was possible to build a data driven typology. To aid the construction of a new typology, there
was also a comparison between multiple typologies, whether they have a bilingual or a
monolingual focus. This allowed us to see what could be applied to a monolingual typology
and what was missing. With the annotation results, it was possible to build a new typology —
Source Typology.
To assist future annotators, we provided annotation guidelines with a listing of all the
issue types, an explanation of the different span types, the severities to be used and the tricky
cases that might occur during the annotation process.
In order to test the reliability of the typology, three different case studies of an internal
pilot were conducted. Each case study had a different goal and took into account different
language pairs. By testing the Source Typology, we could see its effectiveness and reliability
and what should be improved.
In the end, we demonstrated that the quality of the ST can actually have an impact on
the TT quality, where, at times, minor errors on the source would become or originate critical
errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source
Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm
impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo
em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser
previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não
impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo
impacto.
Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de
erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF
Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas
na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e
também quais as classes de erros previamente utilizadas.
De forma a ter mais informações sobre este tema, foi realizada uma análise de dados
do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por
utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este
processo permite a identificação e categorização de erros e difere conforme as diretrizes
apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma
Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi
construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP.
Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no
TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante
específica, trazendo consigo simultaneamente as características da escrita e do diálogo.
Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes
tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo
sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar
com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é
requerida no apoio ao cliente, e de ter condições de vida precárias.
Esta análise foi efetuada através de uma das métricas manuais de qualidade mais
amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta
no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP.
Através desta análise, foi possível criar uma tipologia baseada em dados.
Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source
Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o
processo de anotação com a listagem de todas as classes de erros (incluindo as novas
adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as
severidades utilizadas e os casos complicados que podem surgir durante o processo de
anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de
decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a
assistir na escolha da severidade adequada.
De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três
estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas
(representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências,
emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos
realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas.
Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP
tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a
severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA.
O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos
produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da
Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua
de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais
frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com
o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos,
algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise
mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido
transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9
estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se
que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em
erros críticos no TC.
O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos
por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos
agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em
particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como
LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor
resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros
encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no
TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra
no TP ter tido impacto no TC.
O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir
várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do
agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais
alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu,
português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua
diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta
análise, que o número de erros foi superior ao número de segmentos, o que significa que, por
média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras
com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros.
Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo
processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também
se verificou que algumas classes de erros não foram anotadas de forma correta ou que não
foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência
da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas
situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa,
também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas
neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC.
Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o
que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator
Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que
resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não
concordância entre os anotadores, como também a concordância que os anotadores tiveram
consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas
línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este
processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção
nas diretrizes.
Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto,
impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam
ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros
cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar
a tipologia, que está em produção na Unbabel
A Survey of GPT-3 Family Large Language Models Including ChatGPT and GPT-4
Large language models (LLMs) are a special class of pretrained language
models obtained by scaling model size, pretraining corpus and computation.
LLMs, because of their large size and pretraining on large volumes of text
data, exhibit special abilities which allow them to achieve remarkable
performances without any task-specific training in many of the natural language
processing tasks. The era of LLMs started with OpenAI GPT-3 model, and the
popularity of LLMs is increasing exponentially after the introduction of models
like ChatGPT and GPT4. We refer to GPT-3 and its successor OpenAI models,
including ChatGPT and GPT4, as GPT-3 family large language models (GLLMs). With
the ever-rising popularity of GLLMs, especially in the research community,
there is a strong need for a comprehensive survey which summarizes the recent
research progress in multiple dimensions and can guide the research community
with insightful future research directions. We start the survey paper with
foundation concepts like transformers, transfer learning, self-supervised
learning, pretrained language models and large language models. We then present
a brief overview of GLLMs and discuss the performances of GLLMs in various
downstream tasks, specific domains and multiple languages. We also discuss the
data labelling and data augmentation abilities of GLLMs, the robustness of
GLLMs, the effectiveness of GLLMs as evaluators, and finally, conclude with
multiple insightful future research directions. To summarize, this
comprehensive survey paper will serve as a good resource for both academic and
industry people to stay updated with the latest research related to GPT-3
family large language models.Comment: Preprint under review, 58 page
Proceedings of the COLING 2004 Post Conference Workshop on Multilingual Linguistic Ressources MLR2004
International audienceIn an ever expanding information society, most information systems are now facing the "multilingual challenge". Multilingual language resources play an essential role in modern information systems. Such resources need to provide information on many languages in a common framework and should be (re)usable in many applications (for automatic or human use). Many centres have been involved in national and international projects dedicated to building har- monised language resources and creating expertise in the maintenance and further development of standardised linguistic data. These resources include dictionaries, lexicons, thesauri, word-nets, and annotated corpora developed along the lines of best practices and recommendations. However, since the late 90's, most efforts in scaling up these resources remain the responsibility of the local authorities, usually, with very low funding (if any) and few opportunities for academic recognition of this work. Hence, it is not surprising that many of the resource holders and developers have become reluctant to give free access to the latest versions of their resources, and their actual status is therefore currently rather unclear. The goal of this workshop is to study problems involved in the development, management and reuse of lexical resources in a multilingual context. Moreover, this workshop provides a forum for reviewing the present state of language resources. The workshop is meant to bring to the international community qualitative and quantitative information about the most recent developments in the area of linguistic resources and their use in applications. The impressive number of submissions (38) to this workshop and in other workshops and conferences dedicated to similar topics proves that dealing with multilingual linguistic ressources has become a very hot problem in the Natural Language Processing community. To cope with the number of submissions, the workshop organising committee decided to accept 16 papers from 10 countries based on the reviewers' recommendations. Six of these papers will be presented in a poster session. The papers constitute a representative selection of current trends in research on Multilingual Language Resources, such as multilingual aligned corpora, bilingual and multilingual lexicons, and multilingual speech resources. The papers also represent a characteristic set of approaches to the development of multilingual language resources, such as automatic extraction of information from corpora, combination and re-use of existing resources, online collaborative development of multilingual lexicons, and use of the Web as a multilingual language resource. The development and management of multilingual language resources is a long-term activity in which collaboration among researchers is essential. We hope that this workshop will gather many researchers involved in such developments and will give them the opportunity to discuss, exchange, compare their approaches and strengthen their collaborations in the field. The organisation of this workshop would have been impossible without the hard work of the program committee who managed to provide accurate reviews on time, on a rather tight schedule. We would also like to thank the Coling 2004 organising committee that made this workshop possible. Finally, we hope that this workshop will yield fruitful results for all participants
- …