306 research outputs found

    Produkce diskurzu českých mluvčích s afázií: Explorace s využitím usage-based lingvistiky

    Get PDF
    The research in linguistic aphasiology has been dominated by structuralist, rule-based approaches to the study of langauge. However, recent work has shown that analyses based in constructivist, usage-based frameworks can provide explanations to patterns of language processing in aphasia that are difficult to accommodate in structuralist models. The present work follows up on these findings and aims to provide additional evidence for the benefits of the usage-based model by using data from Czech speakers with aphasia, an understudied language in this context. The aims of the study were threefold: to create a collection of samples of aphasic connected speech available to other researchers, to provide a description of the patterns of aphasic discourse production in Czech, and, most importantly, to show potential benefits of usage-based construction grammar for aphasia research. A corpus of the speech of eleven persons with fluent and non-fluent aphasia of varying degrees of severity was created. The corpus consist of more than 23000 word position produced by speakers with aphasia in tasks used to elicit conversational, narrative, descriptive, and procedural discourse. The corpus is lemmatized and morphologically tagged and the transcripts are aligned with audio recordings. A smaller sample of three,...Výzkum v lingvistické afaziologii využíval po dlouhou dobu především strukturalistické přístupy založené na pravidlech. Některé výsledky z poslední doby však ukazují, že konstruktivistické přístupy založené na užívání jazyka (usage-based přístup) dokážou vysvětlit některá specifika zpracování jazyka v afázii, která jsou ve strukturalistickém rámci obtížně vysvětlitelná. Předkládaná dizertační práce navazuje na tyto výzkumy a klade si za cíl předložit další důkazy pro výhodnost usage-přístupu. Využívá přitom data z češtiny, která je v afaziologickém výzkumu značně podreprezentovaná. Práce si stanovila tři cíle: jednak shromáždit projevy českých mluvčích s afázií, které by byly přístupné dalším výzkumníkům, dále podat detailní popis produkce diskurzu v afázii v češtině a konečně ukázat některé přednosti usage-based přístupu pro afaziologii. V rámci práce byl vytvořen korpus jedenácti mluvčích s fluentní a nefluentní afázií s různými stupni závažnosti poruchy. Korpus obsahuje přes 23000 slovních pozic vyprodukovaných mluvčími s afázií sebranými s využitím úkolů, jejichž cílem bylo elicitovat konverzační, narativní, deskriptivní a procedurální diskurz. Korpus je lematizován a morfologicky označkován. Dále je v něm zahrnut menší vzorek řečové produkce tří neurotypických mluvčích se srovnatelnými...Ústav českého jazyka a teorie komunikaceInstitute of Czech Language and Theory of CommunicationFaculty of ArtsFilozofická fakult

    Automatische Wiederherstellung von Nachverfolgbarkeit zwischen Anforderungen und Quelltext

    Get PDF
    Für die effiziente Entwicklung, Wartung und Pflege von Softwaresystemen spielt ein umfassendes Verständnis der Zusammenhänge zwischen den Softwareentwicklungsartefakten eine entscheidende Rolle. Die Nachverfolgbarkeit dieser Zusammenhänge ermöglicht es beispielsweise, vergangene Entwurfsentscheidungen nachzuvollziehen oder die Auswirkungen von Änderungen zu berücksichtigen. Das manuelle Erstellen und Pflegen dieser Nachverfolgbarkeitsinformationen ist allerdings mit hohem manuellem Aufwand und damit potenziell hohen Kosten verbunden, da meist menschliche Expertise zum Verständnis der Beziehungen erforderlich ist. Dies sorgt dafür, dass in den meisten Softwareprojekten diese Informationen nicht zur Verfügung stehen. Könnten Nachverfolgbarkeitsinformationen zwischen Softwareartefakten allerdings automatisch generiert werden, könnte die Entwicklung, Wartung und Pflege einer Vielzahl von Softwaresystemen effizienter gestaltet werden. Bestehende Ansätze zur automatischen Wiederherstellung von Nachverfolgbarkeitsverbindungen zwischen Anforderungen und Quelltext sind nicht in der Lage, die semantische Lücke zwischen den Artefakten zu überbrücken. Sie erzielen zu geringe Präzisionen auf akzeptablen Ausbeuteniveaus, um in der Praxis eingesetzt werden zu können. Das in dieser Arbeit vorgestellte Verfahren FTLR zielt durch einen semantischen Ähnlichkeitsvergleich auf eine Verbesserung der automatischen Wiederherstellung von Nachverfolgbarkeitsverbindungen zwischen Anforderungen und Quelltext ab. FTLR setzt hierzu vortrainierte fastText-Worteinbettungen zur Repräsentation der Semantik ein. Außerdem macht es sich strukturelle Informationen der Anforderungen und des Quelltextes zunutze, indem es anstatt auf Artefaktebene auf Ebene der Teile der Anforderungen und des Quelltextes abbildet. Diese Abbildung geschieht durch den Einsatz der Wortüberführungsdistanz, welche einen semantischen Ähnlichkeitsvergleich, der nicht durch Aggregation verfälscht wird, ermöglicht. Die eigentliche Bestimmung der Nachverfolgbarkeitsverbindungen erfolgt daraufhin durch einen Mehrheitsentscheid über alle feingranularen Zusammenhänge eines Artefakts, um die vorherrschenden Aspekte zu bestimmen und ggf. irrelevante Zusammenhänge zu ignorieren. In einem Experiment auf sechs Vergleichsdatensätzen konnte gezeigt werden, dass der Einsatz der Wortüberführungsdistanz gegenüber einer einfachen, aggregierten Vektorabbildung zu einer signifikanten Verbesserung der Identifikation von Nachverfolgbarkeitsverbindungen führt. Ebenso zeigte die Abbildung auf feingranularer Ebene mit anschließender Aggregation durch einen Mehrheitsentscheid signifikante Verbesserungen gegenüber der direkten Abbildung auf Artefaktebene. Um die Präzision FTLRs weiter zu erhöhen, wird ein Ansatz zum Filtern von irrelevanten Teilen von Anforderungen eingesetzt. Dieser basiert auf einer Klassifikation der Anforderungselemente mittels eines sprachmodellbasierten Klassifikators. Entscheidend für die Anwendung in FTLR ist dabei eine Anwendbarkeit auf ungesehene Projekte. Der vorgestellte Klassifikator NoRBERT nutzt Transferlernen, um große vortrainierte BERT-Sprachmodelle auf die Klassifikation von Anforderungen feinanzupassen. Hierdurch ist NoRBERT in der Lage, vielversprechende Ergebnisse auf ungesehenen Projekten zu erzielen. Das Verfahren war in der Lage, auf ungesehenen Projekten eine Abbildungsgüte von bis zu 89,8 % im F1-Maß zu erzielen. Durch das Bestimmen, ob ein Anforderungselement keine funktionalen Aspekte enthält, lassen sich irrelevante Teile der Anforderungen vor der Verarbeitung durch FTLR herausfiltern. Ein Vergleich der Leistung FTLRs mit und ohne einen derartigen Anforderungselementfilter ergab, dass ein signifikanter Leistungszuwachs im F1-Maß durch das Filtern erzielt werden kann. FTLR erzielt hierbei Werte im F1-Maß von bis zu 55,5 % und im Mittelwert der durchschnittlichen Präzision von 59,6 %. Neben der Repräsentation der Semantik durch ausschließlich auf natürlichsprachlichem Text vortrainierten Worteinbettungen wurden außerdem bimodale Sprachmodelle für den Einsatz in FTLR untersucht. Diese auf großen dualen Korpora, bestehend aus Quelltextmethoden und ihrer natürlichsprachlichen Dokumentation, vortrainierten Sprachmodelle erzielen in verwandten Aufgabenstellungen aus der Softwaretechnik, wie Quelltextsuche oder Fehlerlokalisierung, vielversprechende Ergebnisse. Um die Eignung für die automatische Wiederherstellung von Nachverfolgbarkeitsverbindungen zwischen Anforderungen und Quelltext zu untersuchen, wurden zwei Integrationsmöglichkeiten des bimodalen Sprachmodells UniXcoder in FTLR entwickelt. In einem Vergleich auf fünf Datensätzen zur Wiederherstellung von Nachverfolgbarkeitsverbindungen zwischen Anforderungen und Quelltext konnte kein Leistungszuwachs durch den Einsatz dieser Art von Modellen gegenüber den leichtgewichtigeren Worteinbettungen festgestellt werden. Abschließend wurde die Leistung FTLRs in Bezug zu bestehenden Ansätzen zur unüberwachten automatischen Wiederherstellung von Nachverfolgbarkeitsverbindungen zwischen Anforderungen und Quelltext gesetzt. Hierbei zeigt sich, dass FTLR auf Projekten, die ausschließlich objektorientierten Quelltext enthalten, eine höhere durchschnittliche Präzision und ein höheres F1-Maß als bestehende Verfahren erzielt. Allerdings verdeutlichen die Ergebnisse auch, dass, insbesondere auf großen Projekten, alle bestehenden Ansätze und auch FTLR noch weit von einer Abbildungsgüte entfernt sind, die es für eine vollständige Automatisierung der Wiederherstellung von Nachverfolgbarkeitsverbindungen in der Praxis benötigt

    The Metaphor Awakening Effect: A Time-Course Investigation of the Literal Meaning during Metaphor Comprehension

    Get PDF
    Metaphors have been an object of fascination and a matter of debate since ancient times. What has attracted researchers is how metaphors are so seamlessly understood when their literal meaning differs from what they convey metaphorically. Some scholars have proposed that listeners attain the metaphorical content serially, where the literal interpretation is initially derived, combined with pragmatic information, and then the metaphorical content is determined. Other scholars, however, have argued that the efficiency with which metaphors are understood does not allow for the literal meaning to be derived first and then rejected in favour of the metaphorical content. Rather, they contend that most conventional metaphors are directly retrieved from semantic memory without the need for any inferential work. This thesis presents three manuscripts that investigated two-word metaphors such as broken heart and sharp tongue. The first manuscript reported a norming study to serve as an open source of materials required to run experiments such as those in the current thesis. The second manuscript examined whether the literal meaning of conventional metaphors was available, and could be recovered, immediately after the metaphorical content had been attained. In a maze task, participants read sentences word by word in a self-paced manner and then choose which of two words correctly continues the sentence, where the distractor words were either related or unrelated to the metaphorical content of the sentence. The results of this study yielded a significant awakening effect, whereby longer response times and lower accuracy rates were obtained in trials in which the literal meaning was cued immediately after the metaphor had been processed. This pattern of results suggests that the literal meaning was awakened during sentence processing. The third manuscript examined whether the awakening effect could be found further away from the metaphorical expression. The results of this study also yielded a significant awakening effect. However, it was weaker when compared to the original maze. Lastly, in Appendices A and B, the effects of familiarity and aptness on the awakening effect were analyzed. The results of these analyses indicated that, when the literal meaning is cued immediately after the metaphorical expression has been processed, familiarity and aptness do not have an overall effect. However, further downstream, the awakening effect is indeed modulated by familiarity and aptness. Altogether, the results from the series of studies presented in the current thesis provide compelling evidence in support of the literal-first approach

    The automatic processing of multiword expressions in Irish

    Get PDF
    It is well-documented that Multiword Expressions (MWEs) pose a unique challenge to a variety of NLP tasks such as machine translation, parsing, information retrieval, and more. For low-resource languages such as Irish, these challenges can be exacerbated by the scarcity of data, and a lack of research in this topic. In order to improve handling of MWEs in various NLP tasks for Irish, this thesis will address both the lack of resources specifically targeting MWEs in Irish, and examine how these resources can be applied to said NLP tasks. We report on the creation and analysis of a number of lexical resources as part of this PhD research. Ilfhocail, a lexicon of Irish MWEs, is created through extract- ing MWEs from other lexical resources such as dictionaries. A corpus annotated with verbal MWEs in Irish is created for the inclusion of Irish in the PARSEME Shared Task 1.2. Additionally, MWEs were tagged in a bilingual EN-GA corpus for inclusion in experiments in machine translation. For the purposes of annotation, a categorisation scheme for nine categories of MWEs in Irish is created, based on combining linguistic analysis on these types of constructions and cross-lingual frameworks for defining MWEs. A case study in applying MWEs to NLP tasks is undertaken, with the exploration of incorporating MWE information while training Neural Machine Translation systems. Finally, the topic of automatic identification of Irish MWEs is explored, documenting the training of a system capable of automatically identifying Irish MWEs from a variety of categories, and the challenges associated with developing such a system. This research contributes towards a greater understanding of Irish MWEs and their applications in NLP, and provides a foundation for future work in exploring other methods for the automatic discovery and identification of Irish MWEs, and further developing the MWE resources described above

    A Cognitive Approach to Investigating Two-Plus-Two Constructions in Chinese Four-Character Idioms

    Get PDF
    Chinese idioms comprise word strings of various lengths, ranging from three to eight characters (Luo, 2015). Four-character idioms (FCIs) constitute the largest group among all Chinese idioms. Different syntactic patterns have been identified among FCIs, namely, 1+1+1+1, 1+3, and 2+2, whereby each digit stands for the number of characters that constitute a syntactic unit. Among these, the 2+2 construction (henceforth, AABB) is found to be most widely distributed (Wang et al. 2013). Two types of 2+2 FCIs have been identified in the present study: (a) interchangeable 2+2 FCIs whose two units can replace each other (i.e., AABB or BBAA) and (b) non-interchangeable 2+2 FCIs whose two units cannot substitute each other (i.e., only AABB but not BBAA). For instance, 黑白混淆 (hēi-bái-hùn-xiáo: black-white-mix-confuse, “to garble things up like mixing black and white colours together”) can be re-constructed as 混淆黑白 (hùn-xiáo-hēi-bái, mix-confuse-black-white), but 做贼心虚 (zuò-zéi-xīn-xū, become-thief-heart-empty, “to feel guilty like a thief having stolen something”) cannot be re-constructed as 心虚做贼 (xīn-xū-zuò-zéi, heart-empty-become-thief). Prior studies (Chen 2001; Su 2002; Tao 2002; Zuo 2006; Nall 2008) have identified combinatory relationships in FCIs from a Construction Grammar perspective (Goldberg 1995, 2006). However, none has provided an in-depth diachronic account of the differences between interchangeable and non-interchangeable 2+2 FCIs in terms of internal constituency and propositional act functions (Croft, 2001). Similarly, structural mismatches between AABB and BBAA constructions in interchangeable FCIs have also not been adequately addressed in the literature. Finally, not much attention has been given to the partly schematic negative 2+2 construction [不 (bù, not) A 不 (bù, not) B] in terms of its functions. This thesis contains 8 chapters. Chapter 1 is the introduction which explains the aims and scope of this study. Chapter 2 is the literature review providing a description of idioms and idiomaticity. In particular, it deals with the basic concepts of Chinese idioms’ classification and the research motivation for the Chinese FCIs. Chapter 3 is the literature review about the Construction Grammar and explains how construction grammar can be applied to Chinese FCI research. Chapter 4 is devoted to data collection and methodology. Chapter 5 makes a comparison between interchangeable and non-interchangeable 2+2 FCIs, while Chapter 6 is centred on AABB and BBAA patterns of interchangeable FCIs. Chapter 7 gives an account of the 2+2 [bù A bù B] construction in terms of internal constituency, propositional act function, and semantic prosody. Finally, chapter 8 is for the findings and conclusion. The present thesis argues that the internal constituency of Chinese 2+2 FCIs may affect their propositional act functions (cf. Croft 2001) in context and further lead a diachronic differentiation of interchangeable idioms vs non-interchangeable idioms. The former will appear to follow a directional path of constructional change, while the latter a non-directional one. This research also shows that three different mechanisms (attraction, differentiation, and substitution) may dictate the diachronic change between AABB and BBAA. This work aims to make a valuable contribution to the study of FCI constructions as it sets to explain (a) how interchangeable and non-interchangeable idioms evolve over time and (b) how the 2+2 [bù A bù B] construction shows a different behaviour than the general 2+2 constructions in terms of internal constituency, propositional act functions, and semantic prosody. Finally, the present analysis sheds new theoretical light not only on the linguistic representation of Chinese FCIs based on constructional schematicity, but also on the diachronic relationship between idiomaticity and creativity. Corpus data were obtained from Xinhua Dictionary of Idioms (Xu, 2002), the BLCU Corpus Center (BCC), zhTenTen Corpus and the Centre for Chinese Linguistics, PKU (CCL) and data manipulation and analysis of FCIs was implemented with Rstudio

    24th Nordic Conference on Computational Linguistics (NoDaLiDa)

    Get PDF

    Geographic information extraction from texts

    Get PDF
    A large volume of unstructured texts, containing valuable geographic information, is available online. This information – provided implicitly or explicitly – is useful not only for scientific studies (e.g., spatial humanities) but also for many practical applications (e.g., geographic information retrieval). Although large progress has been achieved in geographic information extraction from texts, there are still unsolved challenges and issues, ranging from methods, systems, and data, to applications and privacy. Therefore, this workshop will provide a timely opportunity to discuss the recent advances, new ideas, and concepts but also identify research gaps in geographic information extraction

    Phraseology in children's literature: a contrastive analysis

    Get PDF
    Phraseological units notoriously pose challenges for both translators and language learners. However, the presence and nature of phraseological units in lower language proficiency levels have received very little attention. Could Children’s Literature contribute to identifying a core phraseological inventory? Both authors and translators of children’s books base their linguistic choices, and their phraseological choices specifically, on the assumptions they have of the still limited linguistic, phraseological, and cultural knowledge of their young receivers.This dissertation investigates Dutch and Italian phraseology in Children’s Literature. In the first part, theoretical aspects concerning Phraseology, (Contrastive) Linguistics, Translation Studies and Children’s Literature are addressed, as well as methodological issues regarding the empirical studies presented in the second part of this work. The detailed contrastive, bidirectional analysis of phraseological units and their translatants (original Dutch ↔ translated Italian), including the mapping of similarities and differences between phraseological inventories, and the examination of the translational equivalence between phraseological units and their translatants, have offered numerous intra- and interlinguistic insights.Financially supported by a scholarship from Sapienza University of RomeTheoretical and Experimental Linguistic
    corecore