603 research outputs found

    Comparing collocations in translated and learner language

    Get PDF
    This paper compares use of collocations by Italian learners writing in and translating into English, conceptualising the two tasks as different modes of constrained language production and adopting Halverson’s (2017) Revised Gravitational Pull hypothesis as a theoretical model. A particular focus is placed on identifying a method for comparing datasets containing translations and essays, assembled opportunistically and varying in size and structure. The study shows that lexical association scores for dependency-defined word pairs are significantly higher in translations than essays. A qualitative analysis of a subset of collocations shared and unique to either mode shows that the former set features more collocations with direct cross-linguistic links (connectivity), and that the source/first language seems to affect both modes similarly. We tentatively conclude that second/target language salience effects are more visible in translation than second language use, while connectivity and source language salience affect both modes of bilingual processing similarly, regardless of the mediation variable

    Comparing the production of a formula with the development of L2 competence

    Get PDF
    This pilot study investigates the production of a formula with the development of L2 competence over proficiency levels of a spoken learner corpus. The results show that the formula in beginner production data is likely being recalled holistically from learners’ phonological memory rather than generated online, identifiable by virtue of its fluent production in absence of any other surface structure evidence of the formula’s syntactic properties. As learners’ L2 competence increases, the formula becomes sensitive to modifications which show structural conformity at each proficiency level. The transparency between the formula’s modification and learners’ corresponding L2 surface structure realisations suggest that it is the independent development of L2 competence which integrates the formula into compositional language, and ultimately drives the SLA process forward

    Workshop Proceedings of the 12th edition of the KONVENS conference

    Get PDF
    The 2014 issue of KONVENS is even more a forum for exchange: its main topic is the interaction between Computational Linguistics and Information Science, and the synergies such interaction, cooperation and integrated views can produce. This topic at the crossroads of different research traditions which deal with natural language as a container of knowledge, and with methods to extract and manage knowledge that is linguistically represented is close to the heart of many researchers at the Institut für Informationswissenschaft und Sprachtechnologie of Universität Hildesheim: it has long been one of the institute’s research topics, and it has received even more attention over the last few years

    Advances in automatic terminology processing: methodology and applications in focus

    Get PDF
    A thesis submitted in partial fulfilment of the requirements of the University of Wolverhampton for the degree of Doctor of Philosophy.The information and knowledge era, in which we are living, creates challenges in many fields, and terminology is not an exception. The challenges include an exponential growth in the number of specialised documents that are available, in which terms are presented, and the number of newly introduced concepts and terms, which are already beyond our (manual) capacity. A promising solution to this ‘information overload’ would be to employ automatic or semi-automatic procedures to enable individuals and/or small groups to efficiently build high quality terminologies from their own resources which closely reflect their individual objectives and viewpoints. Automatic terminology processing (ATP) techniques have already proved to be quite reliable, and can save human time in terminology processing. However, they are not without weaknesses, one of which is that these techniques often consider terms to be independent lexical units satisfying some criteria, when terms are, in fact, integral parts of a coherent system (a terminology). This observation is supported by the discussion of the notion of terms and terminology and the review of existing approaches in ATP presented in this thesis. In order to overcome the aforementioned weakness, we propose a novel methodology in ATP which is able to extract a terminology as a whole. The proposed methodology is based on knowledge patterns automatically extracted from glossaries, which we considered to be valuable, but overlooked resources. These automatically identified knowledge patterns are used to extract terms, their relations and descriptions from corpora. The extracted information can facilitate the construction of a terminology as a coherent system. The study also aims to discuss applications of ATP, and describes an experiment in which ATP is integrated into a new NLP application: multiplechoice test item generation. The successful integration of the system shows that ATP is a viable technology, and should be exploited more by other NLP applications

    Der Hannover Concordancer und das Hannover Advanced Academic Writing Corpus: Eine korpuslinguistische Software mit dem dazugehörigen Dissertationskorpus für den Einsatz in Schreibberatungen

    Get PDF
    Bildungseinrichtungen funktionieren, trotz aller romantischen Bildungsideale, nach wirtschaftlichen Prinzipien. Eine höhere Bildungseinrichtung wie eine Universität oder Fachhochschule wird in Fakultäten unterteilt und diese in Institute. An diesen Instituten arbeiten Professor_innen und ein akademischer Mittelbau. Zusätzlich unterstützen Mitarbeiter_innen den Lehrbetrieb in Technik und Verwaltung. Sowohl das Personal als auch die Infrastruktur kosten Geld. Das bedeutet, dass mit begrenzten finanziellen Mitteln eine gewisse Anzahl an Studienplätzen realisiert werden kann. Da vielfach die Anzahl an Studieninteressierten größer ist als die Anzahl an Studienplätzen, werden nur die erfolgversprechendsten Bewerber_innen akzeptiert. Manche Studiengänge nutzen die ersten Semester, um die Anzahl der Studierenden weiter zu reduzieren. Im Verlauf des Studiums versucht die Bildungseinrichtung durch weitere Angebote wie Schreibzentren, Studierende zu ihrem Abschluss zu führen, um die aufgewendeten Ressourcen sinnvoll eingesetzt zu haben. Auch wenn diese Beschreibung überspitzt und gleichzeitig simplifiziert ist, so entspricht sie doch in Grundzügen einer wirtschaftlichen Betrachtung von höherer Bildung. Viele Studiengänge befassen sich in ihren ersten Semestern vor allem mit den für das Fachgebiet notwendigen Grundlagen. Akademisches Schreiben gehört außerhalb der Geisteswissenschaften häufig nicht dazu. So kommt es vor, dass vor allem in ingenieur- und naturwissenschaftlichen Studiengängen erst in den letzten beiden Semestern wissenschaftliche Aufsätze geschrieben werden müssen. Um Komplikationen beim wissenschaftlichen Schreiben von Abschlussarbeiten zu vermeiden und damit die von den Bildungseinrichtungen eingesetzten Mittel zu bewahren, haben viele größere Universitäten und Fachhochschulen Schreibzentren eingerichtet. Diese Schreibzentren sollen Studierende in ihren Schreibprozessen begleiten und damit die Wahrscheinlichkeit einer erfolgreichen wissenschaftlichen Arbeit erhöhen. Schreibzentren stehen vor der Herausforderung, dass das Personal, welches sie rekrutieren, vor allem aus Geisteswissenschaftler_innen besteht. Diese kennen sich zwar mit dem Schreiben im Allgemeinen und im Speziellen mit dem Schreiben in geisteswissenschaftlichen Disziplinen aus, sind jedoch häufig mit Studierenden aus anderen akademischen Traditionen konfrontiert. Vor allem, wenn die Studierenden ihre Arbeiten in einer Fremdsprache verfassen müssen, ergeben sich zusätzliche Herausforderungen. In dieser Situation reichen allgemeine Hinweise zu Herangehensweisen an akademisches Schreiben und die Vermittlung von unterschiedlichen Zitierweisen nicht aus. Wenn innerhalb der Schreibberatung auf einzelne Absätze und Formulierungen in Abschlussarbeiten eingegangen werden soll, stellt sich die Frage, mit welchen Mitteln die Erfahrungslücken zwischen den akademischen Traditionen der Schreibberater_innen und der Studierenden zu überbrücken sind. Zwar gibt es für einzelne akademische Disziplinen fachspezifische Handbücher, Nachschlagewerke und Wörterbücher, jedoch sind diese in der Breite unzureichend vorhanden und in der Tiefe teils unbrauchbar, um Schreibberater_innen dabei zu unterstützen, sich sprachlich in die Thematik ihrer Studierenden einzudenken. Studierende wissen sehr wohl, was die von ihnen verwendeten Fachbegriffe bedeuten. Es fehlen ihnen oftmals jedoch die Mittel, diese sinnvoll in den Kontext eines akademischen Aufsatzes einzubetten. Korpuslinguistik würde hier Abhilfe schaffen. Mittels Korpora und einer entsprechenden Software ließe sich die Verwendung von Begriffen in ihrem Kontext betrachten und danach in eigenen Texten nachahmen. Wenn die Software und die Kenntnisse der Nutzer_innen es hergeben, ließe sich die Verwendung eines Suchbegriffs quantifizieren und damit feststellen, ob die einzelne Verwendung eine Ausnahme oder doch die Regel ist. Allerdings sind bisherige Werkzeuge vor allem auf die Bedürfnisse von Linguist_innen ausgerichtet oder aber basieren auf Textgrundlagen, die zu allgemein für Schreibberatungen sind. Aus diesem Grund haben sich korpuslinguistische Werkzeuge wie AntConc oder WordSmithTools bisher  vielfach nicht durchgesetzt. Die dieser Arbeit zu Grunde liegende Software soll eine Unterstützung für Schreibberatungen sein, um den Mangel an adäquaten Hilfsmitteln zu reduzieren. Mit HanConc soll es Schreibberater_innen ermöglicht werden, fachspezifische Textsammlungen anzulegen, zu durchsuchen und die Ergebnisse adressatengerecht aufzubereiten. Damit wird die Beratung über wissenschaftliche Disziplinen hinweg vereinfacht und somit die Erfolgswahrscheinlichkeit von Schreibberatung für Studierende erhöht. Die Arbeit ist wie folgt gegliedert: Zunächst wird der inhaltliche Rahmen abgesteckt. Anschließend wird die Zusammenarbeit von Schreibberater_innen und Studierenden innerhalb des akademischen Schreibprozesses analysiert. Am Beispiel der HanConc werden die universitären Anforderungen an Schreibberatung ermittelt und mit dem tatsächlichen Aufwand eines Schreibberaters, d.h. in diesem Fall des Autors, verglichen. Mit Hilfe einer Umfrage wird überprüft, ob sich die Ergebnisse des Vergleichs mit den Erfahrungen anderer Schreibzentren an anderen deutschen Bildungseinrichtungen decken. Um die Anforderungen von Schreibberatungen an HanConc zu erfüllen, wurde ein Korpus bestehend aus allen Dissertationen der HanConc erstellt. Dieses Korpus wird eingehend beschrieben und auf die Homogenität innerhalb und Heterogenität außerhalb der Fakultätsgrenzen überprüft. Abschließend wird HanConc im Vergleich zu bestehenden Werkzeugen als Antwort auf die skizzierten Anforderungen vorgestellt. Der Quellcode inklusive ausführlicher Dokumentation befindet sich in einem gesonderten Repositorium

    Neural Techniques for German Dependency Parsing

    Get PDF
    Syntactic parsing is the task of analyzing the structure of a sentence based on some predefined formal assumption. It is a key component in many natural language processing (NLP) pipelines and is of great benefit for natural language understanding (NLU) tasks such as information retrieval or sentiment analysis. Despite achieving very high results with neural network techniques, most syntactic parsing research pays attention to only a few prominent languages (such as English or Chinese) or language-agnostic settings. Thus, we still lack studies that focus on just one language and design specific parsing strategies for that language with regards to its linguistic properties. In this thesis, we take German as the language of interest and develop more accurate methods for German dependency parsing by combining state-of-the-art neural network methods with techniques that address the specific challenges posed by the language-specific properties of German. Compared to English, German has richer morphology, semi-free word order, and case syncretism. It is the combination of those characteristics that makes parsing German an interesting and challenging task. Because syntactic parsing is a task that requires many levels of language understanding, we propose to study and improve the knowledge of parsing models at each level in order to improve syntactic parsing for German. These levels are: (sub)word level, syntactic level, semantic level, and sentence level. At the (sub)word level, we look into a surge in out-of-vocabulary words in German data caused by compounding. We propose a new type of embeddings for compounds that is a compositional model of the embeddings of individual components. Our experiments show that character-based embeddings are superior to word and compound embeddings in dependency parsing, and compound embeddings only outperform word embeddings when the part-of-speech (POS) information is unavailable. Thus, we conclude that it is the morpho-syntactic information of unknown compounds, not the semantic one, that is crucial for parsing German. At the syntax level, we investigate challenges for local grammatical function labeler that are caused by case syncretism. In detail, we augment the grammatical function labeling component in a neural dependency parser that labels each head-dependent pair independently with a new labeler that includes a decision history, using Long Short-Term Memory networks (LSTMs). All our proposed models significantly outperformed the baseline on three languages: English, German and Czech. However, the impact of the new models is not the same for all languages: the improvement for English is smaller than for the non-configurational languages (German and Czech). Our analysis suggests that the success of the history-based models is not due to better handling of long dependencies but that they are better in dealing with the uncertainty in head direction. We study the interaction of syntactic parsing with the semantic level via the problem of PP attachment disambiguation. Our motivation is to provide a realistic evaluation of the task where gold information is not available and compare the results of disambiguation systems against the output of a strong neural parser. To our best knowledge, this is the first time that PP attachment disambiguation is evaluated and compared against neural dependency parsing on predicted information. In addition, we present a novel approach for PP attachment disambiguation that uses biaffine attention and utilizes pre-trained contextualized word embeddings as semantic knowledge. Our end-to-end system outperformed the previous pipeline approach on German by a large margin simply by avoiding error propagation caused by predicted information. In the end, we show that parsing systems (with the same semantic knowledge) are in general superior to systems specialized for PP attachment disambiguation. Lastly, we improve dependency parsing at the sentence level using reranking techniques. So far, previous work on neural reranking has been evaluated on English and Chinese only, both languages with a configurational word order and poor morphology. We re-assess the potential of successful neural reranking models from the literature on English and on two morphologically rich(er) languages, German and Czech. In addition, we introduce a new variation of a discriminative reranker based on graph convolutional networks (GCNs). Our proposed reranker not only outperforms previous models on English but is the only model that is able to improve results over the baselines on German and Czech. Our analysis points out that the failure is due to the lower quality of the k-best lists, where the gold tree ratio and the diversity of the list play an important role

    The automatic processing of multiword expressions in Irish

    Get PDF
    It is well-documented that Multiword Expressions (MWEs) pose a unique challenge to a variety of NLP tasks such as machine translation, parsing, information retrieval, and more. For low-resource languages such as Irish, these challenges can be exacerbated by the scarcity of data, and a lack of research in this topic. In order to improve handling of MWEs in various NLP tasks for Irish, this thesis will address both the lack of resources specifically targeting MWEs in Irish, and examine how these resources can be applied to said NLP tasks. We report on the creation and analysis of a number of lexical resources as part of this PhD research. Ilfhocail, a lexicon of Irish MWEs, is created through extract- ing MWEs from other lexical resources such as dictionaries. A corpus annotated with verbal MWEs in Irish is created for the inclusion of Irish in the PARSEME Shared Task 1.2. Additionally, MWEs were tagged in a bilingual EN-GA corpus for inclusion in experiments in machine translation. For the purposes of annotation, a categorisation scheme for nine categories of MWEs in Irish is created, based on combining linguistic analysis on these types of constructions and cross-lingual frameworks for defining MWEs. A case study in applying MWEs to NLP tasks is undertaken, with the exploration of incorporating MWE information while training Neural Machine Translation systems. Finally, the topic of automatic identification of Irish MWEs is explored, documenting the training of a system capable of automatically identifying Irish MWEs from a variety of categories, and the challenges associated with developing such a system. This research contributes towards a greater understanding of Irish MWEs and their applications in NLP, and provides a foundation for future work in exploring other methods for the automatic discovery and identification of Irish MWEs, and further developing the MWE resources described above

    Semantic frames and semantic networks in the Health Science Corpus

    Full text link
    [eng] The aim of this paper is to apply frame semantics principles to the analysis of a specialized corpus, the Health Science Corpus, implemented in the lexical database SciE-Lex. Taking FrameNet as the basis for this research, I will assign frame semantic features to Scie-Lex data in order to highlight the shared semantic and syntactic background of the related words in the biomedical register, give motivation to their patterns of collocates and establish frame-based semantic networks of related lexical units.[spa] El objetivo de este artículo es aplicar los principios de la semántica de marcos al análisis de un corpus especializado, el Health Science Corpus, implementado en la base de datos léxica SciE-Lex. Tomando FrameNet como base para esta investigación, se aplica la semántica de marcos a los datos de Scie-Lex para destacar los aspectos sintácticos y semánticos communes de los términos del registro biomédico, motivar sus patrones combinatorios y establecer redes semánticas basadas en marcos

    A distributional investigation of German verbs

    Get PDF
    Diese Dissertation bietet eine empirische Untersuchung deutscher Verben auf der Grundlage statistischer Beschreibungen, die aus einem großen deutschen Textkorpus gewonnen wurden. In einem kurzen Überblick über linguistische Theorien zur lexikalischen Semantik von Verben skizziere ich die Idee, dass die Verbbedeutung wesentlich von seiner Argumentstruktur (der Anzahl und Art der Argumente, die zusammen mit dem Verb auftreten) und seiner Aspektstruktur (Eigenschaften, die den zeitlichen Ablauf des vom Verb denotierten Ereignisses bestimmen) abhängt. Anschließend erstelle ich statistische Beschreibungen von Verben, die auf diesen beiden unterschiedlichen Bedeutungsfacetten basieren. Insbesondere untersuche ich verbale Subkategorisierung, Selektionspräferenzen und Aspekt. Alle diese Modellierungsstrategien werden anhand einer gemeinsamen Aufgabe, der Verbklassifikation, bewertet. Ich zeige, dass im Rahmen von maschinellem Lernen erworbene Merkmale, die verbale lexikalische Aspekte erfassen, für eine Anwendung von Vorteil sind, die Argumentstrukturen betrifft, nämlich semantische Rollenkennzeichnung. Darüber hinaus zeige ich, dass Merkmale, die die verbale Argumentstruktur erfassen, bei der Aufgabe, ein Verb nach seiner Aspektklasse zu klassifizieren, gut funktionieren. Diese Ergebnisse bestätigen, dass diese beiden Facetten der Verbbedeutung auf grundsätzliche Weise zusammenhängen.This dissertation provides an empirical investigation of German verbs conducted on the basis of statistical descriptions acquired from a large corpus of German text. In a brief overview of the linguistic theory pertaining to the lexical semantics of verbs, I outline the idea that verb meaning is composed of argument structure (the number and types of arguments that co-occur with a verb) and aspectual structure (properties describing the temporal progression of an event referenced by the verb). I then produce statistical descriptions of verbs according to these two distinct facets of meaning: In particular, I examine verbal subcategorisation, selectional preferences, and aspectual type. All three of these modelling strategies are evaluated on a common task, automatic verb classification. I demonstrate that automatically acquired features capturing verbal lexical aspect are beneficial for an application that concerns argument structure, namely semantic role labelling. Furthermore, I demonstrate that features capturing verbal argument structure perform well on the task of classifying a verb for its aspectual type. These findings suggest that these two facets of verb meaning are related in an underlying way

    24th Nordic Conference on Computational Linguistics (NoDaLiDa)

    Get PDF
    corecore