107 research outputs found
Software Citation: State of the practice, challenges, solutions
Presentation given at Berliner Bibliothekswissenschaftliches Kolloquium on 2020-06
data elicitation experiments in English linguistics
1 Introduction : 4 2 'Also' and 'too' : 5 2.1 Classification and terminology :
6 3 Hypotheses : 8 3.1 The structural hypotheses S1 and S2 : 8 3.2 The
information-structural hypothesis I1 : 9 4 Data elicitation : 11 4.1 Corpus
analysis : 14 4.1.1 Sample setup : 14 4.1.1.1 The sample : 15 4.1.2 Testing S1
against corpus data : 22 4.1.2.1 Results from Fjelkestam-Nilsson (1983) : 22
4.1.3 Testing S2 against corpus data : 22 4.1.3.1 Results from Fjelkestam-
Nilsson (1983) : 22 4.1.4 Testing I1 against corpus data : 23 4.1.4.1 Results
from Gast (2006) : 23 4.2 Data elicitation by online questionnaires : 27 4.2.1
Questionnaire design and implementation : 27 4.2.1.1 Questionnaire design for
S1 and S2 : 28 4.2.1.1.1 The S1 questionnaire : 32 4.2.1.1.2 The S2
questionnaire : 33 4.2.1.2 Questionnaire design for I1 : 34 4.3 Subjects : 36
5 Results and discussion : 36 5.1 Methodological insights : 36 5.2 Hypothesis
S1 : 39 5.2.1 S1: Corpus analysis : 39 5.2.2 S1: Data elicitation by online
questionnaires : 40 5.2.3 S1: Discussion : 43 5.3 Hypothesis S2 : 45 5.3.1 S2:
Corpus analysis : 45 5.3.2 S2: Data elicitation by online questionnaires : 50
5.3.3 S2: Discussion : 53 5.4 Hypothesis I1 : 54 5.4.1 I1: Corpus analysis :
54 5.4.2 I1: Data elicitation by online questionnaires : 59 5.4.3 I1:
Discussion : 62 6 Conclusion : 64 6.1 Methodology for data elicitation in
English linguistics : 64 6.2 The distribution of 'also' and 'too' : 65 A List
of HRIs : 70 B Zusammenfassung : 74This study has a dual focus in that it aims to develop a viable methodology
for elicitation experiments in English linguistics, while simultaneously
applying the proposed methods to investigate an actual subject, the
distribtion of the additive particles 'also' and 'too'. Traditionally, data
for linguistic research is gained by sampling natural language corpora.
Although this approach is valid and, indeed, has been applied here,
elicitation experiments can gain in validity and informative value by
additionally introducing questionnaires to accompany corpus research. Online
questionnaires particularly are a cost-effective and highly customizable tool
to create a linguistic database against which existing data can be tested. For
the purpose of this study, I have created six online questionnaires to test
three hypotheses about the distribution of 'also' and 'too'. Two
interdependent hypotheses assume that the use of the two particles is
sensitive to structural properties of the `added constituent' while the third
one, the information-structural hypothesis, argues that the use of 'also' and
'too' is controlled by the information structure of the sentence. In addition
to the questionnaires, a balanced sample was extracted from the "British
National Corpus" and tested against corpus data from previous studies as well
as the data elicited online. In the course of this study, the additive
particles will firstly be defined in terms of their structural properties, and
the hypotheses about their use introduced and explicated. Furthermore, the
data elicitation process will be detailed, as well as results from previous
studies be taken into account. The hypotheses will subsequently be tested
against the data from both corpus research and elicitation per questionnaires,
and the outcome discussed. Concluding the study, I will focus on the results
of the distribution analysis as well as evaluate the introduction of the
online questionnaires and their application in the context of testing the
hypotheses against empirical linguistic data.Diese Arbeit hat einen dualen Charakter, da es ihr Ziel ist, eine praktikable
Methodologie fĂĽr Datenerhebungsexperimente in der anglistischen Linguistik zu
entwickeln, während sie gleichzeitig die vorgeschlagenen Methoden anwendet, um
eine tatsächliche Fragestellung zu untersuchen: die Verteilung der additiven
Partikeln 'also' und 'too' im Englischen. Traditionell werden Daten fĂĽr
linguistische Forschung per Datenerhebung aus natursprachlichen Korpora
erhoben. Obwohl diese Herangehensweise valide ist und in der Tat auch in
dieser Arbeit angewandt wird, können Datenerhebungsexperimente an Validität
und Informationsgehalt gewinnen, indem sie zusätzlich zur Korpusanalyse
Fragebögen hinzuziehen. Besonders Online-Fragebögen sind kosteneffektive und
hochgradig anpassbare Werkzeuge um eine linguistische Datenbasis zu schaffen,
auf deren Grundlage der Vergleich mit bereits erhobenen Daten durchgefĂĽhrt
werden kann. Für diese Arbeit habe ich sechs Fragebögen erstellt, mit denen
drei Hypothesen zur Veteilung von 'also' und 'too' getestet werden. Zwei
interdependente Hypothesen nehmen einen Einfluss von strukturellen
Eigenschaften des hinzugefĂĽgten Konstituenten auf den Gebrauch der beiden
Partikeln an, während die dritte, die Informationsstruktur- Hypothese, davon
ausgeht, dass der Gebrauch von 'also' und 'too' durch die Informationsstruktur
des Satzes kontrolliert wird. Weiterhin wurde eine ausgewogene Stichprobe dem
"British National Corpus" entnommen und sowohl mit den Daten anderer
Korpusstudien als auch mit den per Online-Fragebögen erhobenen Daten
verglichen. Im Rahmen dieser Arbeit werden die additiven Partikeln definiert
in Hinblick auf ihre strukturellen Eigenschaften, und die Hypothesen ĂĽber
ihren Gebrauch eingefĂĽhrt und dargelegt. Weiterhin wird der Prozess der
Datenerhebung expliziert und Ergebnisse aus anderen Studien werden
hinzugezogen. Im Anschluss werden die Hypothesen mit Hilfe der durch
Korpuserhebung und Fragebögen gewonnenen Daten auf Validität überprüft und die
Ergebnisse diskutiert. Abschliessend betrachte ich sowohl die Ergebnisse der
Verteilungsanalyse als auch die methodologischen Mittel und ihren Gebrauch im
Kontext der ĂśberprĂĽfung der Hypothesen unter Zuhilfenahme der empirischen
Daten
Software-Spotlight: Citation File Format (CFF)
Presentation given at 3. Helmholtz Open Science Forum: Forschungssoftware, 2022-11-24
Software zitieren - Citation File Format (CFF)
Presentation given at RSE Express, Westfälische Wilhelms-Universität Münster, 2022-11-22
Das Citation File Format (CFF): Forschungssoftware zitierbar machen
Presentation given at CampusSource Tagung 2022, 2022-03-17, FernUniversität in Hagen (online)
Research software and citation
Invited lecture given at University Potsdam, Institute of Computer Science, research seminar "Aktuelle Themen des Research Software Engineering" on 2023-02-08
Atomic: an open-source software platform for multi-level corpus annotation
This paper presents Atomic, an open-source platform-independent desktop application for multi-level corpus annotation. Atomic aims at providing the linguistic community with a user-friendly annotation tool and sustainable platform through its focus on extensibility, a generic data model, and compatibility with existing linguistic formats. It is implemented on top of the Eclipse Rich Client Platform, a pluggable Java-based framework for creating client applications. Atomic - as a set of plug-ins for this framework - integrates with the platform and allows other researchers to develop and integrate further extensions to the software as needed. The generic graph-based meta model Salt serves as Atomic’s domain model and allows for unlimited annotation levels and types. Salt is also used as an intermediate model in the Pepper framework for conversion of linguistic data, which is fully integrated into Atomic, making the latter compatible with a wide range of linguistic formats. Atomic provides tools for both less experienced and expert annotators: graphical, mouse-driven editors and a command-line data manipulation language for rapid annotation
Making software citation easi(er) - The Citation File Format and its integrations
Slides for a presenation given at the NFDI4Ing Konferenz, 2021-09-28
- …