26 research outputs found
The role of verb semantics in Hungarian verb-object order
Hungarian is often referred to as a discourse-configurational language, since the structural position of constituents is determined by their logical function (topic or comment) rather than their grammatical function (e.g., subject or object). We build on work by Komlósy (1989) and argue that in addition to discourse context, the lexical semantics of the verb also plays a significant role in determining Hungarian word order. In order to investigate the role of lexical semantics in determining Hungarian word order, we conduct a large-scale, data-driven analysis on the ordering of 380 transitive verbs and their objects, as observed in hundreds of thousands of examples extracted from the Hungarian Gigaword Corpus. We test the effect of lexical semantics on the ordering of verbs and their objects by grouping verbs into 11 semantic classes. In addition to the semantic class of the verb, we also include two control features related to information structure, object definiteness and object NP weight, chosen to allow a comparison of their effect size to that of verb semantics. Our results suggest that all three features have a significant effect on verb-object ordering in Hungarian and among these features, the semantic class of the verb has the largest effect. Specifically, we find that stative verbs, such as fed 'cover', jelent 'mean' and övez 'surround', tend to be OV-preferring (with the exception of psych verbs which are strongly VO-preferring) and non-stative verbs, such as bírál 'judge', csökkent 'reduce' and csókol 'kiss', verbs tend to be VO-preferring. These findings support our hypothesis that lexical semantic factors influence word order in Hungarian
The NCTE Transcripts: A Dataset of Elementary Math Classroom Transcripts
Classroom discourse is a core medium of instruction -- analyzing it can
provide a window into teaching and learning as well as driving the development
of new tools for improving instruction. We introduce the largest dataset of
mathematics classroom transcripts available to researchers, and demonstrate how
this data can help improve instruction. The dataset consists of 1,660 45-60
minute long 4th and 5th grade elementary mathematics observations collected by
the National Center for Teacher Effectiveness (NCTE) between 2010-2013. The
anonymized transcripts represent data from 317 teachers across 4 school
districts that serve largely historically marginalized students. The
transcripts come with rich metadata, including turn-level annotations for
dialogic discourse moves, classroom observation scores, demographic
information, survey responses and student test scores. We demonstrate that our
natural language processing model, trained on our turn-level annotations, can
learn to identify dialogic discourse moves and these moves are correlated with
better classroom observation scores and learning outcomes. This dataset opens
up several possibilities for researchers, educators and policymakers to learn
about and improve K-12 instruction. The data and its terms of use can be
accessed here: https://github.com/ddemszky/classroom-transcript-analysi
Lebensführung und alltägliche Vergesellschaftung in einer Plattenbausiedlung in Budapest
"Der Beitrag stellt die Ergebnisse der 2005 an der Technischen Universität Chemnitz abgeschlossenen Dissertation der Referentin vor. Die empirische Erhebung beschäftigte sich mit der Entstehung und Aufrechterhaltung von Sozietät im Alltagsleben. Untersucht wurden Formen und Logik alltäglicher Vergesellschaftung: Die individuell spezifische Art und Weise von Personen, soziale Kontakte zu knüpfen undauf diesem Weg Gesellschaft täglich neu entstehen zu lassen. Sowohl die sozialen Netzwerke der Mikroebene als auch die Einbindung der einzelnen Person in die Gesellschaft und damit die Verknüpfung von Mikro- und Makroebene wurden erforscht. Eine zu enge Präzisierung und Definition der Begriffe 'Vergesellschaftung' und 'Gesellschaft' wurde bei der Fragestellung bewusst vermieden. Die Arbeit sollte die Sicht der Individuen einfangen und ihnen nichts aufzwingen. Gesellschaft meint in erster Annäherung alles Soziale, das die Menschen umgibt: ihre Familie, die Nachbarn, die Kollegen, den Nachrichtensprecher, die Politiker, die Lehrerin in der Schule. 'Gesellschaft' soll zunächst in ihrer alltagssprachlichen Bedeutung verstanden werden: Man ist in Gesellschaft - also nicht alleine. Es geht um die Gesellschaft von Mitmenschen, die jeder Tag für Tag erlebt. Niemand, der Familie hat, arbeiten geht und in einer Großstadt lebt, ist wirklich alleine. Denn jeder hat regelmäßigen Kontakt zu Mitmenschen, er muss sich an sie anpassen. Sei es zu Hause am Esstisch, im Bus mit anderen Fahrgästen oder mit den Kollegen bei der Arbeit. Bei diesen Kontakten entsteht - scheinbar 'nebenbei' - das, was die Soziologie 'Gesellschaft' nennt. Um folgende Fragen kreiste die Untersuchung: Wie docken Menschen ihr individuelles Leben Tag für Tag an das anderer Menschen an und wie werden sie tagtäglich Teil der Gesellschaft, die sie umgibt? Welche alltäglichen Leistungen und Anstrengungen sind erforderlich? Wie entsteht aus Millionen einzelner Leben die Gesellschaft? Was tun diese Millionen von Menschen dafür, dass sie entsteht? Die grundlagentheoretische Fragestellung wurde am Beispiel einer Wohnsiedlung in einer Plattenbausiedlung in Budapest untersucht. Obwohl sich die Arbeit nicht in erster Linie der stadtsoziologischen Erforschung dieser Siedlungsform widmet, sondernder Untersuchung einer allgemeinen Fragestellung an einem konkreten Ort, wurde eine Analyse der Siedlung, ihrer Geschichte und ihrer örtlichen Gemeinschaft vorgenommen. Die Plattenbausiedlung ist Schauplatz des alltäglichen Lebens der Befragten. Sie ist eine der Plattformen, an der alltägliche Vergesellschaftung greifbar und aktuell wird: Anhand der Siedlung konnte Vergesellschaftung nicht 'nur' aus den Erzählungen der Befragten nachgezeichnet, sondern 'live' beobachtet werden. Auf diesem Weg eröffnete die Analyse der Siedlung eine zusätzliche Dimension in der Untersuchung. Das Untersuchungsland Ungarn und der Untersuchungsort Budapest ermöglichten es zudem, Besonderheiten einer postkommunistischen Gesellschaft nachzuzeichnen. Die Arbeit liefert somit auch Ansätze eines Vergleichs zwischen ungarischen und deutschen gesellschaftlichen Verhältnissen: Sowohl auf dem Gebiet der Alltagsorganisation als auch bei der Vergesellschaftung wird auf Ähnlichkeiten und Unterschiede zwischen Deutschland und Ungarn hingewiesen. Das Untersuchungsdesign verzahnte theoretische und empirische Forschungsschritte. Die Aufarbeitung des Standes der Forschung verhalf zur Präzisierung der Fragestellung, Erarbeitung eines eigenen theoretischen Rahmens und Ausarbeitung der Methodologie. Die Sammlung und Auswertung der empirischen Daten wurde theoriegeleitet kontrolliert. Die Arbeit schloss mit der Diskussion der theoretischen Bedeutung der empirischen Ergebnisse." (Autorenreferat
Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults
Recent advancements in Automatic Speech Recognition (ASR) systems,
exemplified by Whisper, have demonstrated the potential of these systems to
approach human-level performance given sufficient data. However, this progress
doesn't readily extend to ASR for children due to the limited availability of
suitable child-specific databases and the distinct characteristics of
children's speech. A recent study investigated leveraging the My Science Tutor
(MyST) children's speech corpus to enhance Whisper's performance in recognizing
children's speech. They were able to demonstrate some improvement on a limited
testset. This paper builds on these findings by enhancing the utility of the
MyST dataset through more efficient data preprocessing. We reduce the Word
Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and
from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be
generalized to unseen datasets. We also highlight important challenges towards
improving children's ASR performance. The results showcase the viable and
efficient integration of Whisper for effective children's speech recognition
Learning to Recognize Dialect Features
Building NLP systems that serve everyone requires accounting for dialect differences. But dialects are not monolithic entities: rather, distinctions between and within dialects are captured by the presence, absence, and frequency of dozens of dialect features in speech and text, such as the deletion of the copula in “He ∅ running”. In this paper, we introduce the task of dialect feature detection, and present two multitask learning approaches, both based on pretrained transformers. For most dialects, large-scale annotated corpora for these features are unavailable, making it difficult to train recognizers. We train our models on a small number of minimal pairs, building on how linguists typically define dialect features. Evaluation on a test set of 22 dialect features of Indian English demonstrates that these models learn to recognize many features with high accuracy, and that a few minimal pairs can be as effective for training as thousands of labeled examples. We also demonstrate the downstream applicability of dialect feature detection both as a measure of dialect density and as a dialect classifier
Stance detection on social media: State of the art and trends
Stance detection on social media is an emerging opinion mining paradigm for
various social and political applications in which sentiment analysis may be
sub-optimal. There has been a growing research interest for developing
effective methods for stance detection methods varying among multiple
communities including natural language processing, web science, and social
computing. This paper surveys the work on stance detection within those
communities and situates its usage within current opinion mining techniques in
social media. It presents an exhaustive review of stance detection techniques
on social media, including the task definition, different types of targets in
stance detection, features set used, and various machine learning approaches
applied. The survey reports state-of-the-art results on the existing benchmark
datasets on stance detection, and discusses the most effective approaches. In
addition, this study explores the emerging trends and different applications of
stance detection on social media. The study concludes by discussing the gaps in
the current existing research and highlights the possible future directions for
stance detection on social media.Comment: We request withdrawal of this article sincerely. We will re-edit this
paper. Please withdraw this article before we finish the new versio