82 research outputs found
Generating acceptable Arabic Core Vocabularies and Symbols for AAC users
This paper discusses the development of an Arabic Symbol Dictionary for Augmentative and Alternative Communication (AAC) users, their families, carers, therapists and teachers as well as those who may benefit from the use of symbols to enhance literacy skills. With a requirement for a bi-lingual dictionary, a vocabulary list analyzer has been developed to evaluate similarities and differences in word frequencies from a range of word lists in order to collect suitable AAC lexical entries. An online bespoke symbol management has been created to hold the lexical entries alongside specifically designed symbols which are then accepted via a voting system using a series of criteria. Results to date have highlighted how successful these systems can be when encouraging participation along with the need for further research into the development of personalised context sensitive core vocabularies
Learning from Noisy Data in Statistical Machine Translation
In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen
Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des
Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des
Lernprozesses behandelt: Bei der Vorverarbeitung und während der
Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der
statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt.
Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten.
Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus
gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen,
wobei jeder Satz einer Sprache mit dem entsprechenden Satz der
anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl
der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem
Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind.
Um diese zu erkennen wird ein kleiner und fehlerfreier
paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen
lexikalischen Eigenschaften werden zuverlässig False-Positives vor der
Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei
ist das vom Clean Corpus erzeugte bilinguale Lexikon.
In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen.
Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten.
Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine.
Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes.
Da solche Tuning Daten typischerweise beschränkte Größe haben,
werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern.
Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für
die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene
automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von
monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch
bei beschränkten Daten möglich, indem auch monolinguale
Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der
Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur
Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem
vorgegebenen Sprachpaar teilen.
Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die
Trainingsdaten anhand der Güte des Corpus gewichtet werden.
Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen
Sequenzen zu finden und ihre Gewichtung zu reduzieren.
Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln.
Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt.
Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet.
Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher.
Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt.
Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt.
Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher
Character Recognition
Character recognition is one of the pattern recognition technologies that are most widely used in practical applications. This book presents recent advances that are relevant to character recognition, from technical topics such as image processing, feature extraction or classification, to new applications including human-computer interfaces. The goal of this book is to provide a reference source for academic research and for professionals working in the character recognition field
The Object of Platform Studies: Relational Materialities and the Social Platform (the case of the Nintendo Wii)
Racing the Beam: The Atari Video Computer System,by Ian Bogost and Nick Montfort, inaugurated thePlatform Studies series at MIT Press in 2009.We’ve coauthored a new book in the series, Codename: Revolution: the Nintendo Wii Video Game Console. Platform studies is a quintessentially Digital Humanities approach, since it’s explicitly focused on the interrelationship of computing and cultural expression. According to the series preface, the goal of platform studies is “to consider the lowest level of computing systems and to understand how these systems relate to culture and creativity.”In practice, this involves paying close attentionto specific hardware and software interactions--to the vertical relationships between a platform’s multilayered materialities (Hayles; Kirschenbaum),from transistors to code to cultural reception. Any given act of platform-studies analysis may focus for example on the relationship between the chipset and the OS, or between the graphics processor and display parameters or game developers’ designs.In computing terms, platform is an abstraction(Bogost and Montfort), a pragmatic frame placed around whatever hardware-and-software configuration is required in order to build or run certain specificapplications (including creative works). The object of platform studies is thus a shifting series of possibility spaces, any number of dynamic thresholds between discrete levels of a system
The linguistic competencies required for intermediate school teachers of Arabic in Oman: their identification and evaluation
This study has been conducted to identify the linguistic competencies required for
teaching Arabic at the intermediate schools in the Sultanate of Oman. It suggests the
use of a specific observation card to evaluate Arabic teachers according to their level
of linguistic competencies. To achieve these objectives, the study has been divided
into an Introduction and five chapters, followed by a general Conclusion. The
Introduction presents the scope of the study and its importance, and raises the
appropriate questions. Chapter One discusses the various elements of the teaching
competencies movement, as well as its significance in teacher-training by reviewing
the relevant literature. It also deals with the bases, classification and sources of the
competencies. Chapter Two outlines the current status of Arabic teaching in Oman
and its objectives. It then describes the importance of language in daily life and the
educational system as a pedagogical subject. The chapter reviews the teachertraining
programmes in Oman and examines their constituent elements. Chapter
Three presents the practical aspect of the current study such as the samples and
instruments for the collection of data and the methods followed to analyse the data.
Chapter Four analyses the statistical results of the questionnaire, including the
linguistic competencies. Chapter Five discusses and explains the results obtained. It
also includes the additional comments made by the respondents to the questionnaire.
The general Conclusion is devoted to summarizing the issues and findings of the
study, as well as suggesting some improvements to the current system of teaching
Arabic in Oman. Finally, it makes some recommendations which, it is hoped, will be
useful in the plannin
- …