Search CORE

17 research outputs found

The Unaccusativity/Unergativity Distinction in Urdu

Author: Ahmed Tafseer
Publication venue: CSLI Publications
Publication date: 08/09/2010
Field of study

oai:ojs.katze.sprachwiss.uni-konstanz.de:article/1The article discusses the classification of intransitive verbs into two distinct classes, i.e. unaccusative and unergative (Perlmutter 1978, Burzio 1981, 1986). Burn, fall, drop, sink etc. having patient/theme subject, are supposed to be unaccusative verbs. Work, play, speak, smile etc., having agentive subject, are supposed to be unergative verbs. The unergative/unaccusative distinction has been shown to exist crosslinguistically and language specific tests have been proposed as diagnostics. We find tests for unaccusativity/unergativity distinction for Urdu/Hindi too. On the other hand, we find that there are many Urdu/Hindi intransitives that act both like unaccusatives as well as unergatives in different semantic contexts. Different authors have pointed out this fact for other languages especially of Romance and Germanic families ((Van Valin 1990, Zaenen 1993, Keller and Sorace 2003). This article therefore proposes to abandon a strict two-way distinction between unaccusatives and unergatives and proposes semantic features to model the validity/invalidty of different syntactic constructions involving intransitive verbs

Journal of South Asian Linguistics

Automatic acquisition of Urdu nouns (along with gender and irregular plurals)

Author: Tafseer Ahmed
Publication venue
Publication date: 23/04/2020
Field of study

Abstract The paper describes a set of methods to automatically acquire the Urdu nouns (and its gender) on the basis of inflectional and contextual clues. The algorithms used are a blend of computer's brute force on the corpus and careful design of distinguishing rules on the basis linguistic knowledge. As there are homograph inflections for Urdu nouns, adjectives and verbs, we compare potential inflectional forms with paradigms of inflections in strict order and gives best guess (of part of speech) for the word. We also worked on irregular plurals i.e. the plural forms that are borrowed from Arabic, Persian and English. Evaluation shows that not all the borrowed rules have same productivity in Urdu. The commonly used borrowed plural rules are shown in the result

CiteSeerX

Discovering Lexical Similarity Using Articulatory Feature-Based Phonetic Edit Distance

Author: Alessandro Bogliolo
Muhammad Suffian
Muhammad Yaseen Khan
Tafseer Ahmed
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2021
Field of study

Lexical Similarity (LS) between two languages uncovers many interesting linguistic insights such as phylogenetic relationship, mutual intelligibility, common etymology, and loan words. There are various methods through which LS is evaluated. This paper presents a method of Phonetic Edit Distance (PED) that uses a soft comparison of letters using the articulatory features associated with their International Phonetic Alphabet (IPA) transcription. In particular, the comparison between the articulatory features of two letters taken from words belonging to different languages is used to compute the cost of replacement in the inner loop of edit distance computation. As an example, PED gives edit distance of 0.82 between German word ‘vater’ ([fa:tər]) and Persian word ‘ ’ ([pedær]), meaning ‘father,’ and, similarly, PED of 0.93 between Hebrew word ‘ ’ ([ʃəɭam]) and Arabic word ‘ ’ ([səɭa:m], meaning ‘peace,’ whereas classical edit distances would be 4 and 2, respectively. We report the results of systematic experiments conducted on six languages: Arabic, Hindi, Marathi, Persian, Sanskrit, and Urdu. Universal Dependencies (UD) corpora were used to restrict the comparison to lists of words belonging to the same part of speech. The LS based on the average PED between pair of words was then computed for each pair of languages, unveiling similarities otherwise masked by the adoption of different alphabets, grammars, and pronunciations rules

Archivio istituzionale della ricerca - Università di Urbino

Urdu Conjunct Predicates (N+V) Inventory from Urdu Universal Dependency Corpus

Author: Farhat Abdullah
Tafseer Ahmed
Uzma Anjum
Publication venue: Corpus Research Center
Publication date: 01/06/2021
Field of study

This research study aims to develop a semantic inventory of Urdu nouns which may serve as a useful resource for developing natural language processing tools. It is an effort towards improving the severely under-resourced status of Urdu. Conjunct predicate is a type of complex predicate where a noun is followed by a light verb and both work as a single syntactic constituent. Conjunct predicate N+V collocation is extracted from universal dependency annotated Urdu corpus i.e., URDU_UD_UTB (Bhat et al., 2017). Resultant data provided adequate information to categorize the pattern of nouns compatible with light verbs in their all-possible morphological forms. This research yields a sizeable repository ofUrdu conjunct predicate along with figuring out a range of case markers licensed by N+V collocation as a constituent which does further implication on the volitionality. Resultant mined data can be used in some future research work to train the data in some cross-linguistic computational programs

Directory of Open Access Journals

Spatial Expressions and Case in South Asian Languages

Author: Khan Tafseer Ahmed
Publication venue
Publication date: 01/01/2009
Field of study

Diese Dissertation untersucht die Beziehung zwischen Kasus und Raumausdrücken in südasiatischen Sprachen. Die Dissertation gibt einen Überblick über südasiatische Sprachen hinsichtlich des synchronischen Gebrauchs von Kasus, identifiziert interessante und/oder ungewöhnliche Muster und gibt eine lexikalisch-semantische Erklärung für diese Muster an, basierend auf einem unterspezifizierten, Merkmal-basierten Modell für Raumausdrücke sowie einer Identifizierung von Metaphern zur Erweiterung auf diejenigen Ausdrücke, die sich nicht auf den Raum beziehen.Die Daten für diese Dissertation wurden erhoben durch eine Untersuchung von Kasusmarkierern in zehn südasiatischen Sprachen. Südasien wird als ein zusammenhängendes „linguistisches Areal“ oder Sprachbund (Emeneau 1956) betrachtet. Dies führt zu einer Konvergenz von linguistischen Merkmalen durch Sprachkontakt, der über Jahrhunderte hinweg besteht. Aus diesem Grund wurden sechs indoarische (Haryani, Nepali, Punjabi, Saraiki, Sindhi und Urdu/Hindi) und zwei iranische (Balochi und Pashto) Sprachen sowie eine dravidische (Malayalam) und eine tibetobirmanische (Manipuri) Sprache für die Studie ausgewählt. Die Untersuchung bestätigt die Beobachtung, dass gemeinsame räumliche Merkmale in Sprachen unterschiedlicher Familien vorliegen.Bei der Untersuchung der Verwendung von Kasusmarkierern liegt das Hauptaugenmerk auf synchronischen Fragen. Die Untersuchung widmet sich jedoch auch der Herkunft der Kasusmarkierer. Es stellt sich heraus, dass viele der modernen Hauptkasusmarkierer (z.B. die Ergativ- und Akkusativ-Markierer) ihren Ursprung in Raumausdrücken haben. So haben manche dieser Formen, z.B. das Ergativ-/Akkusativ-nae im Haryani und das Akkusativ-/Dativ-ko in Urdu/Hindi, in den jeweiligen heute gebräuchlichen Sprachen auch eine räumliche Verwendung. Diese Beobachtung zeigt die tiefe Verbindung zwischen Kasus und Raumausdrücken.Jene Verbindung wird von zwei Gesichtspunkten genauer betrachtet. Zum einen versucht die Dissertation, die Muster in der Verwendung und der Synchronie unter den untersuchten Sprachen zu verstehen, zunächst nur innerhalb der Domäne der Raumausdrücke. Zum anderen identifiziert die Dissertation neue Verbklassen im Südasiatischen. Diese Identifizierung von Verbklassen stellt einen neuen Beitrag auf dem Gebiet der lexikalischen Semantik dar. Durch das Verstehen der Muster in der Kasusmarkierung innerhalb dieser Verbklassen untersucht die Dissertation außerdem, wie die Markierer der Raumausdrücke auch in eine Domäne der nicht raumbezogenen Kasusmarkierung ausgedehnt werden können.Betrachtet man ausschließlich die raumbezogene Domäne, so wird gezeigt, dass die theoretischen Systeme, die in früheren Arbeiten zu Raummarkierern entwickelt wurden, wie z.B. Ostler (1979), Jackendoff (1990) und Kracht (2002), nicht dazu ausreichend sind, alle Probleme der feinen Unterscheidungen und Polysemien unter den raumbezogenen Kasusmarkierern, die in südasiatischen Sprachen vorhanden sind, zu erklären. Zu einer kohärenten und systematischen Erklärung dieser Probleme bringt diese Dissertation daher ein alternatives, unterspezifiziertes Modell ein.Beim Problem der Erweiterung der Raummarkierer in eine nicht raumbezogene Ebene erörtert die Dissertation die Polysemien, die zwischen raumbezogenen und nicht raumbezogenen Kasusmarkierern bestehen. Manche der Formen, die als Raummarkierer benutzt werden, markieren außerdem den Instrumental, den Adressierten und nicht kanonische zweite Argumente. Die Untersuchung von Konstruktionen, die nicht kanonisch markierte zweite Argumente enthalten, führt zur Etablierung von sechs Verbklassen, die den meisten der genannten Sprachen zuteil sind. Diese Methode der Verbklassifizierung ist im Einklang mit Levin (1993), wo die Annahme formuliert wird, dass Verben mit einer syntaktisch identischen Struktur eine zusammenhängende semantische Klasse bilden. Die Bestimmung von Verbklassen mit einer systematischen Verwendung von nicht kanonischen zweiten Argumenten oder Non Canonical Second Argument (NCSA) führt uns zum Versuch, die semantischen Faktoren hinter der Wahl der Kasusmarkierer von NCSA zu verstehen.Die Dissertation legt folgende Haupterkenntnisse zu südasiatischen Sprachen dar. Manche südasiatischen Sprachen unterscheiden zwischen statischen und dynamischen Quellen, z.B. die Ablative dekhi vs. baaTa im Nepali. Die Domäne des Raumes stellt Metaphern für diejenigen Domänen bereit, die sich nicht auf den Raum beziehen. Daraus resultiert die Benutzung von räumlichen Markierern in nicht räumlichen Domänen. Es kann mehrere Metaphern in der räumlichen Domäne für eine einzige nicht räumliche Verwendung geben. Verschiedene Sprachen können unterschiedliche Metaphern für dieselbe Verwendung wählen, z.B. kann der Adressierte des Verbs ‘fragen’ als ein (mit dem Dativ markierter) Empfänger oder als eine mögliche (mit dem Ablativ markierte) Quelle betrachtet werden.Die Wahl des Kasusmarkierers an einem zweiten Argument hängt nicht allein von seinen semantischen Merkmalen ab. Die semantischen Merkmale des gesamten Gliedsatzes können die Wahl des Markierers beeinflussen. Die identifizierten NCSA-Verbklassen wurden durch keine der vorangegangenen Theorien indiziert. Nicht kanonische, z.B. dativische, Markierung eines Subjekts der erfahrenden Person ist ein bekanntes Phänomen (Verma & Mohanan 1990), wohingegen die nicht kanonische Markierung eines zweiten Arguments in einer Konstruktion mit einem Subjekt der erfahrenden Person vorher noch nicht systematisch untersucht worden ist.Somit zeigen sowohl die diachrone Entwicklung moderner Kasusmarkierung als auch synchrone Polysemien raumbezogener und nicht raumbezogener Markierer die tiefe Verbindung zwischen Raumausdrücken und Kasus. Die nicht raumbezogene Domäne entleiht ihre Metaphern der räumlichen Domäne und Raummarkierer können hierdurch auf eine sehr reguläre Weise um nicht raumbezogene Verwendungen erweitert werden. Vorherige Modelle der Raumverwendung in Verbindung mit NCSAs wurden als unzureichend analysiert, um die Daten aus südasiatischen Sprachen zu erklären. Diese Dissertation schlägt daher ein alternatives, Merkmal-basiertes Modell für die räumliche Domäne vor und erweitert unser Wissen über diejenigen semantischen Faktoren, die für die nicht räumliche Domäne eine Rolle spielen

KOPS - The Institutional Repository of the University of Konstanz

The redevelopment of Indo-Aryan case systems from a lexical semantic perspective

Author: Ahmed Tafseer
Butt Miriam
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 15/07/2010
Field of study

The original case system found in Sanskrit (Old Indo-Aryan) was lost in Middle Indo-Aryan and then reinvented in most of the modern New Indo-Aryan (NIA) languages. This paper suggests that: (1) a large factor in the redevelopment of the NIA case systems is the expression of systematic semantic contrasts; (2) the precise distribution of the newly innovated case markers can only be understood by taking their original spatial semantics into account and how this originally spatial semantics came to be used primarily for marking the core participants of a sentence (e.g., agents, patients, experiencers, recipients). Furthermore, given that case markers were not innovated all at once, but successively, we suggest a model in which already existing case markers block or compete with newer ones, thus giving rise to differing particular instantiations of one and the same originally spatial postposition across closely related languages

KOPS - The Institutional Repository of the University of Konstanz

Crossref

A first approach towards an Urdu WordNet

Author: Ahmed Tafseer
Hautli Annette
Publication venue
Publication date: 01/01/2011
Field of study

This paper reports on a first experiment with developing a lexical knowledge resource for Urdu on the basis of Hindi WordNet. Due to the structural similarity of Urdu and Hindi, we can focus on overcoming the differences in the scriptual systems of the two languages by using transliterators. Various natural language processing tools, among them a computational semantics based on the Urdu ParGram grammar, can use the resulting basic lexical knowledge base for Urdu

KOPS - The Institutional Repository of the University of Konstanz

CiteSeerX

A Reference Dependency Bank for Analyzing Complex Predicates

Author: Ahmed Tafseer
Butt Miriam
Hautli Annette
Sulger Sebastian
Publication venue
Publication date: 01/01/2012
Field of study

When dealing with languages of South Asia from an NLP perspective, a problem that repeatedly crops up is the treatment of complex predicates. This paper presents a first approach to the analysis of complex predicates (CPs) in the context of dependency bank development. The effort originates in theoretical work on CPs done within Lexical-Functional Grammar (LFG), but is intended to provide a guideline for analyzing different types of CPs in an independent framework. Despite the fact that we focus on CPs in Hindi and Urdu, the design of the dependencies is kept general enough to account for CP constructions across languages

KOPS - The Institutional Repository of the University of Konstanz

CiteSeerX

Identifying Urdu Complex Predication via Bigram Extraction M iriam But t 1 T ina Bögel 1

Author: Ahmed Tafseer
Butt Miriam
Bögel Tina
Hautli Annette
Sulger Sebastian
Publication venue
Publication date: 01/01/2012
Field of study

A problem that crops up repeatedly in shallow and deep syntactic parsing approaches to South Asian languages like Urdu/Hindi is the proper treatment of complex predications. Problems for the NLP of complex predications are posed by their productiveness and the ill understood nature of the range of their combinatorial possibilities. This paper presents an investigation into whether fine-grained information about the distributional properties of nouns in N+V CPs can be identified by the comparatively simple process of extracting bigrams from a large “raw” corpus of Urdu. In gathering the relevant properties, we were aided by visual analytics in that we coupled our computational data analysis with interactive visual components in the analysis of the large data sets. The visualization component proved to be an essential part of our data analysis, particular for the easy visual identification of outliers and false positives. Another essential component turned out to be our language-particular knowledge and access to existing language-particular resources. Overall, we were indeed able to identify high frequency N-V complex predications as well as pick out combinations we had not been aware of before. However, a manual inspection of our results also pointed to a problem of data sparsity, despite the use of a large corpus

CiteSeerX