17 research outputs found

    The Unaccusativity/Unergativity Distinction in Urdu

    Get PDF
    oai:ojs.katze.sprachwiss.uni-konstanz.de:article/1The article discusses the classification of intransitive verbs into two distinct classes, i.e. unaccusative and unergative (Perlmutter 1978, Burzio 1981, 1986). Burn, fall, drop, sink etc. having patient/theme subject, are supposed to be unaccusative verbs. Work, play, speak, smile etc., having agentive subject, are supposed to be unergative verbs. The unergative/unaccusative distinction has been shown to exist crosslinguistically and language specific tests have been proposed as diagnostics. We find tests for unaccusativity/unergativity distinction for Urdu/Hindi too. On the other hand, we find that there are many Urdu/Hindi intransitives that act both like unaccusatives as well as unergatives in different semantic contexts. Different authors have pointed out this fact for other languages especially of Romance and Germanic families ((Van Valin 1990, Zaenen 1993, Keller and Sorace 2003). This article therefore proposes to abandon a strict two-way distinction between unaccusatives and unergatives and proposes semantic features to model the validity/invalidty of different syntactic constructions involving intransitive verbs

    Automatic acquisition of Urdu nouns (along with gender and irregular plurals)

    Get PDF
    Abstract The paper describes a set of methods to automatically acquire the Urdu nouns (and its gender) on the basis of inflectional and contextual clues. The algorithms used are a blend of computer's brute force on the corpus and careful design of distinguishing rules on the basis linguistic knowledge. As there are homograph inflections for Urdu nouns, adjectives and verbs, we compare potential inflectional forms with paradigms of inflections in strict order and gives best guess (of part of speech) for the word. We also worked on irregular plurals i.e. the plural forms that are borrowed from Arabic, Persian and English. Evaluation shows that not all the borrowed rules have same productivity in Urdu. The commonly used borrowed plural rules are shown in the result

    Discovering Lexical Similarity Using Articulatory Feature-Based Phonetic Edit Distance

    Get PDF
    Lexical Similarity (LS) between two languages uncovers many interesting linguistic insights such as phylogenetic relationship, mutual intelligibility, common etymology, and loan words. There are various methods through which LS is evaluated. This paper presents a method of Phonetic Edit Distance (PED) that uses a soft comparison of letters using the articulatory features associated with their International Phonetic Alphabet (IPA) transcription. In particular, the comparison between the articulatory features of two letters taken from words belonging to different languages is used to compute the cost of replacement in the inner loop of edit distance computation. As an example, PED gives edit distance of 0.82 between German word ‘vater’ ([fa:tər]) and Persian word ‘ ’ ([pedĂŠr]), meaning ‘father,’ and, similarly, PED of 0.93 between Hebrew word ‘ ’ ([ʃəɭam]) and Arabic word ‘ ’ ([səɭa:m], meaning ‘peace,’ whereas classical edit distances would be 4 and 2, respectively. We report the results of systematic experiments conducted on six languages: Arabic, Hindi, Marathi, Persian, Sanskrit, and Urdu. Universal Dependencies (UD) corpora were used to restrict the comparison to lists of words belonging to the same part of speech. The LS based on the average PED between pair of words was then computed for each pair of languages, unveiling similarities otherwise masked by the adoption of different alphabets, grammars, and pronunciations rules

    Urdu Conjunct Predicates (N+V) Inventory from Urdu Universal Dependency Corpus

    Get PDF
    This research study aims to develop a semantic inventory of Urdu nouns which may serve as a useful resource for developing natural language processing tools. It is an effort towards improving the severely under-resourced status of Urdu. Conjunct predicate is a type of complex predicate where a noun is followed by a light verb and both work as a single syntactic constituent. Conjunct predicate N+V collocation is extracted from universal dependency annotated Urdu corpus i.e., URDU_UD_UTB (Bhat et al., 2017). Resultant data provided adequate information to categorize the pattern of nouns compatible with light verbs in their all-possible morphological forms. This research yields a sizeable repository ofUrdu conjunct predicate along with figuring out a range of case markers licensed by N+V collocation as a constituent which does further implication on the volitionality. Resultant mined data can be used in some future research work to train the data in some cross-linguistic computational programs

    Spatial Expressions and Case in South Asian Languages

    No full text
    Diese Dissertation untersucht die Beziehung zwischen Kasus und RaumausdrĂŒcken in sĂŒdasiatischen Sprachen. Die Dissertation gibt einen Überblick ĂŒber sĂŒdasiatische Sprachen hinsichtlich des synchronischen Gebrauchs von Kasus, identifiziert interessante und/oder ungewöhnliche Muster und gibt eine lexikalisch-semantische ErklĂ€rung fĂŒr diese Muster an, basierend auf einem unterspezifizierten, Merkmal-basierten Modell fĂŒr RaumausdrĂŒcke sowie einer Identifizierung von Metaphern zur Erweiterung auf diejenigen AusdrĂŒcke, die sich nicht auf den Raum beziehen.Die Daten fĂŒr diese Dissertation wurden erhoben durch eine Untersuchung von Kasusmarkierern in zehn sĂŒdasiatischen Sprachen. SĂŒdasien wird als ein zusammenhĂ€ngendes „linguistisches Areal“ oder Sprachbund (Emeneau 1956) betrachtet. Dies fĂŒhrt zu einer Konvergenz von linguistischen Merkmalen durch Sprachkontakt, der ĂŒber Jahrhunderte hinweg besteht. Aus diesem Grund wurden sechs indoarische (Haryani, Nepali, Punjabi, Saraiki, Sindhi und Urdu/Hindi) und zwei iranische (Balochi und Pashto) Sprachen sowie eine dravidische (Malayalam) und eine tibetobirmanische (Manipuri) Sprache fĂŒr die Studie ausgewĂ€hlt. Die Untersuchung bestĂ€tigt die Beobachtung, dass gemeinsame rĂ€umliche Merkmale in Sprachen unterschiedlicher Familien vorliegen.Bei der Untersuchung der Verwendung von Kasusmarkierern liegt das Hauptaugenmerk auf synchronischen Fragen. Die Untersuchung widmet sich jedoch auch der Herkunft der Kasusmarkierer. Es stellt sich heraus, dass viele der modernen Hauptkasusmarkierer (z.B. die Ergativ- und Akkusativ-Markierer) ihren Ursprung in RaumausdrĂŒcken haben. So haben manche dieser Formen, z.B. das Ergativ-/Akkusativ-nae im Haryani und das Akkusativ-/Dativ-ko in Urdu/Hindi, in den jeweiligen heute gebrĂ€uchlichen Sprachen auch eine rĂ€umliche Verwendung. Diese Beobachtung zeigt die tiefe Verbindung zwischen Kasus und RaumausdrĂŒcken.Jene Verbindung wird von zwei Gesichtspunkten genauer betrachtet. Zum einen versucht die Dissertation, die Muster in der Verwendung und der Synchronie unter den untersuchten Sprachen zu verstehen, zunĂ€chst nur innerhalb der DomĂ€ne der RaumausdrĂŒcke. Zum anderen identifiziert die Dissertation neue Verbklassen im SĂŒdasiatischen. Diese Identifizierung von Verbklassen stellt einen neuen Beitrag auf dem Gebiet der lexikalischen Semantik dar. Durch das Verstehen der Muster in der Kasusmarkierung innerhalb dieser Verbklassen untersucht die Dissertation außerdem, wie die Markierer der RaumausdrĂŒcke auch in eine DomĂ€ne der nicht raumbezogenen Kasusmarkierung ausgedehnt werden können.Betrachtet man ausschließlich die raumbezogene DomĂ€ne, so wird gezeigt, dass die theoretischen Systeme, die in frĂŒheren Arbeiten zu Raummarkierern entwickelt wurden, wie z.B. Ostler (1979), Jackendoff (1990) und Kracht (2002), nicht dazu ausreichend sind, alle Probleme der feinen Unterscheidungen und Polysemien unter den raumbezogenen Kasusmarkierern, die in sĂŒdasiatischen Sprachen vorhanden sind, zu erklĂ€ren. Zu einer kohĂ€renten und systematischen ErklĂ€rung dieser Probleme bringt diese Dissertation daher ein alternatives, unterspezifiziertes Modell ein.Beim Problem der Erweiterung der Raummarkierer in eine nicht raumbezogene Ebene erörtert die Dissertation die Polysemien, die zwischen raumbezogenen und nicht raumbezogenen Kasusmarkierern bestehen. Manche der Formen, die als Raummarkierer benutzt werden, markieren außerdem den Instrumental, den Adressierten und nicht kanonische zweite Argumente. Die Untersuchung von Konstruktionen, die nicht kanonisch markierte zweite Argumente enthalten, fĂŒhrt zur Etablierung von sechs Verbklassen, die den meisten der genannten Sprachen zuteil sind. Diese Methode der Verbklassifizierung ist im Einklang mit Levin (1993), wo die Annahme formuliert wird, dass Verben mit einer syntaktisch identischen Struktur eine zusammenhĂ€ngende semantische Klasse bilden. Die Bestimmung von Verbklassen mit einer systematischen Verwendung von nicht kanonischen zweiten Argumenten oder Non Canonical Second Argument (NCSA) fĂŒhrt uns zum Versuch, die semantischen Faktoren hinter der Wahl der Kasusmarkierer von NCSA zu verstehen.Die Dissertation legt folgende Haupterkenntnisse zu sĂŒdasiatischen Sprachen dar. Manche sĂŒdasiatischen Sprachen unterscheiden zwischen statischen und dynamischen Quellen, z.B. die Ablative dekhi vs. baaTa im Nepali. Die DomĂ€ne des Raumes stellt Metaphern fĂŒr diejenigen DomĂ€nen bereit, die sich nicht auf den Raum beziehen. Daraus resultiert die Benutzung von rĂ€umlichen Markierern in nicht rĂ€umlichen DomĂ€nen. Es kann mehrere Metaphern in der rĂ€umlichen DomĂ€ne fĂŒr eine einzige nicht rĂ€umliche Verwendung geben. Verschiedene Sprachen können unterschiedliche Metaphern fĂŒr dieselbe Verwendung wĂ€hlen, z.B. kann der Adressierte des Verbs ‘fragen’ als ein (mit dem Dativ markierter) EmpfĂ€nger oder als eine mögliche (mit dem Ablativ markierte) Quelle betrachtet werden.Die Wahl des Kasusmarkierers an einem zweiten Argument hĂ€ngt nicht allein von seinen semantischen Merkmalen ab. Die semantischen Merkmale des gesamten Gliedsatzes können die Wahl des Markierers beeinflussen. Die identifizierten NCSA-Verbklassen wurden durch keine der vorangegangenen Theorien indiziert. Nicht kanonische, z.B. dativische, Markierung eines Subjekts der erfahrenden Person ist ein bekanntes PhĂ€nomen (Verma & Mohanan 1990), wohingegen die nicht kanonische Markierung eines zweiten Arguments in einer Konstruktion mit einem Subjekt der erfahrenden Person vorher noch nicht systematisch untersucht worden ist.Somit zeigen sowohl die diachrone Entwicklung moderner Kasusmarkierung als auch synchrone Polysemien raumbezogener und nicht raumbezogener Markierer die tiefe Verbindung zwischen RaumausdrĂŒcken und Kasus. Die nicht raumbezogene DomĂ€ne entleiht ihre Metaphern der rĂ€umlichen DomĂ€ne und Raummarkierer können hierdurch auf eine sehr regulĂ€re Weise um nicht raumbezogene Verwendungen erweitert werden. Vorherige Modelle der Raumverwendung in Verbindung mit NCSAs wurden als unzureichend analysiert, um die Daten aus sĂŒdasiatischen Sprachen zu erklĂ€ren. Diese Dissertation schlĂ€gt daher ein alternatives, Merkmal-basiertes Modell fĂŒr die rĂ€umliche DomĂ€ne vor und erweitert unser Wissen ĂŒber diejenigen semantischen Faktoren, die fĂŒr die nicht rĂ€umliche DomĂ€ne eine Rolle spielen

    The redevelopment of Indo-Aryan case systems from a lexical semantic perspective

    No full text
    The original case system found in Sanskrit (Old Indo-Aryan) was lost in Middle Indo-Aryan and then reinvented in most of the modern New Indo-Aryan (NIA) languages. This paper suggests that: (1) a large factor in the redevelopment of the NIA case systems is the expression of systematic semantic contrasts; (2) the precise distribution of the newly innovated case markers can only be understood by taking their original spatial semantics into account and how this originally spatial semantics came to be used primarily for marking the core participants of a sentence (e.g., agents, patients, experiencers, recipients). Furthermore, given that case markers were not innovated all at once, but successively, we suggest a model in which already existing case markers block or compete with newer ones, thus giving rise to differing particular instantiations of one and the same originally spatial postposition across closely related languages

    A first approach towards an Urdu WordNet

    No full text
    This paper reports on a first experiment with developing a lexical knowledge resource for Urdu on the basis of Hindi WordNet. Due to the structural similarity of Urdu and Hindi, we can focus on overcoming the differences in the scriptual systems of the two languages by using transliterators. Various natural language processing tools, among them a computational semantics based on the Urdu ParGram grammar, can use the resulting basic lexical knowledge base for Urdu

    A Reference Dependency Bank for Analyzing Complex Predicates

    No full text
    When dealing with languages of South Asia from an NLP perspective, a problem that repeatedly crops up is the treatment of complex predicates. This paper presents a first approach to the analysis of complex predicates (CPs) in the context of dependency bank development. The effort originates in theoretical work on CPs done within Lexical-Functional Grammar (LFG), but is intended to provide a guideline for analyzing different types of CPs in an independent framework. Despite the fact that we focus on CPs in Hindi and Urdu, the design of the dependencies is kept general enough to account for CP constructions across languages

    Identifying Urdu Complex Predication via Bigram Extraction M iriam But t 1 T ina Bögel 1

    No full text
    A problem that crops up repeatedly in shallow and deep syntactic parsing approaches to South Asian languages like Urdu/Hindi is the proper treatment of complex predications. Problems for the NLP of complex predications are posed by their productiveness and the ill understood nature of the range of their combinatorial possibilities. This paper presents an investigation into whether fine-grained information about the distributional properties of nouns in N+V CPs can be identified by the comparatively simple process of extracting bigrams from a large “raw” corpus of Urdu. In gathering the relevant properties, we were aided by visual analytics in that we coupled our computational data analysis with interactive visual components in the analysis of the large data sets. The visualization component proved to be an essential part of our data analysis, particular for the easy visual identification of outliers and false positives. Another essential component turned out to be our language-particular knowledge and access to existing language-particular resources. Overall, we were indeed able to identify high frequency N-V complex predications as well as pick out combinations we had not been aware of before. However, a manual inspection of our results also pointed to a problem of data sparsity, despite the use of a large corpus
    corecore