3 research outputs found

    Wie man aus Wörtern Bedeutungen macht: Semantische Typen treffen Valenzen

    Get PDF
    Wie versteht ein Hörer oder Leser die von einem Sprecher oder Schreiber beabsichtigte Bedeutung? Syntaktische Strukturen sind zu allgemein, um feine Bedeutungsunterscheidungen auszudrücken. Wörter sind oft sehr mehrdeutig, und aufgrund dessen unzuverlässig als „Bedeutungsleitfaden“. Im Gegensatz dazu zeigt die Korpusmusteranalyse, dass die meisten Äußerungen aus Mustern von vergleichsweise geringer Mehrdeutigkeit aufgebaut sind. Daher stellt sich die Frage: Was ist ein Muster? Muster sind häufig verwendete Sprachbausteine, die aus zwei Elementen bestehen: Valenzen und Kollokationen. Während Valenzen relativ stabil sind, sind Kollokationen extrem variabel. In der Korpusmusteranalyse wird eine große Anzahl von Gebrauchsbelegen jedes Wortes studiert, und seine Kollokationen werden, ihren semantischen Typen entsprechend, lexikalischen Sets zugeordnet. Jedes Wort einer Sprache ist Bestandteil von mindestens einem Muster. Wenn es Teil von mehr als einem Muster ist, können die Bedeutungen seiner Muster meist durch unterschiedliche Kollokations-Präferenzen unterschieden werden. Kreative Benutzungen sind Abweichungen von normalen Nutzmustern, aber Abweichungen sind selbst regelgeleitet. Daher benötigt man eine Theorie von Normen und Abweichungen. Da die zwei Regelsysteme interagieren, können wir die Theorie als eine „Doppelhelix“ beschreiben

    Klasifikátor pro sémantické vzory užívání anglických sloves

    Get PDF
    Cieľom tejto diplomovej práce je navrhnúť, implementovať a empiricky evaluovať klasifikátory pre rozpoznávanie sémantických patternov anglických slovies. Ako trénovacie a testovacie údaje používame konkordancie z pilotnej kolekcie 30 anglických slovies, ktorá bola spracovaná metódou Corpus Pattern Analysis. Modely klasifikátorov tvoríme pomocou algoritmov strojového učenia s učiteľom. Experimentujeme s rozhodovacími stromami, algoritmom k najbližších susedov (kNN), podpornými vektormi (SVM) a Adaboostom. V práci sa, okrem iného, zameriavame na návrh vhodnej množiny rysov pre strojové učenie (feature selection). Experimentujeme s množinami morfo-syntaktických i sémantických rysov. Naše výsledky ukazujú, že morfo-syntaktické rysy sú najdôležitejšie pre sémantickú desambiguáciu, hoci pre niektoré slovesá hrajú sémantické rysy dôležitú úlohu.The goal of the diploma thesis is to design, implement and evaluate classifiers for automatic classification of semantic patterns of English verbs according to a pattern lexicon that draws on the Corpus Pattern Analysis. We use a pilot collection of 30 sample English verbs as training and test data sets. We employ standard methods of machine learning. In our experiments we use decision trees, k-nearest neighbourghs (kNN), support vector machines (SVM) and Adaboost algorithms. Among other things we concentrate on feature design and selection. We experiment with both morpho-syntactic and semantic features. Our results show that the morpho-syntactic features are the most important for statistically-driven semantic disambiguation. Nevertheless, for some verbs the use of semantic features plays an important role.Institute of Formal and Applied LinguisticsÚstav formální a aplikované lingvistikyFaculty of Mathematics and PhysicsMatematicko-fyzikální fakult

    Can Corpus Pattern Analysis Be Used in NLP?

    No full text
    Corpus Pattern Analysis (CPA) [4], coined and implemented by Hanks as the Pattern Dictionary of English Verbs (PDEV) [3], appears to be the only deliberate and consistent implementation of Sinclair’s concept of Lexical Item [12]. In his theoretical inquiries [5] Hanks hypothesizes that the pattern repository produced by CPA can also support the word sense disambiguation task. Although more than 670 verb entries have already been compiled in PDEV, no systematic evaluation of this ambitious project has been reported yet. Assuming that the Sinclairian concept of the Lexical Item is correct, we started to closely examine PDEV with its possible NLP application in mind. Our experiments presented in this paper have been performed on a pilot sample of English verbs to provide a first reliable view on whether humans can agree in assigning PDEV patterns to verbs in a corpus. As a conclusion we suggest procedures for future development of PDEV
    corecore