35 research outputs found

    Knowledge-lean approaches to metonymy

    Get PDF
    Current approaches to metonymy recognition are mainly supervised, relying heavily on the manual annotation of training and test data. This forms a considerable hindrance to their application on a wider scale. This dissertation therefore aims to relieve the knowledge acquisition bottleneck with respect to metonymy recognition by examining knowledge-lean approaches that reduce this need for human effort. This investigation involves the study of three algorithms that constitute an entire spectrum of machine learning approaches—unsupervised, supervised and semi-supervised ones. Chapter 2 will discuss an unsupervised approach to metonymy recognition, and will show that promising results can be reached when the data are automatically annotated with grammatical information. Although the robustness of these systems is limited, they can serve as a pre-processing step for the selection of useful training data, thereby reducing the workload for human annotators. Chapter 3 will investigate memory-based learning, a “lazy” supervised algorithm. This algorithm, which relies on an extremely simple learning stage, is able to replicate the results of more complex systems. Yet, it will also become clear that the performance of this algorithm, like that of others in the literature, depends heavily on grammatical annotation. Finally, chapter 4 will present a semi-supervised algorithm that produces very promising results with only ten labelled training instances. In addition, it will be shown that less than half of the training data from chapter 3 can lead to the same performance as the entire set. Semantic information in particular will prove very useful in this respect. In short, this dissertation presents experimental results which indicate that the knowledge acquisition bottleneck in metonymy recognition can be relieved with unsupervised and semi-supervised methods. These approaches may make the extension of current algorithms to a wide-scale metonymy resolution system a much more feasible task

    Example-based metonymy recognition for proper nouns

    No full text
    Metonymy recognition is generally approached with complex algorithms that rely heavily on the manual annotation of training and test data. This paper will relieve this complexity in two ways. First, it will show that the results of the current learning algorithms can be replicated by the ‘lazy ’ algorithm of Memory-Based Learning. This approach simply stores all training instances to its memory and classifies a test instance by comparing it to all training examples. Second, this paper will argue that the number of labelled training examples that is currently used in the literature can be reduced drastically. This finding can help relieve the knowledge acquisition bottleneck in metonymy recognition, and allow the algorithms to be applied on a wider scale.

    Quantitative Approaches to Metonymy

    No full text
    Introduction Recent years have witnessed an upsurge of interest in metonymy. From cognitive to computational linguistics, researchers have finally realized that metonymy is ubiquitous in everyday language and that it constitutes an important focus of research. In cognitive linguistics, this has given rise to detailed studies of metonymy as a cognitive phenomenon (Kövecses and Radden, 1998; Peirsman and Geeraerts, forthc), while in computational linguistics, it has sparked interest in how computers coul

    Crossing Corpora. Modelling Semantic Similarity across Languages and Lects

    No full text
    De toenemende populariteit van corpuslinguïstiek in het onderzoek van le xicale semantiek vraagt om een automatische methode voor de modellering van semantische gelijkenis. In dit proefschrift gaan wij te rade bij de computerlinguïstiek, en onderzoeken we in hoeverre de daarin ontwikkelde distributionele modellen of semantische ruimtes ons toelaten om semanti sche gelijkenis te identificeren tussen woorden uit verschillende taalva riëteiten en verschillende talen. In Hoofdstuk 2 introduceren we het paradigma van de distributionele sema ntiek. Deze benadering gaat ervan uit dat woorden die vaak voorkomen in dezelfde soort context ook een gelijkaardige betekenis hebben. We presen teren de verschillende types distributionele modellen -- woordgebaseerd, syntaxgebaseerd en documentgebaseerd -- en hun belangrijkste parameters , zoals de similariteitsmaat. We sluiten af met een overzicht van hun to epassingen in de computerlinguïstiek en cognitive science, net als hun a llereerste gebruik in de corpuslinguïstiek. Hoewel distributionele modellen vandaag in vele takken van de computerli nguïstiek onmisbaar zijn geworden, weten we relatief weinig over hun pre cieze semantische gedrag. In Hoofdstuk 3 onderzoeken we daarom wat voor semantische relaties de verschillende modellen identificeren en welke pa rameters daarbij hun succes bepalen. We focussen daarbij specifiek op he t onderscheid tussen algemene semantische gerelateerdheid, zoals we die vinden bij losse associaties van het type golf-zee, en taxonomische geli jkenis, zoals we die vinden bij synoniemen. Op basis van een uitgebreid aantal experimenten in verschillende talen concluderen we dat syntaxgeba seerde benaderingen het beste scoren op de modellering van semantische s imilariteit, terwijl documentgebaseerde methodes meer algemene gerelatee rdheid ontdekken. Woordgebaseerde modellen bevinden zich tussen deze twe e extremen: kleinere contexten zijn meer geschikt voor het modelleren va n taxonomische gelijkenis, grotere voor algemene gerelateerdheid. Omdat de rest van deze dissertatie zich toespitst op synonymie, werken we daar in vooral met syntaxgebaseerde modellen en woordgebaseerde modellen met een kleine context. In Hoofdstuk 4 tonen we hoe distributionele modellen ons kunnen helpen b ij de modellering van taalvariatie tussen verschillende taalvariëteiten of lecten. We demonstreren hoe het distributionele paradigma kan uitgebr eid worden naar situaties met twee corpora van dezelfde taal. Een eerste toepassing is de automatische identificatie van synoniemen in een ander e taalvariëteit of lect. Onze experimenten tonen dat bilectale distribut ionele modellen vaak in staat zijn om het Nederlands-Nederlandse synonie m te identificeren voor een Belgisch-Nederlands woord, of het Duits-Duit se synoniem voor een Oostenrijks-Duits woord. Een tweede toepassing is d e automatische identificatie van woorden die typisch zijn voor een speci fieke taalvariëteit. We bewijzen meer bepaald dat de identificatie van t ypisch Belgisch-Nederlandse woorden beter verloopt wanneer we zoeken naa r verschillen in contextuele distributie dan louter naar verschillen in frequentie. Het grote voordeel van de distributionele methode is dat ze ook rekening houdt met mogelijke verschillen in betekenis. In Hoofdstuk 5 breiden we onze aanpak uit naar corpora van verschillende talen. Hoewel distributionele modellen steeds vaker worden gebruikt voo r de automatische constructie van bilinguale lexicons, kampt deze toepas sing nog met een aantal problemen. Ten eerste is ze vaak afhankelijk van een initiële set vertalingen die ons moet toelaten om contextuele distr ibuties in verschillende talen te vergelijken. We vervangen die initiële set vertalingen door de woorden die gedeeld worden tussen de twee talen . Een bootstrapprocedure voegt vervolgens nieuwe vertalingen aan het bil inguale model toe, om zo tot betere vertalingen te komen. We tonen dat d eze methode goede resultaten bereikt voor woordvertalingen tussen Duits, Engels, Nederlands en Spaans. Ten tweede weten we weinig over de aanwez igheid van andere semantische relaties in de resulterende lexicons, en o ver hun mogelijke impact op cross-linguïstische toepassingen. Daarom cla ssificeren we onze kandidaat-vertalingen manueel in een groot aantal sem antische relaties. Naast cross-linguale synonymie vinden we een groot aa ntal niet-synonieme kandidaat-vertalingen die een taxonomische gelijkeni s of semantische gerelateerdheid met het oorspronkelijke woord vertonen. We evalueren de bijdrage van deze relaties in twee cross-linguïstische taken. Op de automatische identificatie van valse vrienden hebben ze een negatief effect, omdat zulke valse vrienden vaak in een andere semantis che relatie tot elkaar staan en daarom niet onderscheiden kunnen worden van cross-linguale synoniemen. Op de cross-linguïstische modellering van selectiepreferenties hebben niet-synonieme werkwoordsvertalingen eerder een positieve invloed, omdat ook zij relevante syntactische en semantis che informatie over het oorspronkelijke woord kunnen bevatten. Kortom, ons onderzoek toont hoe distributionele semantiek kan uitgebreid worden van één corpus naar twee corpora. Toegepast op corpora van versc hillende taalvariëteiten kunnen de nieuwe modellen corpus-gebaseerd onde rzoek naar taalvariatie ondersteunen; toegepast op corpora van verschill ende talen, scheppen zij nieuwe mogelijkheden voor de automatische opbou w van bilinguale lexicons en hun toepassing in cross-linguale technologi eën. Het grootste probleem van de onderzochte modellen is dat zij slecht s één betekenisrepresentatie per woord toelaten, en dus tekortschieten b ij de modellering van polyseme woorden. Samen met een uitbreiding van he t aantal onderzochte talen en taalvariëteiten vormt de aanpak van polyse mie het belangrijkste doel voor ons toekomstige onderzoek.status: publishe

    Word Space Models of Semantic Similarity and Relatedness

    No full text
    Word Space Models provide a convenient way of modelling word meaning in terms of a word’s contexts in a corpus. This paper investigates the influence of the type of context features on the kind of semantic information that the models capture. In particular, we make a distinction between semantic similarity and semantic relatedness. It is shown that the strictness of the context definition correlates with the models’ ability to identify semantically similar words: syntactic approaches perform better than bag-of-word models, and small context windows are better than larger ones. For semantic relatedness, however, syntactic features and small context windows are at a clear disadvantage. Second-order bag-of-word models perform below average across the board.status: publishe

    Word Space Models of Lexical Variation

    No full text
    In the recognition of words that are typical of a specific language variety, the classic keyword approach performs rather poorly. We show how this keyword analysis can be complemented with a word space model constructed on the basis of two corpora: one representative of the language variety under investigation, and a reference corpus. This combined approach is able to recognize the markers of a language variety as words that not only have a significantly higher frequency as compared to the reference corpus, but also a different distribution. The application of word space models moreover makes it possible to automatically discover the lexical alternative to a specific marker in the reference corpus.status: publishe

    Cross-lingual Induction of Selectional Preferences with Bilingual Vector Spaces

    No full text
    We describe a cross-lingual method for the induction of selectional preferences for resource-poor languages, where no accurate monolingual models are available. The method uses bilingual vector spaces to “translate” foreign language predicate-argument structures into a resource-rich language like English. The only prerequisite for constructing the bilingual vector space is a large unparsed corpus in the resource-poor language, although the model can profit from (even noisy) syntactic knowledge. Our experiments show that the cross-lingual predictions correlate well with human ratings, clearly outperforming monolingual baseline models.status: publishe

    Ga 't Nederlans 8ruit? Direct taalgebruik

    No full text
    Schudden je ouders afkeurend het hoofd als je weer een nieuw woord meebrengt van de school of de jeugdbeweging? Chillen, bongen, of vozen, ze moeten eraan wennen. Ze zuchten waarschijnlijk: 'In mijn tijd spraken we toch wel anders.' Helemaal ongelijk hebben ze niet: het taalgebruik is heel wat veranderd. Maar volgende keer kun je je ouders geruststellen, want reden voor bezorgdheid is er nog niet.status: publishe
    corecore