35 research outputs found
Knowledge-lean approaches to metonymy
Current approaches to metonymy recognition are mainly supervised, relying heavily on
the manual annotation of training and test data. This forms a considerable hindrance
to their application on a wider scale. This dissertation therefore aims to relieve the
knowledge acquisition bottleneck with respect to metonymy recognition by examining
knowledge-lean approaches that reduce this need for human effort.
This investigation involves the study of three algorithms that constitute an entire spectrum
of machine learning approaches—unsupervised, supervised and semi-supervised
ones. Chapter 2 will discuss an unsupervised approach to metonymy recognition, and
will show that promising results can be reached when the data are automatically annotated
with grammatical information. Although the robustness of these systems is
limited, they can serve as a pre-processing step for the selection of useful training data,
thereby reducing the workload for human annotators.
Chapter 3 will investigate memory-based learning, a “lazy” supervised algorithm. This
algorithm, which relies on an extremely simple learning stage, is able to replicate the
results of more complex systems. Yet, it will also become clear that the performance
of this algorithm, like that of others in the literature, depends heavily on grammatical
annotation.
Finally, chapter 4 will present a semi-supervised algorithm that produces very promising
results with only ten labelled training instances. In addition, it will be shown that
less than half of the training data from chapter 3 can lead to the same performance as
the entire set. Semantic information in particular will prove very useful in this respect.
In short, this dissertation presents experimental results which indicate that the knowledge
acquisition bottleneck in metonymy recognition can be relieved with unsupervised
and semi-supervised methods. These approaches may make the extension of
current algorithms to a wide-scale metonymy resolution system a much more feasible
task
Example-based metonymy recognition for proper nouns
Metonymy recognition is generally approached with complex algorithms that rely heavily on the manual annotation of training and test data. This paper will relieve this complexity in two ways. First, it will show that the results of the current learning algorithms can be replicated by the ‘lazy ’ algorithm of Memory-Based Learning. This approach simply stores all training instances to its memory and classifies a test instance by comparing it to all training examples. Second, this paper will argue that the number of labelled training examples that is currently used in the literature can be reduced drastically. This finding can help relieve the knowledge acquisition bottleneck in metonymy recognition, and allow the algorithms to be applied on a wider scale.
Quantitative Approaches to Metonymy
Introduction Recent years have witnessed an upsurge of interest in metonymy. From cognitive to computational linguistics, researchers have finally realized that metonymy is ubiquitous in everyday language and that it constitutes an important focus of research. In cognitive linguistics, this has given rise to detailed studies of metonymy as a cognitive phenomenon (Kövecses and Radden, 1998; Peirsman and Geeraerts, forthc), while in computational linguistics, it has sparked interest in how computers coul
Crossing Corpora. Modelling Semantic Similarity across Languages and Lects
De toenemende populariteit van corpuslinguïstiek in het onderzoek van le xicale semantiek vraagt om een automatische methode voor de modellering van semantische gelijkenis. In dit proefschrift gaan wij te rade bij de computerlinguïstiek, en onderzoeken we in hoeverre de daarin ontwikkelde distributionele modellen of semantische ruimtes ons toelaten om semanti sche gelijkenis te identificeren tussen woorden uit verschillende taalva riëteiten en verschillende talen. In Hoofdstuk 2 introduceren we het paradigma van de distributionele sema ntiek. Deze benadering gaat ervan uit dat woorden die vaak voorkomen in dezelfde soort context ook een gelijkaardige betekenis hebben. We presen teren de verschillende types distributionele modellen -- woordgebaseerd, syntaxgebaseerd en documentgebaseerd -- en hun belangrijkste parameters , zoals de similariteitsmaat. We sluiten af met een overzicht van hun to epassingen in de computerlinguïstiek en cognitive science, net als hun a llereerste gebruik in de corpuslinguïstiek. Hoewel distributionele modellen vandaag in vele takken van de computerli nguïstiek onmisbaar zijn geworden, weten we relatief weinig over hun pre cieze semantische gedrag. In Hoofdstuk 3 onderzoeken we daarom wat voor semantische relaties de verschillende modellen identificeren en welke pa rameters daarbij hun succes bepalen. We focussen daarbij specifiek op he t onderscheid tussen algemene semantische gerelateerdheid, zoals we die vinden bij losse associaties van het type golf-zee, en taxonomische geli jkenis, zoals we die vinden bij synoniemen. Op basis van een uitgebreid aantal experimenten in verschillende talen concluderen we dat syntaxgeba seerde benaderingen het beste scoren op de modellering van semantische s imilariteit, terwijl documentgebaseerde methodes meer algemene gerelatee rdheid ontdekken. Woordgebaseerde modellen bevinden zich tussen deze twe e extremen: kleinere contexten zijn meer geschikt voor het modelleren va n taxonomische gelijkenis, grotere voor algemene gerelateerdheid. Omdat de rest van deze dissertatie zich toespitst op synonymie, werken we daar in vooral met syntaxgebaseerde modellen en woordgebaseerde modellen met een kleine context. In Hoofdstuk 4 tonen we hoe distributionele modellen ons kunnen helpen b ij de modellering van taalvariatie tussen verschillende taalvariëteiten of lecten. We demonstreren hoe het distributionele paradigma kan uitgebr eid worden naar situaties met twee corpora van dezelfde taal. Een eerste toepassing is de automatische identificatie van synoniemen in een ander e taalvariëteit of lect. Onze experimenten tonen dat bilectale distribut ionele modellen vaak in staat zijn om het Nederlands-Nederlandse synonie m te identificeren voor een Belgisch-Nederlands woord, of het Duits-Duit se synoniem voor een Oostenrijks-Duits woord. Een tweede toepassing is d e automatische identificatie van woorden die typisch zijn voor een speci fieke taalvariëteit. We bewijzen meer bepaald dat de identificatie van t ypisch Belgisch-Nederlandse woorden beter verloopt wanneer we zoeken naa r verschillen in contextuele distributie dan louter naar verschillen in frequentie. Het grote voordeel van de distributionele methode is dat ze ook rekening houdt met mogelijke verschillen in betekenis. In Hoofdstuk 5 breiden we onze aanpak uit naar corpora van verschillende talen. Hoewel distributionele modellen steeds vaker worden gebruikt voo r de automatische constructie van bilinguale lexicons, kampt deze toepas sing nog met een aantal problemen. Ten eerste is ze vaak afhankelijk van een initiële set vertalingen die ons moet toelaten om contextuele distr ibuties in verschillende talen te vergelijken. We vervangen die initiële set vertalingen door de woorden die gedeeld worden tussen de twee talen . Een bootstrapprocedure voegt vervolgens nieuwe vertalingen aan het bil inguale model toe, om zo tot betere vertalingen te komen. We tonen dat d eze methode goede resultaten bereikt voor woordvertalingen tussen Duits, Engels, Nederlands en Spaans. Ten tweede weten we weinig over de aanwez igheid van andere semantische relaties in de resulterende lexicons, en o ver hun mogelijke impact op cross-linguïstische toepassingen. Daarom cla ssificeren we onze kandidaat-vertalingen manueel in een groot aantal sem antische relaties. Naast cross-linguale synonymie vinden we een groot aa ntal niet-synonieme kandidaat-vertalingen die een taxonomische gelijkeni s of semantische gerelateerdheid met het oorspronkelijke woord vertonen. We evalueren de bijdrage van deze relaties in twee cross-linguïstische taken. Op de automatische identificatie van valse vrienden hebben ze een negatief effect, omdat zulke valse vrienden vaak in een andere semantis che relatie tot elkaar staan en daarom niet onderscheiden kunnen worden van cross-linguale synoniemen. Op de cross-linguïstische modellering van selectiepreferenties hebben niet-synonieme werkwoordsvertalingen eerder een positieve invloed, omdat ook zij relevante syntactische en semantis che informatie over het oorspronkelijke woord kunnen bevatten. Kortom, ons onderzoek toont hoe distributionele semantiek kan uitgebreid worden van één corpus naar twee corpora. Toegepast op corpora van versc hillende taalvariëteiten kunnen de nieuwe modellen corpus-gebaseerd onde rzoek naar taalvariatie ondersteunen; toegepast op corpora van verschill ende talen, scheppen zij nieuwe mogelijkheden voor de automatische opbou w van bilinguale lexicons en hun toepassing in cross-linguale technologi eën. Het grootste probleem van de onderzochte modellen is dat zij slecht s één betekenisrepresentatie per woord toelaten, en dus tekortschieten b ij de modellering van polyseme woorden. Samen met een uitbreiding van he t aantal onderzochte talen en taalvariëteiten vormt de aanpak van polyse mie het belangrijkste doel voor ons toekomstige onderzoek.status: publishe
Word Space Models of Semantic Similarity and Relatedness
Word Space Models provide a convenient way of modelling word meaning in terms of a word’s contexts in a corpus. This paper investigates the influence of the type of context features on the kind of semantic information that the models capture. In particular, we make a distinction between semantic similarity and semantic relatedness. It is shown that the strictness of the context definition correlates with the models’ ability to identify semantically similar words: syntactic approaches perform
better than bag-of-word models, and small context windows are better than larger ones. For semantic relatedness, however, syntactic features and small context windows
are at a clear disadvantage. Second-order bag-of-word models perform below average across the board.status: publishe
Word Space Models of Lexical Variation
In the recognition of words that are typical
of a specific language variety, the classic
keyword approach performs rather poorly.
We show how this keyword analysis can be
complemented with a word space model
constructed on the basis of two corpora:
one representative of the language variety
under investigation, and a reference corpus.
This combined approach is able to
recognize the markers of a language variety
as words that not only have a significantly
higher frequency as compared
to the reference corpus, but also a different
distribution. The application of word
space models moreover makes it possible
to automatically discover the lexical alternative
to a specific marker in the reference
corpus.status: publishe
Cross-lingual Induction of Selectional Preferences with Bilingual Vector Spaces
We describe a cross-lingual method for the induction of selectional preferences for resource-poor languages, where no accurate monolingual models are available. The method uses bilingual vector spaces to “translate” foreign language predicate-argument structures into a resource-rich language like English. The only prerequisite for constructing the bilingual vector space is a large unparsed corpus in the resource-poor language, although the model can profit from (even noisy) syntactic knowledge. Our experiments show that the cross-lingual predictions correlate well with human ratings, clearly outperforming monolingual baseline models.status: publishe
Ga 't Nederlans 8ruit? Direct taalgebruik
Schudden je ouders afkeurend het hoofd als je weer een nieuw woord meebrengt van de school of de jeugdbeweging? Chillen, bongen, of vozen, ze moeten eraan wennen. Ze zuchten waarschijnlijk: 'In mijn tijd spraken we toch wel anders.' Helemaal ongelijk hebben ze niet: het taalgebruik is heel wat veranderd. Maar volgende keer kun je je ouders geruststellen, want reden voor bezorgdheid is er nog niet.status: publishe