Aiming beyond the Obvious:: Identifying Non-Obvious Cases in Semantic Similarity Datasets

Liakata, Maria; Natural Language Processing; Nguyen, Dong; Peinelt, Nicole; Sub Natural Language Processing

Aiming beyond the Obvious:: Identifying Non-Obvious Cases in Semantic Similarity Datasets

Authors: Maria Liakata
Natural Language Processing
Dong Nguyen
Nicole Peinelt
Sub Natural Language Processing
Publication date: 28 July 2019
Publisher: 'Association for Computational Linguistics (ACL)'
Doi

Abstract

Existing datasets for scoring text pairs in terms of semantic similarity contain instances whose resolution differs according to the degree of difficulty. This paper proposes to distinguish obvious from non-obvious text pairs based on superficial lexical overlap and ground-truth labels. We characterise existing datasets in terms of containing difficult cases and find that recently proposed models struggle to capture the non-obvious cases of semantic similarity. We describe metrics that emphasise cases of similarity which require more complex inference and propose that these are used for evaluating systems for semantic similarity

Similar works

Full text

Available Versions

NARCIS

Last time updated on 29/05/2021