Automatically assembling a custom-built training corpus for improving the learning of in-domain word/document embeddings

Blanco Fernández, Yolanda; Gil Solla, Alberto; Pazos Arias, José Juan; Quisi Peralta, Diego

Automatically assembling a custom-built training corpus for improving the learning of in-domain word/document embeddings

Authors: Yolanda Blanco Fernández
Alberto Gil Solla
José Juan Pazos Arias
Diego Quisi Peralta
Publication date: 25 January 2025
Publisher: Grupo de Servicios para la Sociedad de la Información
Doi

Abstract

Embedding models turn words/documents into real-number vectors via co-occurrence data from unrelated texts. Crafting domain-specific embeddings from general corpora with limited domain vocabulary is challenging. Existing solutions retrain models on small domain datasets, overlooking potential of gathering rich in-domain texts. We exploit Named Entity Recognition and Doc2Vec for autonomous in-domain corpus creation. Our experiments compare models from general and in-domain corpora, highlighting that domain-specific training attains the best outcome

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Investigo

oai:www.investigo.biblioteca.u...

Last time updated on 09/02/2025