7 research outputs found
Who killed Lilly Kane? A case study in applying knowledge graphs to crime fiction
We present a preliminary study of a knowledge graph created from season one
of the television show Veronica Mars, which follows the eponymous young private
investigator as she attempts to solve the murder of her best friend Lilly Kane.
We discuss various techniques for mining the knowledge graph for clues and
potential suspects. We also discuss best practice for collaboratively
constructing knowledge graphs from television shows
Relation Extraction Datasets in the Digital Humanities Domain and their Evaluation with Word Embeddings
In this research, we manually create high-quality datasets in the digital
humanities domain for the evaluation of language models, specifically word
embedding models. The first step comprises the creation of unigram and n-gram
datasets for two fantasy novel book series for two task types each, analogy and
doesn't-match. This is followed by the training of models on the two book
series with various popular word embedding model types such as word2vec, GloVe,
fastText, or LexVec. Finally, we evaluate the suitability of word embedding
models for such specific relation extraction tasks in a situation of comparably
small corpus sizes. In the evaluations, we also investigate and analyze
particular aspects such as the impact of corpus term frequencies and task
difficulty on accuracy. The datasets, and the underlying system and word
embedding models are available on github and can be easily extended with new
datasets and tasks, be used to reproduce the presented results, or be
transferred to other domains
Visualizando redes de discursos culturales en la literatura electrónica latinoamericana
There are relatively few studies that explore the interdisciplinarity between electronic literature and digital humanities research methods. The present paper addresses this lack by combining close reading and distant reading methodologies to analyze networks of cultural discourses in a corpus of 30 Latin American e-lit works published from 1995 to 2020. To conduct the research, three network graphs were created using Gephi, an open-source software for the exploration and analysis of network visualizations. The graphs study the following relations between the e-lit works and the cultural discourses: the frequency of primary, secondary and tertiary discourses, the degree of multi-discourse, and the degree of cultural discourse co-occurrence. The results show the appearance of unexpected discourse variations and new co-occurrence patterns, the benefits of network graphs for revealing e-lit works’ families, and the potential use of data visualization techniques to study e-lit databases. Overall, the paper demonstrates the utility of digital humanities research methods to further examine electronic literature materials.Existen relativamente pocos estudios que exploren la interdisciplinariedad entre la literatura electrónica y los métodos de investigación en las humanidades digitales. El presente artículo aborda este vacío empleando metodologías de lectura distante, tales como grafos, para analizar redes de discursos culturales en un corpus de 30 textos de e-literatura latinoamericana publicados de 1995 a 2020. Para realizar la investigación, se crearon tres redes de grafos utilizando Gephi, un software de código abierto para la exploración y el análisis de visualizaciones de redes. Los grafos estudian las siguientes relaciones entre los textos de e-literatura y los discursos culturales: la frecuencia de discursos primarios, secundarios y terciarios, el grado de multi-discurso y el grado de coocurrencia. Los resultados exponen la aparición de variaciones discursivas y nuevos patrones de coocurrencia, los beneficios de las redes de grafos para revelar familias de textos de e-litetura y el potencial uso de técnicas de visualización de datos para estudiar bases de datos de e-literatura. En general, el artículo muestra la utilidad de métodos investigación provenientes de las humanidades digitales para examinar más a fondo materiales de literatura electrónica
Creation and Evaluation of Datasets for Distributional Semantics Tasks in the Digital Humanities Domain
Word embeddings are already well studied in the general domain, usually
trained on large text corpora, and have been evaluated for example on word
similarity and analogy tasks, but also as an input to downstream NLP processes.
In contrast, in this work we explore the suitability of word embedding
technologies in the specialized digital humanities domain. After training
embedding models of various types on two popular fantasy novel book series, we
evaluate their performance on two task types: term analogies, and word
intrusion. To this end, we manually construct test datasets with domain
experts. Among the contributions are the evaluation of various word embedding
techniques on the different task types, with the findings that even embeddings
trained on small corpora perform well for example on the word intrusion task.
Furthermore, we provide extensive and high-quality datasets in digital
humanities for further investigation, as well as the implementation to easily
reproduce or extend the experiments
Lectura y lectores en la Sociedad del Conocimiento: el bestseller canónico. El caso de Harry Potter
[ES]Uno de los productos más conocidos de la industria editorial es el denominado bestseller, esto
es, el libro que ha gozado de una buena recepción y ventas, alcanzando, en su mayoría, las listas
de los más vendidos. Documentada su existencia desde los comienzos de la imprenta,
representan un género en sí mismos y están presentes en los sitios preferentes de librerías,
plataformas virtuales y sitios web de las editoriales, constituyendo obras fácilmente
reconocibles por su estética y su extensión. Caracterizados por su facilidad de lectura, consumo
rápido y el empleo de fórmulas y estrategias narrativas que favorecen su comercialización, su
naturaleza está vinculada más con lo económico que con lo literario y han recibido escasa
atención académica, en su mayoría, de carácter crítico. Serían la contraposición al concepto de
canon, entendido como la literatura por excelencia. Sin embargo, la aparición de las tecnologías
de la información y las redes sociales ha suscitado la conformación de un nuevo tipo de
bestseller, caracterizado tanto por el consenso académico, antes reservado solo a las obras del
canon, y el consenso social, en el marco de un buen funcionamiento comercial. Es lo que hemos
denominado como Bestseller canónico. Por ello, esta tesis se plantea un nuevo modelo
estructural basado en la existencia de un conjunto de elementos dinamizadores de carácter
editorial, de un conjunto de publicaciones de referencia, de una serie de cuestiones
complementarias de representación de la obra, y de la articulación del autor como marca. El
estudio de caso se ha centrado en J.K. Rowling y en la serie de novelas que publica, centrándose
el estudio principalmente en la saga Harry Potter. Rowling representa un caso especial de autor
que ha experimentado con varios géneros, con desigual resultado en función de la impronta del
nombre en la publicación de las obras. Al mismo tiempo la saga de Harry Potter constituye un
ejemplo único de Bestseller canónico por cuanto reúne todas las características imputables al
modelo