2 research outputs found

    Automatic reconstruction of itineraries from descriptive texts

    Get PDF
    Esta tesis se inscribe dentro del marco del proyecto PERDIDO donde los objetivos son la extracci贸n y reconstrucci贸n de itinerarios a partir de documentos textuales. Este trabajo se ha realizado en colaboraci贸n entre el laboratorio LIUPPA de l' Universit茅 de Pau et des Pays de l' Adour (France), el grupo de Sistemas de Informaci贸n Avanzados (IAAA) de la Universidad de Zaragoza y el laboratorio COGIT de l' IGN (France). El objetivo de esta tesis es concebir un sistema autom谩tico que permita extraer, a partir de gu铆as de viaje o descripciones de itinerarios, los desplazamientos, adem谩s de representarlos sobre un mapa. Se propone una aproximaci贸n para la representaci贸n autom谩tica de itinerarios descritos en lenguaje natural. Nuestra propuesta se divide en dos tareas principales. La primera pretende identificar y extraer de los textos describiendo itinerarios informaci贸n como entidades espaciales y expresiones de desplazamiento o percepci贸n. El objetivo de la segunda tarea es la reconstrucci贸n del itinerario. Nuestra propuesta combina informaci贸n local extra铆da gracias al procesamiento del lenguaje natural con datos extra铆dos de fuentes geogr谩ficas externas (por ejemplo, gazetteers). La etapa de anotaci贸n de informaciones espaciales se realiza mediante una aproximaci贸n que combina el etiquetado morfo-sint谩ctico y los patrones l茅xico-sint谩cticos (cascada de transductores) con el fin de anotar entidades nombradas espaciales y expresiones de desplazamiento y percepci贸n. Una primera contribuci贸n a la primera tarea es la desambiguaci贸n de top贸nimos, que es un problema todav铆a mal resuelto dentro del reconocimiento de entidades nombradas (Named Entity Recognition - NER) y esencial en la recuperaci贸n de informaci贸n geogr谩fica. Se plantea un algoritmo no supervisado de georreferenciaci贸n basado en una t茅cnica de clustering capaz de proponer una soluci贸n para desambiguar los top贸nimos los top贸nimos encontrados en recursos geogr谩ficos externos, y al mismo tiempo, la localizaci贸n de top贸nimos no referenciados. Se propone un modelo de grafo gen茅rico para la reconstrucci贸n autom谩tica de itinerarios, donde cada nodo representa un lugar y cada arista representa un camino enlazando dos lugares. La originalidad de nuestro modelo es que adem谩s de tener en cuenta los elementos habituales (caminos y puntos del recorrido), permite representar otros elementos involucrados en la descripci贸n de un itinerario, como por ejemplo los puntos de referencia visual. Se calcula de un 谩rbol de recubrimiento m铆nimo a partir de un grafo ponderado para obtener autom谩ticamente un itinerario bajo la forma de un grafo. Cada arista del grafo inicial se pondera mediante un m茅todo de an谩lisis multicriterio que combina criterios cualitativos y cuantitativos. El valor de estos criterios se determina a partir de informaciones extra铆das del texto e informaciones provenientes de recursos geogr谩ficos externos. Por ejemplo, se combinan las informaciones generadas por el procesamiento del lenguaje natural como las relaciones espaciales describiendo una orientaci贸n (ej: dirigirse hacia el sur) con las coordenadas geogr谩ficas de lugares encontrados dentro de los recursos para determinar el valor del criterio ``relaci贸n espacial''. Adem谩s, a partir de la definici贸n del concepto de itinerario y de las informaciones utilizadas en la lengua para describir un itinerario, se ha modelado un lenguaje de anotaci贸n de informaci贸n espacial adaptado a la descripci贸n de desplazamientos, apoy谩ndonos en las recomendaciones del consorcio TEI (Text Encoding and Interchange). Finalmente, se ha implementado y evaluado las diferentes etapas de nuestra aproximaci贸n sobre un corpus multiling眉e de descripciones de senderos y excursiones (franc茅s, espa帽ol, italiano)

    Ranking Georeferences for Efficient Crowdsourcing of Toponym Annotations in a Historical Corpus of Alpine Texts

    Get PDF
    This paper presents a simple method to rank georeference candidates to optimally support the workflow of a citizen science web application for toponym annotation in historical texts. We implement the general idea of efficient crowdsourcing based on human and artificial intelligence working hand in hand. For named entity recognition, we apply recent neural pretraining-based NER tagger methods. For named entity linking to geographical knowledge bases, we report on georeference ranking experiments testing the hypothesis that textual proximity indicates geographic proximity. Simulation results with online reranking that immediately integrates user verification show further improvements
    corecore