3 research outputs found

    Factoid question answering for spoken documents

    Get PDF
    In this dissertation, we present a factoid question answering system, specifically tailored for Question Answering (QA) on spoken documents. This work explores, for the first time, which techniques can be robustly adapted from the usual QA on written documents to the more difficult spoken documents scenario. More specifically, we study new information retrieval (IR) techniques designed for speech, and utilize several levels of linguistic information for the speech-based QA task. These include named-entity detection with phonetic information, syntactic parsing applied to speech transcripts, and the use of coreference resolution. Our approach is largely based on supervised machine learning techniques, with special focus on the answer extraction step, and makes little use of handcrafted knowledge. Consequently, it should be easily adaptable to other domains and languages. In the work resulting of this Thesis, we have impulsed and coordinated the creation of an evaluation framework for the task of QA on spoken documents. The framework, named QAst, provides multi-lingual corpora, evaluation questions, and answers key. These corpora have been used in the QAst evaluation that was held in the CLEF workshop for the years 2007, 2008 and 2009, thus helping the developing of state-of-the-art techniques for this particular topic. The presentend QA system and all its modules are extensively evaluated on the European Parliament Plenary Sessions English corpus composed of manual transcripts and automatic transcripts obtained by three different Automatic Speech Recognition (ASR) systems that exhibit significantly different word error rates. This data belongs to the CLEF 2009 track for QA on speech transcripts. The main results confirm that syntactic information is very useful for learning to rank question candidates, improving results on both manual and automatic transcripts unless the ASR quality is very low. Overall, the performance of our system is comparable or better than the state-of-the-art on this corpus, confirming the validity of our approach.En aquesta Tesi, presentem un sistema de Question Answering (QA) factual, especialment ajustat per treballar amb documents orals. En el desenvolupament explorem, per primera vegada, quines t猫cniques de les habitualment emprades en QA per documents escrit s贸n suficientment robustes per funcionar en l'escenari m茅s dif铆cil de documents orals. Amb m茅s especificitat, estudiem nous m猫todes de Information Retrieval (IR) dissenyats per tractar amb la veu, i utilitzem diversos nivells d'informaci贸 linq眉铆stica. Entre aquests s'inclouen, a saber: detecci贸 de Named Entities utilitzant informaci贸 fon猫tica, "parsing" sint脿ctic aplicat a transcripcions de veu, i tamb茅 l'煤s d'un sub-sistema de detecci贸 i resoluci贸 de la correfer猫ncia. La nostra aproximaci贸 al problema es recolza en gran part en t猫cniques supervisades de Machine Learning, estant aquestes enfocades especialment cap a la part d'extracci贸 de la resposta, i fa servir la menor quantitat possible de coneixement creat per humans. En conseq眉猫ncia, tot el proc茅s de QA pot ser adaptat a altres dominis o altres lleng眉es amb relativa facilitat. Un dels resultats addicionals de la feina darrere d'aquesta Tesis ha estat que hem impulsat i coordinat la creaci贸 d'un marc d'avaluaci贸 de la taska de QA en documents orals. Aquest marc de treball, anomenat QAst (Question Answering on Speech Transcripts), proporciona un corpus de documents orals multi-ling眉e, uns conjunts de preguntes d'avaluaci贸, i les respostes correctes d'aquestes. Aquestes dades han estat utilitzades en les evaluacionis QAst que han tingut lloc en el si de les confer猫ncies CLEF en els anys 2007, 2008 i 2009; d'aquesta manera s'ha promogut i ajudat a la creaci贸 d'un estat-de-l'art de t猫cniques adre莽ades a aquest problema en particular. El sistema de QA que presentem i tots els seus particulars sumb貌duls, han estat avaluats extensivament utilitzant el corpus EPPS (transcripcions de les Sessions Plenaries del Parlament Europeu) en angl猫s, que c贸nt茅 transcripcions manuals de tots els discursos i tamb茅 transcripcions autom脿tiques obtingudes mitjan莽ant tres reconeixedors autom脿tics de la parla (ASR) diferents. Els reconeixedors tenen caracter铆stiques i resultats diferents que permetes una avaluaci贸 quantitativa i qualitativa de la tasca. Aquestes dades pertanyen a l'avaluaci贸 QAst del 2009. Els resultats principals de la nostra feina confirmen que la informaci贸 sint脿ctica 茅s mol 煤til per aprendre autom脿ticament a valorar la plausibilitat de les respostes candidates, millorant els resultats previs tan en transcripcions manuals com transcripcions autom脿tiques, descomptat que la qualitat de l'ASR sigui molt baixa. En general, el rendiment del nostre sistema 茅s comparable o millor que els altres sistemes pertanyents a l'estat-del'art, confirmant aix铆 la validesa de la nostra aproximaci贸

    Bootstrapping named entity resources for adaptive question answering systems

    Get PDF
    Los Sistemas de B煤squeda de Respuestas (SBR) ampl铆an las capacidades de un buscador de informaci贸n tradicional con la capacidad de encontrar respuestas precisas a las preguntas del usuario. El objetivo principal es facilitar el acceso a la informaci贸n y disminuir el tiempo y el esfuerzo que el usuario debe emplear para encontrar una informaci贸n concreta en una lista de documentos relevantes. En esta investigaci贸n se han abordado dos trabajos relacionados con los SBR. La primera parte presenta una arquitectura para SBR en castellano basada en la combinaci贸n y adaptaci贸n de diferentes t茅cnicas de Recuperaci贸n y de Extracci贸n de Informaci贸n. Esta arquitectura est谩 integrada por tres m贸dulos principales que incluyen el an谩lisis de la pregunta, la recuperaci贸n de pasajes relevantes y la extracci贸n y selecci贸n de respuestas. En ella se ha prestado especial atenci贸n al tratamiento de las Entidades Nombradas puesto que, con frecuencia, son el tema de las preguntas o son buenas candidatas como respuestas. La propuesta se ha encarnado en el SBR del grupo MIRACLE que ha sido evaluado de forma independiente durante varias ediciones en la tarea compartida CLEF@QA, parte del foro de evaluaci贸n competitiva Cross-Language Evaluation Forum (CLEF). Se describen aqu铆 las participaciones y los resultados obtenidos entre 2004 y 2007. El SBR de MIRACLE ha obtenido resultados moderados en el desempe帽o de la tarea con tasas de respuestas correctas entre el 20% y el 30%. Entre los resultados obtenidos destacan los de la tarea principal de 2005 y la tarea piloto de B煤squeda de Respuestas en tiempo real de 2006, RealTimeQA. Esta 煤ltima tarea, adem谩s de requerir respuestas correctas inclu铆a el tiempo de respuesta como un factor adicional en la evaluaci贸n. Estos resultados respaldan la validez de la arquitectura propuesta como una alternativa viable para los SBR sobre colecciones textuales y tambi茅n corrobora resultados similares para el ingl茅s y otras lenguas. Por otro lado, el an谩lisis de los resultados a lo largo de las diferentes ediciones de CLEF as铆 como la comparaci贸n con otros SBR apunta nuevos problemas y retos. Seg煤n nuestra experiencia, los sistemas de QA son m谩s complicados de adaptar a otros dominios y lenguas que los sistemas de Recuperaci贸n de Informaci贸n. Este problema viene heredado del uso de herramientas complejas de an谩lisis de lenguaje como analizadores morfol贸gicos, sint谩cticos y sem谩nticos. Entre estos 煤ltimos se cuentan las herramientas para el Reconocimiento y Clasificaci贸n de Entidades Nombradas (NERC en ingl茅s) as铆 como para la Detecci贸n y Clasificaci贸n de Relaciones (RDC en ingl茅s). Debido a la di cultad de adaptaci贸n del SBR a distintos dominios y colecciones, en la segunda parte de esta tesis se investiga una propuesta diferente basada en la adquisici贸n de conocimiento mediante m茅todos de aprendizaje ligeramente supervisado. El objetivo de esta investigaci贸n es adquirir recursos sem谩nticos 煤tiles para las tareas de NERC y RDC usando colecciones de textos no anotados. Adem谩s, se trata de eliminar la dependencia de herramientas de an谩lisis ling眉铆stico con el fin de facilitar que las t茅cnicas sean portables a diferentes dominios e idiomas. En primer lugar, se ha realizado un estudio de diferentes algoritmos para NERC y RDC de forma semisupervisada a partir de unos pocos ejemplos (bootstrapping). Este trabajo propone primero una arquitectura com煤n y compara diferentes funciones que se han usado en la evaluaci贸n y selecci贸n de resultados intermedios, tanto instancias como patrones. La principal propuesta es un nuevo algoritmo que permite la adquisici贸n simult谩nea e iterativa de instancias y patrones asociados a una relaci贸n. Incluye tambi茅n la posibilidad de adquirir varias relaciones de forma simult谩nea y mediante el uso de la hip贸tesis de exclusividad obtener mejores resultados. Como caracter铆stica distintiva el algoritmo explora la colecci贸n de textos con una estrategia basada en indizaci贸n, que permite adquirir conocimiento de grandes colecciones. La estrategia de selecci贸n de candidatos y la evaluaci贸n se basan en la construcci贸n de un grafo de instancias y patrones, que justifica nuestro m茅todo para la selecci贸n de candidatos. Este procedimiento es semejante al frente de exploraci贸n de una ara帽a web y permite encontrar las instancias m谩s parecidas a las semillas con las evidencias disponibles. Este algoritmo se ha implementado en el sistema SPINDEL y para su evaluaci贸n se ha comenzado con el caso concreto de la adquisici贸n de recursos para las clases de Entidades Nombradas m谩s comunes, Persona, Lugar y Organizaci贸n. El objetivo es adquirir nombres asociados a cada una de las categor铆as as铆 como patrones contextuales que permitan detectar menciones asociadas a una clase. Se presentan resultados para la adquisici贸n de dos idiomas distintos, castellano e ingl茅s, y para el castellano, en dos dominios diferentes, noticias y textos de una enciclopedia colaborativa, Wikipedia. En ambos casos el uso de herramientas de an谩lisis ling眉铆stico se ha limitado de acuerdo con el objetivo de avanzar hacia la independencia de idioma. Las listas adquiridas mediante bootstrapping parten de menos de 40 semillas por clase y obtienen del orden de 30.000 instancias de calidad variable. Adem谩s se obtienen listas de patrones indicativos asociados a cada clase de entidad. La evaluaci贸n indirecta confirma la utilidad de ambos recursos en la clasificaci贸n de Entidades Nombradas usando un enfoque simple basado 煤nicamente en diccionarios. La mejor configuraci贸n obtiene para la clasificaci贸n en castellano una medida F de 67,17 y para ingl茅s de 55,99. Adem谩s se confirma la utilidad de los patrones adquiridos que en ambos casos ayudan a mejorar la cobertura. El m贸dulo requiere menor esfuerzo de desarrollo que los enfoques supervisados, si incluimos la necesidad de anotaci贸n, aunque su rendimiento es inferior por el momento. En definitiva, esta investigaci贸n constituye un primer paso hacia el desarrollo de aplicaciones sem谩nticas como los SBR que requieran menos esfuerzo de adaptaci贸n a un dominio o lenguaje nuevo.-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Question Answering (QA) systems add new capabilities to traditional search engines with the ability to find precise answers to user questions. Their objective is to enable easier information access by reducing the time and effort that the user requires to find a concrete information among a list of relevant documents. In this thesis we have carried out two works related with QA systems. The first part introduces an architecture for QA systems for Spanish which is based on the combination and adaptation of different techniques from Information Retrieval (IR) and Information Extraction (IE). This architecture is composed by three modules that include question analysis, relevant passage retrieval and answer extraction and selection. The appropriate processing of Named Entities (NE) has received special attention because of their importance as question themes and candidate answers. The proposed architecture has been implemented as part of the MIRACLE QA system. This system has taken part in independent evaluations like the CLEF@QA track in the Cross-Language Evaluation Forum (CLEF). Results from 2004 to 2007 campaigns as well as the details and the evolution of the system have been described in deep. The MIRACLE QA system has obtained moderate performance with a first answer accuracy ranging between 20% and 30%. Nevertheless, it is important to highlight the results obtained in the 2005 main QA task and the RealTimeQA pilot task in 2006. The last one included response time as an important additional variable of the evaluation. These results back the proposed architecture as an option for QA from textual collection and confirm similar findings obtained for English and other languages. On the other hand, the analysis of the results along evaluation campaigns and the comparison with other QA systems point problems with current systems and new challenges. According to our experience, it is more dificult to tailor QA systems to different domains and languages than IR systems. The problem is inherited by the use of complex language analysis tools like POS taggers, parsers and other semantic analyzers, like NE Recognition and Classification (NERC) and Relation Detection and Characterization (RDC) tools. The second part of this thesis tackles this problem and proposes a different approach to adapting QA systems for di erent languages and collections. The proposal focuses on acquiring knowledge for the semantic analyzers based on lightly supervised approaches. The goal is to obtain useful resources that help to perform NERC or RDC using as few annotated resources as possible. Besides, we try to avoid dependencies from other language analysis tools with the purpose that these methods apply to different languages and domains. First of all, we have study previous work on building NERC and RDC modules with few supervision, particularly bootstrapping methods. We propose a common framework for different bootstrapping systems that help to unify different evaluation functions for intermediate results. The main proposal is a new algorithm that is able to simultaneously acquire instances and patterns associated to a relation of interest. It also uses mutual exclusion among relations to reduce concept drift and achieve better results. A distinctive characteristic is that it uses a query based exploration strategy of the text collection which enables their use for larger collections. Candidate selection and evaluation are based on incrementally building a graph of instances and patterns which also justifies our evaluation function. The discovery approach is analogous to the front of exploration in a web crawler and it is able to find the most similar instances to the available seeds. This algorithm has been implemented in the SPINDEL system. We have selected for evaluation the task of acquiring resources for the most common NE classes, Person, Location and Organization. The objective is to acquire name instances that belong to any of the classes as well as contextual patterns that help to detect mentions of NE that belong to that class. We present results for the acquisition of resources from raw text from two different languages, Spanish and English. We also performed experiments for Spanish in two different collections, news and texts from a collaborative encyclopedia, Wikipedia. Both cases are tackled with limited language analysis tools and resources. With an initial list of 40 instance seeds, the bootstrapping process is able to acquire large name lists containing up to 30.000 instances with a variable quality. Besides, large lists of indicative patterns are obtained too. Our indirect evaluation confirms the utility of both resources to classify NE using a simple dictionary recognition approach. Best results for Spanish obtained a F-score of 67,17 and for English this value is 55,99. The module requires much less development effort than annotation for supervised algorithms although the performance is not in pair yet. This research is a first step towards the development of semantic applications like QA for a new language or domain with no annotated corpora that requires less adaptation effort
    corecore