22 research outputs found
Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey
The emergence of natural language processing has revolutionized the way users
interact with tabular data, enabling a shift from traditional query languages
and manual plotting to more intuitive, language-based interfaces. The rise of
large language models (LLMs) such as ChatGPT and its successors has further
advanced this field, opening new avenues for natural language processing
techniques. This survey presents a comprehensive overview of natural language
interfaces for tabular data querying and visualization, which allow users to
interact with data using natural language queries. We introduce the fundamental
concepts and techniques underlying these interfaces with a particular emphasis
on semantic parsing, the key technology facilitating the translation from
natural language to SQL queries or data visualization commands. We then delve
into the recent advancements in Text-to-SQL and Text-to-Vis problems from the
perspectives of datasets, methodologies, metrics, and system designs. This
includes a deep dive into the influence of LLMs, highlighting their strengths,
limitations, and potential for future improvements. Through this survey, we aim
to provide a roadmap for researchers and practitioners interested in developing
and applying natural language interfaces for data interaction in the era of
large language models.Comment: 20 pages, 4 figures, 5 tables. Submitted to IEEE TKD
Semantic Keyword-based Search on Heterogeneous Information Systems
En los 煤ltimos a帽os, con la difusi贸n y el uso de Internet, el volumen de informaci贸n disponible para los usuarios ha crecido exponencialmente. Adem谩s, la posibilidad de acceder a dicha informaci贸n se ha visto impulsada por los niveles de conectividad de los que disfrutamos actualmente gracias al uso de los m贸viles de nueva generaci贸n y las redes inal谩mbricas (e.g., 3G, Wi-Fi). Sin embargo, con los m茅todos de acceso actuales, este exceso de informaci贸n es tan perjudicial como la falta de la misma, ya que el usuario no tiene tiempo de procesarla en su totalidad. Por otro lado, esta informaci贸n est谩 detr谩s de sistemas de informaci贸n de naturaleza muy heterog茅nea (e.g., buscadores Web, fuentes de Linked Data, etc.), y el usuario tiene que conocerlos para poder explotar al m谩ximo sus capacidades. Esta diversidad se hace m谩s patente si consideramos cualquier servicio de informaci贸n como potencial fuente de informaci贸n para el usuario (e.g., servicios basados en la localizaci贸n, bases de datos exportadas mediante Servicios Web, etc.). Dado este nivel de heterogeneidad, la integraci贸n de estos sistemas se debe hacer externamente, ocultando su complejidad al usuario y dot谩ndole de mecanismos para que pueda expresar sus consultas de forma sencilla. En este sentido, el uso de interfaces basados en palabras clave (keywords) se ha popularizado gracias a su sencillez y a su adopci贸n por parte de los buscadores Web m谩s usados. Sin embargo, esa sencillez que es su mayor virtud tambi茅n es su mayor defecto, ya que genera problemas de ambig眉edad en las consultas. Las consultas expresadas como conjuntos de palabras clave son inherentemente ambiguas al ser una proyecci贸n de la verdadera pregunta que el usuario quiere hacer. En la presente tesis, abordamos el problema de integrar sistemas de informaci贸n heterog茅neos bajo una b煤squeda guiada por la sem谩ntica de las palabras clave; y presentamos QueryGen, un prototipo de nuestra soluci贸n. En esta b煤squeda sem谩ntica abogamos por establecer la consulta que el usuario ten铆a en mente cuando escribi贸 sus palabras clave, en un lenguaje de consulta formal para evitar posibles ambig眉edades. La integraci贸n de los sistemas subyacentes se realiza a trav茅s de la definici贸n de sus lenguajes de consulta y de sus modelos de ejecuci贸n. En particular, nuestro sistema: - Descubre el significado de las palabras clave consultando un conjunto din谩mico de ontolog铆as, y desambigua dichas palabras teniendo en cuenta su contexto (el resto de palabras clave), ya que cada una de las palabras tiene influencia sobre el significado del resto de la entrada. Durante este proceso, los significados que son suficientemente similares son fusionados y el sistema propone aquellos m谩s probables dada la entrada del usuario. La informaci贸n sem谩ntica obtenida en el proceso es integrada y utilizada en fases posteriores para obtener la correcta interpretaci贸n del conjunto de palabras clave. - Un mismo conjunto de palabras pueden representar diversas consultas a煤n cuando se conoce su significado individual. Por ello, una vez establecidos los significados de cada palabra y para obtener la consulta exacta del usuario, nuestro sistema encuentra todas las preguntas posibles utilizando las palabras clave. Esta traducci贸n de palabras clave a preguntas se realiza empleando lenguajes de consulta formales para evitar las posibles ambig眉edades y expresar la consulta de manera precisa. Nuestro sistema evita la generaci贸n de preguntas sem谩nticamente incorrectas o duplicadas con la ayuda de un razonador basado en L贸gicas Descriptivas (Description Logics). En este proceso, nuestro sistema es capaz de reaccionar ante entradas insuficientes (e.g., palabras omitidas) mediante la adici贸n de t茅rminos virtuales, que representan internamente palabras que el usuario ten铆a en mente pero omiti贸 cuando escribi贸 su consulta. - Por 煤ltimo, tras la validaci贸n por parte del usuario de su consulta, nuestro sistema accede a los sistemas de informaci贸n registrados que pueden responderla y recupera la respuesta de acuerdo a la sem谩ntica de la consulta. Para ello, nuestro sistema implementa una arquitectura modular permite a帽adir nuevos sistemas al vuelo siempre que se proporcione su especificaci贸n (lenguajes de consulta soportados, modelos y formatos de datos, etc.). Por otro lado, el trabajar con sistemas de informaci贸n heterog茅neos, en particular sistemas relacionados con la Computaci贸n M贸vil, ha permitido que las contribuciones de esta tesis no se limiten al campo de la b煤squeda sem谩ntica. A este respecto, se ha estudiado el 谩mbito de la sem谩ntica de las consultas basadas en la localizaci贸n, y especialmente, la influencia de la sem谩ntica de las localizaciones en el procesado e interpretaci贸n de las mismas. En particular, se proponen dos modelos ontol贸gicos para modelar y capturar la relaciones sem谩nticas de las localizaciones y ampliar la expresividad de las consultas basadas en la localizaci贸n. Durante el desarrollo de esta tesis, situada entre el 谩mbito de la Web Sem谩ntica y el de la Computaci贸n M贸vil, se ha abierto una nueva l铆nea de investigaci贸n acerca del modelado de conocimiento vol谩til, y se ha estudiado la posibilidad de utilizar razonadores basados en L贸gicas Descriptivas en dispositivos basados en Android. Por 煤ltimo, nuestro trabajo en el 谩mbito de las b煤squedas sem谩nticas a partir de palabras clave ha sido extendido al 谩mbito de los agentes conversacionales, haci茅ndoles capaces de explotar distintas fuentes de datos sem谩nticos actualmente disponibles bajo los principios del Linked Data
Recommended from our members
Generating Natural Language Summaries from Multiple On-Line Sources: Language Reuse and Regeneration
The abundance of news wire on the World-Wide Web has resulted in at least four major problems, which seem to present the most interesting challenges to users and researchers alike: size,heterogeneity, change, and conflicting information. Size: several hundred newspapers and news agencies maintain their Web sites with thousands of news stories in each. Heterogeneity: some of the data related to news is in structured format (e.g., tables); more exists in semi-structured format (e.g.,Web pages, encyclopedias, textual databases); while the rest of the data is in textual form (e.g., newswire). Change: most Web sites and certainly all news sources change on a daily basis. Disagreement: different sources present conflicting or at least different views of the same event. We have approached the second, third, and fourth of these four problems from the point of view of text generation. We have developed a system, {\scsummons}, which when coupled with appropriate information extraction technology, generates a specific genre of natural language summaries of a particular event (which we call briefings) in a restricted domain. The briefings are concise, they contain facts from multiple and heterogeneous sources, and incorporate evolving information, highlighting agreements and contradictions among sources on the same topic. We have developed novel techniques and algorithms for combining data from multiple sources at the conceptual level (using natural language understanding), for identifying new information on a given topic; and for presenting the information in natural language form to the user. We named the framework that we have developed for these problems {\em language reuse and regeneration} (LRR). Its novelty lies in the ability to produce text by collating together text already written by humans on the Web. The main features of LRR are: increased robustness through a simplified parsing/generation component, leverage on text already written by humans, and facilities for the inclusion of structured data in computer-generated text. The present thesis contains an introduction to LRR and its use inmulti-document summarization. We have paid special attention to the techniquesfor producing conceptual summaries of multiple sources, to the creation and useof a LRR-based lexicon for text generation, to a methodology used to identifynew and old information in threads of documents, and to the generation offluent natural language text using all the components above. The thesis contains evaluations of the different components of {\sc summons} aswell as certain aspects of LRR as a methodology. A review of the relevantliterature is included as a separate chapter
Compendium of funding opportunities for research, education, and development projects in Latin America
This compendium consists of 172 pages of funding and fellowship resources specifically aimed at Latin American researchers. It offers guidelines for use, including tips for finding a good match between researchers and funding organizations, such as tailoring proposals to specific funders whose mission and funding objectives align with research objectives. The guidelines assist grant-seekers in conducting in-depth research on potential funders for successful proposal development