22 research outputs found

    Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey

    Full text link
    The emergence of natural language processing has revolutionized the way users interact with tabular data, enabling a shift from traditional query languages and manual plotting to more intuitive, language-based interfaces. The rise of large language models (LLMs) such as ChatGPT and its successors has further advanced this field, opening new avenues for natural language processing techniques. This survey presents a comprehensive overview of natural language interfaces for tabular data querying and visualization, which allow users to interact with data using natural language queries. We introduce the fundamental concepts and techniques underlying these interfaces with a particular emphasis on semantic parsing, the key technology facilitating the translation from natural language to SQL queries or data visualization commands. We then delve into the recent advancements in Text-to-SQL and Text-to-Vis problems from the perspectives of datasets, methodologies, metrics, and system designs. This includes a deep dive into the influence of LLMs, highlighting their strengths, limitations, and potential for future improvements. Through this survey, we aim to provide a roadmap for researchers and practitioners interested in developing and applying natural language interfaces for data interaction in the era of large language models.Comment: 20 pages, 4 figures, 5 tables. Submitted to IEEE TKD

    Semantic Keyword-based Search on Heterogeneous Information Systems

    Get PDF
    En los 煤ltimos a帽os, con la difusi贸n y el uso de Internet, el volumen de informaci贸n disponible para los usuarios ha crecido exponencialmente. Adem谩s, la posibilidad de acceder a dicha informaci贸n se ha visto impulsada por los niveles de conectividad de los que disfrutamos actualmente gracias al uso de los m贸viles de nueva generaci贸n y las redes inal谩mbricas (e.g., 3G, Wi-Fi). Sin embargo, con los m茅todos de acceso actuales, este exceso de informaci贸n es tan perjudicial como la falta de la misma, ya que el usuario no tiene tiempo de procesarla en su totalidad. Por otro lado, esta informaci贸n est谩 detr谩s de sistemas de informaci贸n de naturaleza muy heterog茅nea (e.g., buscadores Web, fuentes de Linked Data, etc.), y el usuario tiene que conocerlos para poder explotar al m谩ximo sus capacidades. Esta diversidad se hace m谩s patente si consideramos cualquier servicio de informaci贸n como potencial fuente de informaci贸n para el usuario (e.g., servicios basados en la localizaci贸n, bases de datos exportadas mediante Servicios Web, etc.). Dado este nivel de heterogeneidad, la integraci贸n de estos sistemas se debe hacer externamente, ocultando su complejidad al usuario y dot谩ndole de mecanismos para que pueda expresar sus consultas de forma sencilla. En este sentido, el uso de interfaces basados en palabras clave (keywords) se ha popularizado gracias a su sencillez y a su adopci贸n por parte de los buscadores Web m谩s usados. Sin embargo, esa sencillez que es su mayor virtud tambi茅n es su mayor defecto, ya que genera problemas de ambig眉edad en las consultas. Las consultas expresadas como conjuntos de palabras clave son inherentemente ambiguas al ser una proyecci贸n de la verdadera pregunta que el usuario quiere hacer. En la presente tesis, abordamos el problema de integrar sistemas de informaci贸n heterog茅neos bajo una b煤squeda guiada por la sem谩ntica de las palabras clave; y presentamos QueryGen, un prototipo de nuestra soluci贸n. En esta b煤squeda sem谩ntica abogamos por establecer la consulta que el usuario ten铆a en mente cuando escribi贸 sus palabras clave, en un lenguaje de consulta formal para evitar posibles ambig眉edades. La integraci贸n de los sistemas subyacentes se realiza a trav茅s de la definici贸n de sus lenguajes de consulta y de sus modelos de ejecuci贸n. En particular, nuestro sistema: - Descubre el significado de las palabras clave consultando un conjunto din谩mico de ontolog铆as, y desambigua dichas palabras teniendo en cuenta su contexto (el resto de palabras clave), ya que cada una de las palabras tiene influencia sobre el significado del resto de la entrada. Durante este proceso, los significados que son suficientemente similares son fusionados y el sistema propone aquellos m谩s probables dada la entrada del usuario. La informaci贸n sem谩ntica obtenida en el proceso es integrada y utilizada en fases posteriores para obtener la correcta interpretaci贸n del conjunto de palabras clave. - Un mismo conjunto de palabras pueden representar diversas consultas a煤n cuando se conoce su significado individual. Por ello, una vez establecidos los significados de cada palabra y para obtener la consulta exacta del usuario, nuestro sistema encuentra todas las preguntas posibles utilizando las palabras clave. Esta traducci贸n de palabras clave a preguntas se realiza empleando lenguajes de consulta formales para evitar las posibles ambig眉edades y expresar la consulta de manera precisa. Nuestro sistema evita la generaci贸n de preguntas sem谩nticamente incorrectas o duplicadas con la ayuda de un razonador basado en L贸gicas Descriptivas (Description Logics). En este proceso, nuestro sistema es capaz de reaccionar ante entradas insuficientes (e.g., palabras omitidas) mediante la adici贸n de t茅rminos virtuales, que representan internamente palabras que el usuario ten铆a en mente pero omiti贸 cuando escribi贸 su consulta. - Por 煤ltimo, tras la validaci贸n por parte del usuario de su consulta, nuestro sistema accede a los sistemas de informaci贸n registrados que pueden responderla y recupera la respuesta de acuerdo a la sem谩ntica de la consulta. Para ello, nuestro sistema implementa una arquitectura modular permite a帽adir nuevos sistemas al vuelo siempre que se proporcione su especificaci贸n (lenguajes de consulta soportados, modelos y formatos de datos, etc.). Por otro lado, el trabajar con sistemas de informaci贸n heterog茅neos, en particular sistemas relacionados con la Computaci贸n M贸vil, ha permitido que las contribuciones de esta tesis no se limiten al campo de la b煤squeda sem谩ntica. A este respecto, se ha estudiado el 谩mbito de la sem谩ntica de las consultas basadas en la localizaci贸n, y especialmente, la influencia de la sem谩ntica de las localizaciones en el procesado e interpretaci贸n de las mismas. En particular, se proponen dos modelos ontol贸gicos para modelar y capturar la relaciones sem谩nticas de las localizaciones y ampliar la expresividad de las consultas basadas en la localizaci贸n. Durante el desarrollo de esta tesis, situada entre el 谩mbito de la Web Sem谩ntica y el de la Computaci贸n M贸vil, se ha abierto una nueva l铆nea de investigaci贸n acerca del modelado de conocimiento vol谩til, y se ha estudiado la posibilidad de utilizar razonadores basados en L贸gicas Descriptivas en dispositivos basados en Android. Por 煤ltimo, nuestro trabajo en el 谩mbito de las b煤squedas sem谩nticas a partir de palabras clave ha sido extendido al 谩mbito de los agentes conversacionales, haci茅ndoles capaces de explotar distintas fuentes de datos sem谩nticos actualmente disponibles bajo los principios del Linked Data

    Compendium of funding opportunities for research, education, and development projects in Latin America

    Get PDF
    This compendium consists of 172 pages of funding and fellowship resources specifically aimed at Latin American researchers. It offers guidelines for use, including tips for finding a good match between researchers and funding organizations, such as tailoring proposals to specific funders whose mission and funding objectives align with research objectives. The guidelines assist grant-seekers in conducting in-depth research on potential funders for successful proposal development
    corecore