6 research outputs found

    Advances in Meta-Heuristic Optimization Algorithms in Big Data Text Clustering

    Full text link
    This paper presents a comprehensive survey of the meta-heuristic optimization algorithms on the text clustering applications and highlights its main procedures. These Artificial Intelligence (AI) algorithms are recognized as promising swarm intelligence methods due to their successful ability to solve machine learning problems, especially text clustering problems. This paper reviews all of the relevant literature on meta-heuristic-based text clustering applications, including many variants, such as basic, modified, hybridized, and multi-objective methods. As well, the main procedures of text clustering and critical discussions are given. Hence, this review reports its advantages and disadvantages and recommends potential future research paths. The main keywords that have been considered in this paper are text, clustering, meta-heuristic, optimization, and algorithm

    Pretrained Transformers for Text Ranking: BERT and Beyond

    Get PDF
    The goal of text ranking is to generate an ordered list of texts retrieved from a corpus in response to a query. Although the most common formulation of text ranking is search, instances of the task can also be found in many natural language processing applications. This survey provides an overview of text ranking with neural network architectures known as transformers, of which BERT is the best-known example. The combination of transformers and self-supervised pretraining has been responsible for a paradigm shift in natural language processing (NLP), information retrieval (IR), and beyond. In this survey, we provide a synthesis of existing work as a single point of entry for practitioners who wish to gain a better understanding of how to apply transformers to text ranking problems and researchers who wish to pursue work in this area. We cover a wide range of modern techniques, grouped into two high-level categories: transformer models that perform reranking in multi-stage architectures and dense retrieval techniques that perform ranking directly. There are two themes that pervade our survey: techniques for handling long documents, beyond typical sentence-by-sentence processing in NLP, and techniques for addressing the tradeoff between effectiveness (i.e., result quality) and efficiency (e.g., query latency, model and index size). Although transformer architectures and pretraining techniques are recent innovations, many aspects of how they are applied to text ranking are relatively well understood and represent mature techniques. However, there remain many open research questions, and thus in addition to laying out the foundations of pretrained transformers for text ranking, this survey also attempts to prognosticate where the field is heading

    Prospettive di sviluppo dei cataloghi elettronici

    Get PDF
    La ricerca offre una riflessione sulla natura e sull’evoluzione dei cataloghi elettronici alla luce delle più recenti innovazioni tecnologiche rappresentate dalla tecnologia dei linked data. Muovendo da un’analisi critica del modello funzionale proposto dagli ‘OPAC di nuova generazione’ e dai ‘sistemi per la scoperta’ si propone la necessità di una revisione del paradigma attuale di sviluppo verso nuovi modelli in grado di sostenere l’apprendimento durante il processo di ricerca dell’informazione. Le più note teorie cognitive dell’information behaviour costituiscono l’orizzonte teorico nel quale viene proposto un nuovo modello per lo sviluppo dell’OPAC fondato sulla centralità dell’utente, sui bisogni informativi, i comportamenti e sull'analisi delle componenti che entrano in gioco nel processo di ricerca. Si esplora, infine, la possibilità che i linked data possano essere la tecnologia più appropriata per la costruzione di nuovi OPAC basati sulla produzione di conoscenza durante il processo informativo

    Prospettive di sviluppo dei cataloghi elettronici

    Get PDF
    La ricerca offre una riflessione sulla natura e sull’evoluzione dei cataloghi elettronici alla luce delle più recenti innovazioni tecnologiche rappresentate dalla tecnologia dei linked data. Muovendo da un’analisi critica del modello funzionale proposto dagli ‘OPAC di nuova generazione’ e dai ‘sistemi per la scoperta’ si propone la necessità di una revisione del paradigma attuale di sviluppo verso nuovi modelli in grado di sostenere l’apprendimento durante il processo di ricerca dell’informazione. Le più note teorie cognitive dell’information behaviour costituiscono l’orizzonte teorico nel quale viene proposto un nuovo modello per lo sviluppo dell’OPAC fondato sulla centralità dell’utente, sui bisogni informativi, i comportamenti e sull'analisi delle componenti che entrano in gioco nel processo di ricerca. Si esplora, infine, la possibilità che i linked data possano essere la tecnologia più appropriata per la costruzione di nuovi OPAC basati sulla produzione di conoscenza durante il processo informativo