3 research outputs found

    Evaluating continuous top-k queries over document streams

    No full text
    At the age of Web 2.0, Web content becomes live, and users would like to automatically receive content of interest. Popular RSS subscription approach cannot offer fine-grained filtering approach. In this paper, we propose a personalized subscription approach over the live Web content. The document is represented by pairs of terms and weights. Meanwhile, each user defines a top-k continuous query. Based on an aggregation function to measure the relevance between a document and a query, the user continuously receives the top-k most relevant documents inside a sliding window. The challenge of the above subscription approach is the high processing cost, especially when the number of queries is very large. Our basic idea is to share evaluation results among queries. Based on the defined covering relationship of queries, we identify the relations of aggregation scores of such queries and develop a graph indexing structure (GIS) to maintain the queries. Next, based on the GIS, we propose a document evaluation algorithm to share query results among queries. After that, we re-use evaluation history documents, and design a document indexing structure (DIS) to maintain the history documents. Finally, we adopt a cost model-based approach to unify the approaches of using GIS and DIS. The experimental results show that our solution outperforms the previous works using the classic inverted list structure

    集合間類似度を用いたストリームデータのtop-k類似検索に対する高速な厳密解アルゴリズム

    Get PDF
     IoT の隆盛に伴い,ストリームデータ解析の重要性が高まっている.その中でストリームデータを対象とする類似検索は,正常/異常検出や情報推薦の基盤となる技術として注目されている. ストリームデータに対する類似検索には様々な問題設定が知られているが,本研究では,2016年にXuらによって提案された「Continuous Similarity Search for Evolving Queries」(CSPEQ)問題を取り扱う.この問題は,アルファベットを要素とするストリームデータを取り扱い,ストリームの直近の要素群をクエリ集合として,集合のデータベースからクエリと最も類似した上位k個のデータを探すことを目的とし,時間によるユーザの嗜好の変化に適応的に情報推薦を行う状況をモデル化したものである.クエリがユーザの最近の嗜好,検索結果がユーザの嗜好に合わせて推薦されるオブジェクトに相当する. この問題に対する自明な解法は,毎時刻クエリと全データ間で類似度を計算することである.一方Xuらは,過去に計算した類似度の値から現在時刻で上位k 位に入る可能性があるデータを決定し,それらに対してのみ類似度を計算する枝刈りによる厳密解法GP(General Pruning algorithm)とMin-Hash を用いた近似解法MHI(MinHash-based algorithm using inverted indices)を提案した. これに対して本研究では,前の時刻から類似度が変化する可能性があるデータに対してのみ,現在の類似度を更新することで,類似度の計算回数を大幅に減らし,さらに1回の類似度計算もO(1)で行うことで高速化する新しい手法をEA-FIL(Exact Algorithm using Frequency-based Inverted Lists)を提案した.そして,実験的にその性能を評価した結果,MHI と同じくらい高速で,GPを10倍以上凌駕する性能であることが確認できた. また,CSPEQ 問題はスライディングウインドウサイズを固定していることから,要素数がスライディングウインドウサイズと大きく違うデータベース内の集合は類似度が低くなって検索結果となりにくいという問題を持っている.本論文ではこれを緩和するため,ウインドウサイズに幅を持たせた新しい問題設定を提唱し,それに対する高速なアルゴリズムVWEA-FIL(Variable Window size EA-FIL)も構築した.これについても評価実験を行った結果,EA-FIL を全てのウインドウサイズに適用する単純手法よりも高速で空間計算量も小さいことが確認できた.電気通信大学201
    corecore