19 research outputs found

    Real-time Forecasting of Co-evolving Epidemics

    Full text link
    本論文では,大規模疫病データのための高速予測手法であるEpiCastについて述べる.EpiCastは,様々な地域の大規模疫病データストリームが与えられたときに,その中から疫病の特徴を表現,要約,共有し,長期的かつ継続的に将来の感染者数予測を行う.提案手法は(a)疫病の複雑な拡散過程を非線形モデルで表現し,(b)それらの中に含まれる重要な特徴を各地域で共有し,適切なモデルを選択することで,感染拡大予測を実現する.ここで,提案手法は(c)データストリームの長さに依存せず,一定の計算時間で感染者数を推定する.COVID-19の実データを用いた実験では,EpiCastが大規模疫病データストリームの中から疫病の重要な特徴を発見,共有することで感染者数を長期的に予測し,さらに,既存手法と比較し大幅な精度,性能向上を達成していることを確認した.Given a large collection of co-evolving epidemics, how can we forecast their future characteristics? In this paper, we propose a streaming algorithm, EpiCast, which is able to model, understand and forecast future epidemic outbreaks as well as pandemics. Our method has the following features for the effective and efficient modeling of the dynamics of spreading viruses. (a) Non-linear: we incorporate a non-linear equation that is suitable for complex epidemic modeling. (b) Dynamic: it maintains multiple such non-linear models to share important patterns among locations, and chooses the non-linear model for the forecast while monitoring a co-evolving epidemic data stream. (c) Scalable: it can quickly forecast future phenomena at any time in a practically constant time. In extensive experiments using real COVID-19 datasets over major countries, we demonstrate that our proposed method outperforms existing methods for time series in terms of forecasting accuracy, and significantly reduces the required computational time

    Non-linear Mining of Social Activities in Tensor Streams

    Full text link
    Web検索履歴等に代表される大規模時系列データは,時刻や地域,キーワードといった様々な情報とともに収集され,テンソルストリームとして扱うことができる.Web上におけるユーザアクティビティの解析では,より高精度な将来予測を実現することが重要な課題の1つであるが,複雑な構造を持つテンソルストリームから将来予測に有用なパターンを発見することが問題となる.本論文では,時間,国,キーワードの3つ組に対するWeb検索数で構成されるテンソルストリームを効果的に解析するためのストリームアルゴリズムであるCUBECASTを提案する.CUBECASTは与えられたテンソルストリームに含まれる潜在的な長期トレンドと季節パターンを発見し,それらを基に類似した特徴を持つ地域グループへと分解する.このとき,提案手法は次の特長を持つ.(a)長期トレンドと季節パターンの非線形特性を単一のモデルで表現する.(b)パラメータチューニングや事前知識を必要とせず,時系列モデルやパターン変化を自動的に推定する.(c)逐次的かつ適応的にパターン変化をとらえ,テンソルストリームを効率的に処理する.実データを用いた実験では,提案手法が将来予測に有用なパターンを効果的かつ効率的に発見できることを示し,既存の時系列予測手法と比較して,予測精度,計算時間の改善を確認した.Given a large time-evolving event series such as Google web-search logs, which are collected according to various aspects, i.e., timestamps, locations and keywords, how accurately can we forecast their future activities? How can we reveal significant patterns that allow us to long-term forecast from such complex tensor streams? In this paper, we propose a streaming method, namely, CUBECAST, that is designed to capture basic trends and seasonality in tensor streams and extract temporal and multi-dimensional relationships between such dynamics. Our proposed method has the following properties: (a) it is effective: it finds both trends and seasonality and summarizes their dynamics into simultaneous non-linear latent space. (b) it is automatic: it automatically recognizes and models such structural patterns without any parameter tuning or prior information. (c) it is scalable: it incrementally and adaptively detects shifting points of patterns for a semi-infinite collection of tensor streams. Extensive experiments that we conducted on real datasets demonstrate that our algorithm can effectively and efficiently find meaningful patterns for generating future values, and outperforms the state-of-the-art algorithms for time series forecasting in terms of forecasting accuracy and computational time

    Automatic Network Structure-based Clustering of Multivariate Time Series

    Full text link
    本論文では,ネットワーク構造を持つ多次元時系列データのためのパターン検出手法であるNGLについて述べる.NGLは,時間変化するネットワーク構造を持つ多次元時系列データが与えられたときに,その時系列データの中から重要なネットワーク構造を発見し,それらの情報を要約,表現する.具体的に,提案手法は,(a)多次元時系列データからネットワーク構造に基づいた解釈性の高いクラスタを発見する.(b)その際に最適な分割点とクラスタ数を自動的に決定する.すなわち,事前情報の付与が必要ない.そして,(c)自動決定アルゴリズムにより高精度なクラスタリングを実現する.人工データを用いた精度評価実験では最新の既存手法と比較して提案手法が大幅な精度向上を達成していることを明らかにした.また,実データを用いた実験ではNGLが解釈性の高いクラスタを発見していることを確認した.In this paper we present NGL, pattern mining algorithm for multiple time series data with underlying network structures. Our method has the following properties: (a) Interpretable: it provides interpretable network structures for the data; (b) Automatic: it determines the optimal cut points and the number of clusters automatically; (c) Accurate: it provides reliable clustering performance thanks to the automated algorithm. We evaluate our NGL algorithm on synthetic datasets, outperforming state-of-the-art baselines in terms of accuracy. And extensive experiments on real datasets demonstrate that NGL does indeed obtain interpretable network structure clusters

    Automatic Mining of Complex Event Streams

    Full text link
    複数の属性(乗車時間,乗車エリア,降車エリア,タクシーの種類,顧客の属性…)を含むタクシー乗車データなどに代表される,時間情報をともなうイベント集合は,テンソルストリームとして扱うことができる.本論文では複雑かつ大規模なイベントテンソルストリームから,類似時系列パターンや属性内における潜在グループを自動で抽出するTRICOMPを提案する.TRICOMPは(a)時系列パターンや属性間における類似した特徴を明らかにし,(b)それらの特徴をパラメータのチューニングを行うことなく自動的に抽出し要約する.また,(c)計算時間はデータストリームの長さに依存せず,高速に処理を行う.実データを用いた実験では,TRICOMPが複雑なイベントストリームから時系列変化を正確にとらえ,潜在グループや時系列パターンといった,データの解釈を助ける特徴を自動的に発見することを確認した.また,提案手法が,最新の既存手法と比較して高精度であり,計算時間について大幅な性能向上を達成していることを明らかにした.Given that large tensor streams of time-evolving events such as taxi rides, which contain multiple attributes (e.g., pick up time, pick up area, drop off area, taxi type, customer attribute...) are difficult to comprehend, how do we obtain intuitive groups and patterns? Also, how do we incrementally capture latent structure and typical patterns to achieve a meaningful summarization? In this paper, we propose a streaming algorithm, namely TRICOMP, which is designed to automatically find both typical patterns and latent groups in such complex yet huge collections. Our method has the following advantages: (a) it is Effective: it provides compact and powerful representations that reveal similar features with respect to both time and attributes. (b) it is Automatic: it automatically recognizes and summarizes them without any parameter tuning. (c) it is Scalable: it is incremental yet scalable, and thus requires computational time that is independent of data stream length. Extensive experiments on real datasets demonstrate that TRICOMP provides a summarization that helps us understand the complicated data and that consistently outperforms the state-of-the-art methods in terms of both execution speed and accuracy

    大規模疫病データのための将来予測アルゴリズム

    No full text
    本論文では,大規模疫病データのための高速予測手法であるEpiCastについて述べる.EpiCastは,様々な地域の大規模疫病データストリームが与えられたときに,その中から疫病の特徴を表現,要約,共有し,長期的かつ継続的に将来の感染者数予測を行う.提案手法は(a)疫病の複雑な拡散過程を非線形モデルで表現し,(b)それらの中に含まれる重要な特徴を各地域で共有し,適切なモデルを選択することで,感染拡大予測を実現する.ここで,提案手法は(c)データストリームの長さに依存せず,一定の計算時間で感染者数を推定する.COVID-19の実データを用いた実験では,EpiCastが大規模疫病データストリームの中から疫病の重要な特徴を発見,共有することで感染者数を長期的に予測し,さらに,既存手法と比較し大幅な精度,性能向上を達成していることを確認した.Given a large collection of co-evolving epidemics, how can we forecast their future characteristics? In this paper, we propose a streaming algorithm, EpiCast, which is able to model, understand and forecast future epidemic outbreaks as well as pandemics. Our method has the following features for the effective and efficient modeling of the dynamics of spreading viruses. (a) Non-linear: we incorporate a non-linear equation that is suitable for complex epidemic modeling. (b) Dynamic: it maintains multiple such non-linear models to share important patterns among locations, and chooses the non-linear model for the forecast while monitoring a co-evolving epidemic data stream. (c) Scalable: it can quickly forecast future phenomena at any time in a practically constant time. In extensive experiments using real COVID-19 datasets over major countries, we demonstrate that our proposed method outperforms existing methods for time series in terms of forecasting accuracy, and significantly reduces the required computational time
    corecore