3 research outputs found

    Automatic Mining of Complex Event Streams

    Full text link
    複数の属性(乗車時間,乗車エリア,降車エリア,タクシーの種類,顧客の属性…)を含むタクシー乗車データなどに代表される,時間情報をともなうイベント集合は,テンソルストリームとして扱うことができる.本論文では複雑かつ大規模なイベントテンソルストリームから,類似時系列パターンや属性内における潜在グループを自動で抽出するTRICOMPを提案する.TRICOMPは(a)時系列パターンや属性間における類似した特徴を明らかにし,(b)それらの特徴をパラメータのチューニングを行うことなく自動的に抽出し要約する.また,(c)計算時間はデータストリームの長さに依存せず,高速に処理を行う.実データを用いた実験では,TRICOMPが複雑なイベントストリームから時系列変化を正確にとらえ,潜在グループや時系列パターンといった,データの解釈を助ける特徴を自動的に発見することを確認した.また,提案手法が,最新の既存手法と比較して高精度であり,計算時間について大幅な性能向上を達成していることを明らかにした.Given that large tensor streams of time-evolving events such as taxi rides, which contain multiple attributes (e.g., pick up time, pick up area, drop off area, taxi type, customer attribute...) are difficult to comprehend, how do we obtain intuitive groups and patterns? Also, how do we incrementally capture latent structure and typical patterns to achieve a meaningful summarization? In this paper, we propose a streaming algorithm, namely TRICOMP, which is designed to automatically find both typical patterns and latent groups in such complex yet huge collections. Our method has the following advantages: (a) it is Effective: it provides compact and powerful representations that reveal similar features with respect to both time and attributes. (b) it is Automatic: it automatically recognizes and summarizes them without any parameter tuning. (c) it is Scalable: it is incremental yet scalable, and thus requires computational time that is independent of data stream length. Extensive experiments on real datasets demonstrate that TRICOMP provides a summarization that helps us understand the complicated data and that consistently outperforms the state-of-the-art methods in terms of both execution speed and accuracy

    Non-linear Mining of Social Activities in Tensor Streams

    Full text link
    Web検索履歴等に代表される大規模時系列データは,時刻や地域,キーワードといった様々な情報とともに収集され,テンソルストリームとして扱うことができる.Web上におけるユーザアクティビティの解析では,より高精度な将来予測を実現することが重要な課題の1つであるが,複雑な構造を持つテンソルストリームから将来予測に有用なパターンを発見することが問題となる.本論文では,時間,国,キーワードの3つ組に対するWeb検索数で構成されるテンソルストリームを効果的に解析するためのストリームアルゴリズムであるCUBECASTを提案する.CUBECASTは与えられたテンソルストリームに含まれる潜在的な長期トレンドと季節パターンを発見し,それらを基に類似した特徴を持つ地域グループへと分解する.このとき,提案手法は次の特長を持つ.(a)長期トレンドと季節パターンの非線形特性を単一のモデルで表現する.(b)パラメータチューニングや事前知識を必要とせず,時系列モデルやパターン変化を自動的に推定する.(c)逐次的かつ適応的にパターン変化をとらえ,テンソルストリームを効率的に処理する.実データを用いた実験では,提案手法が将来予測に有用なパターンを効果的かつ効率的に発見できることを示し,既存の時系列予測手法と比較して,予測精度,計算時間の改善を確認した.Given a large time-evolving event series such as Google web-search logs, which are collected according to various aspects, i.e., timestamps, locations and keywords, how accurately can we forecast their future activities? How can we reveal significant patterns that allow us to long-term forecast from such complex tensor streams? In this paper, we propose a streaming method, namely, CUBECAST, that is designed to capture basic trends and seasonality in tensor streams and extract temporal and multi-dimensional relationships between such dynamics. Our proposed method has the following properties: (a) it is effective: it finds both trends and seasonality and summarizes their dynamics into simultaneous non-linear latent space. (b) it is automatic: it automatically recognizes and models such structural patterns without any parameter tuning or prior information. (c) it is scalable: it incrementally and adaptively detects shifting points of patterns for a semi-infinite collection of tensor streams. Extensive experiments that we conducted on real datasets demonstrate that our algorithm can effectively and efficiently find meaningful patterns for generating future values, and outperforms the state-of-the-art algorithms for time series forecasting in terms of forecasting accuracy and computational time

    Modèle d'analyse de survie pour la prédiction de l'évolution des graphes dynamiques : applications aux réseaux sociaux et séries multiples

    Get PDF
    Dans le domaine de l'analyse des graphes dynamiques, l'état de l'art démontre qu'il n'existe pas assez d'approches formelles pour la modélisation et la prédiction des phénomènes de changements que subirait un sous-graphe qui évolue dans le temps. Dans cette thèse, nous développons une approche formelle pour l'analyse de l'évolution des sous-graphes. De manière générale, nous concevons une approche basée sur le principe des fenêtre coulissantes pour analyser l'évolution des sous-graphes. Plus précisément, suivant la dynamique évolutive d'un graphe, nous définissons une fenêtre d'observation à partir de laquelle, on pourra mieux observer l'évolution de ce graphe et ainsi mieux apprécier les différents changements que pourrait subir les différentes sous-structures de ce graphe. Afin de modéliser l'évolution des sous-structures de graphe, nous nous sommes inspirés du modèle statistique basé sur l'analyse de survie. Nos contributions relatives au modèle d'analyse de survie et à l'analyse des graphes dynamiques sont mises en exergue dans deux champs d'applications, à savoir, les réseaux sociaux et les séries multiples. Dans le cas de l'analyse des réseaux sociaux (ARS), nous utilisons les structures de graphes pour relater les éventuelles relations que pourraient avoir les différentes entités que constituent un réseau social donné. Ici, on s'intéresse particulièrement à la formation des communautés (ensemble d'entités densément liées) et de leurs évolutions dans le temps. Une communauté dans son évolution est susceptible de subir plusieurs modifications structurelles. En effet, au fil du temps, plusieurs communautés pourraient fusionner en une seule communauté ou alors une communauté pourrait devenir plus petite (du fait de la réduction du nombre d'entités appartenant à cette communauté), plus grande (du fait de l'augmentation du nombre d'entités appartenant à cette communauté), se diviser en plusieurs autres communautés ou rester identique (stable) à elle-même. Ces différents phénomènes de changement que subirait une communauté sont des évènements importants à analyser afin de pouvoir prédire quels seront les prochains changements auxquels une communauté serait exposée. Pour ce faire, nous définissons un modèle de régression basé sur l'analyse de survie pour modéliser l'évolution des communautés par rapport au temps et ainsi prédire aux instants ultérieurs quels seront les différents phénomènes de changements que subirait une communauté. Dans le cas de l'analyse des séries multiples (ASM), nous supposons que chaque série d'un ensemble de séries peut s'écrire comme une suite de profils qui se répètent à des intervalles de temps distincts. C'est ainsi que nous proposons une approche locale pour étudier les différentes variations d'un ensemble de séries chronologiques données. L'étude des différentes variations nous permet en effet de mieux comprendre l'évolution de cet ensemble de séries et ainsi faire des prévisions avec un faible taux d'erreur. Plus précisément, suivant des intervalles de temps réguliers, nous projetons nos séries chronologiques dans un espace topologique (graphe) où il sera désormais possible de mieux appréhender les dépendances relationnelles entre les séries et ainsi déterminer les profils significatifs qui caractérisent ces dernières. Les profils significatifs extraits des sous-structures de graphes sont suivis par rapport au temps afin de déterminer celles qui ont tendance à être plus récurrentes ou à disparaître par rapport au temps. Afin de modéliser l'évolution des profils et calculer le risque qu'ils apparaissent, nous utilisons la régression de Cox et les réseaux de neurones. Les réseaux de neurones exploités nous permettent de générer et prédire de manière permanente et automatiquement des descripteurs qui pourraient expliquer l'évolution des profils identifiés
    corecore