28 research outputs found
關聯式資料庫設計自動化之研究及系統設計
本計畫旨在研究資料庫整體設計(包含邏輯 設計和實際設計)自動化之程序,對設計自動化 過程所面臨問題加以探討,並設計一系統以完 成此自動化程序.資料庫設計者在執行完高階 之概念設計(Conceptual design)後,此系統將自動產 生資料庫建立指令(DDL statements)以及資料庫表 格(Tables).除此之外,此系統亦自動產生資料存 取基本程式(Code generation),提供給應用程式( Application program)存取□更動資料並同時維持資 料庫完整性(Integrity)之功能.對於資料種類繁多 ,資料間關係複雜之資料庫設計,此一研究成果 將可大量縮減設計過程所需人力□物力□時間 ,並減少人為錯誤
運用組合逼近理論於滑動時間窗模型下的資料串流 頻繁樣式探勘系統
Data mining is a process of finding interesting knowledge from a world of (raw) datastored in databases. Recently, knowledge discovery communities have focused on a newmodel of data processing, where data arrive in the form of continuous streams. It is oftenreferred to as data streams or streaming data. A data stream is a massive and unboundedsequence of data elements which are continuously transmitted at a rapid rate and in a randomorder. Data streams have wide applications in real world recently, such as transactionalrecords of a chain-store head office from every retail sales, web-flow or click-stream recordsof a website monitoring server, etc. There is possibly some hidden information in thesestreaming data which are valuable but not easy to find out. The natural features of datastreams have brought out many constraints; moreover, streams have an uncertain factor thattheir peak volume may burst to several times during a spike. As a result, data mining in datastreams is much more difficult than that in the (traditional) databases.At present, there are many applications eager for knowing the frequent patterns existingin the streaming data. However, there is not yet a correspondingly powerful and integralmining algorithm nowadays. In this proposal, we are to develop a data-stream mining systemwhich can discover patterns occurred frequently (i.e. frequent patterns) in data streams for theusers. This system includes a novel mining algorithm, which works under the sliding windowmodel and finds the frequent patterns based on the theory of combinatorial approximation.The algorithm is highly efficient and its mining results have good quality. Besides, our systemis equipped with a load shedding mechanism, which can select and drop some input data tocontrol the load of buffer while the streaming rate of data is too fast. This mechanism makesthe system durably workable regardless of the condition of data streams. The accomplishmentof this research proposal will have important academic contributions due to its original ideasand novel methods, and furthermore it can lead to the resolution of imperious stream-miningdemands of enterprises and organizations in the country.「資料探勘」是一門從儲存於資料庫的龐大資料中挖掘出有趣知識的技術。近年來在許多實際應用中,資料不再是靜態儲存於資料庫中的型態,而是以串流的方式陸陸續續抵達本地端的系統,稱為「資料串流」的處理模型。資料串流是一個由(近乎)無限多的資料元件所形成之長串序列,以不定順序、非常快的速度產生,並且持續不斷地傳輸。資料串流在現實生活中的應用非常廣泛,例如:全國連鎖商店的總公司接收各分店的顧客交易紀錄、網路伺服器接收網站的超連結點擊與流量監控資料、交通管理中心接收各道路的監測系統的路況資料等;在這些串流資料中可能潛藏著具有價值的資訊,然而要發現它們並不容易。由於串流本身的特性造成了許多限制,加以串流具有在尖峰時刻資料量暴增的不安定因素,使得資料串流探勘比起(傳統)資料庫探勘要來得困難很多。目前許多應用都有對於探勘串流、找出頻繁出現之樣式的迫切需求,然而這個領域尚未有相對應之強有力且功能完善的探勘方法。本研究計畫預計開發一個植基於滑動時間窗模型的資料串流探勘系統,從串流資料中找出經常出現的樣式,即「頻繁樣式」,幫助使用者獲得制訂決策的重要知識。這個系統包含一個創新而且完整的探勘演算法,在滑動時間窗模型下,使用組合數學的組合逼近理論為基礎來尋找頻繁樣式,具有優異效能以及品質良好的探勘結果。另一方面,此系統含有一套「負載控制」機制,當串流的流量過大或流速過快時,可以挑選並拋棄掉部分資料以控制緩衝區的負載量,使得系統在任何時候都能持續且正常地運作。本計畫不僅具有創新想法的學術貢獻,其成果更能夠充分抒解國內各公司企業或政府單位對於資料串流探勘的急切需求
改善行動資料庫中預測式廣播機制讀取時間之研究
在行動計算環境中,資料庫伺服端將資訊廣播在無線頻道上,再由行動客戶端透過可攜式裝置(例如行動電話、PDA 等設備)下載所需資料。由於無線頻道的低頻寬以及行動客戶端有限電池電源的限制,廣播機制的優劣格外重要,而讀取時間與調整時間則是兩項衡量廣播機制效能的標準。預測式廣播機制是我們過去對於廣播機制的研究成果,此機制以降低行動客戶端的調整時間為考慮因素。它利用資料鍵值與資料在頻道出現的位置,在預測座標繫上產生座標點,進而依據資料座標點所形成的曲線,建立預測函數。本計畫的目的是加強預測式廣播機制之研究的深度及廣度,以降低讀取時間為主要目標。在深度方面將與複製廣播資料之技術結合,建立成本模型,討論減少讀取時間的問題,進而求得最佳化讀取時間。在廣度方面,將應用預測式索引機制應用於多頻道及需求式廣播環境的問題,設計廣播機制,並建立成本模型,以求最佳化讀取時間。如此,將使得預測式索引更臻成熟與完整。透過本計畫的執行,我們將建立預測式索引與資料複製結合之成本模型、多頻道廣播機制之成本模型、需求式廣播機制之成本模型,以及從理論上探討其最佳讀取時間。另一方面,本計畫並將實作各類廣播機制雛型,執行模擬實驗,驗證各種機制之可行性及實用性;並將以模擬實驗與其他機製作效能比較,驗證其優越性。本計畫之各種成本模型將可作為學術上相關機制比較基礎,並可望開發新的無線環境之廣播機制,有助於行動資料庫廣播技術之創新
A Study of Auxiliary Access Mechanisms on OODBMS Buffer Management
緩衝區是改善資料庫系統效能的一種重要 技巧,透過把資料暫存於主記憶體內,以減少進 入磁碟存取的次數.在前一個研究中,我們對一 些基本的查詢型態及相關的查詢演算法與緩衝 區管理做過一番探討,為了得到更佳的存取效 能,本計劃建議採用輔助的存取方法(例如索引 或雜湊函數),在眾多的輔助存取方法中,詳細的 探討與緩衝區管理之關係. 此計畫針對各種不 同的輔助存取方法,配合各種的查詢型態,來探討其於緩衝區管理下的管理及控制策略和查詢 的成本分析.我們將建立一數學模式來描述整 個問題,包含了各種輔助存取方法的特性,物件 組成架構,物件繼承架構等對緩衝區管理有影 響的因素.我們將更進一步利用此數學模是建 立一系統模擬模式,並製作一模擬器來探討各 種不同應用的輔助存取方法的緩衝區管理的問 題.透過整個研究,我們可以得知適合於物件導 向資料庫的各種輔助存取方法的存取架構及其 對緩衝區的管理策略和查詢的存取成本的效應 .對整個物件導向資料庫系統,除了提供各種輔 助存取方法的選擇外,並由研究所導出的成本 分析公式精確計算各種輔助存取方法的查詢成 本,以決定最佳的執行方法,進而增進系統的查 詢效率
於概念漂移的動態資料串流環境下有效挖掘頻繁樣式的估算式探勘方法
「資料探勘」是一門從儲存於資料庫的龐大資料中挖掘出有價值知識的技術。近年來在許多實際應用領域中,資料不再是靜態儲存於資料庫中的型態,而是以動態的方式持續不斷地傳輸、稱為「資料串流」的處理模型。資料串流在現實生活中的應用非常廣泛,且在串流資料當中可能潛藏著具有價值的資訊或者樣式,然而要發現它們並不容易。由於資料串流具有傳輸速率非固定、尖峰時刻資料量暴增等不安定因素,使得資料串流探勘比起資料庫探勘要來得困難許多。此外,存在於串流資料中的資料特徵或者資料分佈通常是動態的,會隨著時間改變,這種現象被稱為「概念漂移」。資料串流的概念漂移現象會對探勘系統的執行表現以及探勘品質造成負面影響,是一個不容忽視的問題,然而目前在資料串流頻繁樣式探勘的領域中鮮少有相關研究進行探討並嘗試解決。針對可能出現概念漂移的動態資料串流環境,本計畫預計研究並提出解決概念漂移問題的頻繁樣式探勘方法。我們將根據項目集支持度之間的關聯性來定義資料概念、建立資料概念模型,並且根據此模型設計一套以估算為基礎的探勘方法論。經由建立項目集支持度之間關聯性的對映函數,可以認知並且表示資料串流的資料概念。至於以估算為基礎的探勘方法會記錄串流資料中的一部份項目集作為摘要資訊,在探勘時使用摘要資訊透過對映函數來計算未記錄的項目集並且找出頻繁樣式。針對概念漂移的問題,此探勘方法具有一套根據估算準確度來偵測當前資料概念是否發生改變的技術。當偵測到概念漂移發生時,透過重新學習或者漸進式調整的方式來更新對映函數、認知新資料概念,概念漂移的問題因此獲得解決。在學術方面,本計畫將定義並且解決於資料串流環境中探勘頻繁樣式的概念漂移問題,展示新研究方向。在應用方面,對於對資料串流探勘有高度需求的行業,例如零售業和金融業,本計畫可開發出一個實際解決概念漂移、具備高效率與良好品質的資料串流頻繁樣式探勘系統,為這些行業帶來實質助益。Data mining is a process of finding interesting knowledge from a world of data stored in databases.Recently, knowledge discovery communities have focused on a new model of data processing, where dataarrives in the form of continuous streams. It is often referred to as “data streams”. Data streams possess wideapplications in real world in recent years, such as transactional records, web-flow or click-stream records, etc.There is possibly some hidden information in these streaming data which are valuable but not easy to find out.The natural features of data streams such as variable transit-rate and peak volume have brought out manyconstraints. As a result, data mining in data streams is much more difficult than that in the databases. Besides,the characteristic or distribution of data in a data stream usually changes dynamically with time, whichphenomenon is called “concept drift”. Concept drift in data streams is a practical problem which will badlyaffect the mining performance or mining quality of a mining system. However, this problem is rarelyconsidered in the research of data-stream frequent pattern mining nowadays.In this proposal, we propose a method for concept drift handling as well as frequent pattern mining indynamic data streams. The items of our study include data-concept definition, concept modeling, conceptrepresentation, and the design of a count approximation based mining methodology. The designed miningmethod records part of the itemsets in the data stream as synopsis information. To accomplish the mining task,it approximates for the unrecorded itemsets using the synopsis and then selects the frequent ones. By buildingthe model (as a mapping function) of correlation between the frequencies of different itemsets, the miningmethod is able to understand and represent the data concept hidden in the data stream. Furthermore, thetechnique of concept-drift detection for the mining method is feasible. When there is concept drift detected inthe stream data, the mining method comprehends the new concept by either re-learning or incrementaladjustment. The problem of concept drift is solved accordingly. The study in this proposal shows someimportant issues about handling the concept-drift problem when mining frequent patterns in data streams,which is a new research topic. For those real-life applications having a high-degree demand for the discoveryof frequent patterns in dynamic data streams, the mining system with our proposed concept-drift solvablemining method will bring them essential helpfulness