4 research outputs found

    Incrementally updating the high average-utility patterns with pre-large concept

    Get PDF
    High-utility itemset mining (HUIM) is considered as an emerging approach to detect the high-utility patterns from databases. Most existing algorithms of HUIM only consider the itemset utility regardless of the length. This limitation raises the utility as a result of a growing itemset size. High average-utility itemset mining (HAUIM) considers the size of the itemset, thus providing a more balanced scale to measure the average-utility for decision-making. Several algorithms were presented to efficiently mine the set of high average-utility itemsets (HAUIs) but most of them focus on handling static databases. In the past, a fast-updated (FUP)-based algorithm was developed to efficiently handle the incremental problem but it still has to re-scan the database when the itemset in the original database is small but there is a high average-utility upper-bound itemset (HAUUBI) in the newly inserted transactions. In this paper, an efficient framework called PRE-HAUIMI for transaction insertion in dynamic databases is developed, which relies on the average-utility-list (AUL) structures. Moreover, we apply the pre-large concept on HAUIM. A pre-large concept is used to speed up the mining performance, which can ensure that if the total utility in the newly inserted transaction is within the safety bound, the small itemsets in the original database could not be the large ones after the database is updated. This, in turn, reduces the recurring database scans and obtains the correct HAUIs. Experiments demonstrate that the PRE-HAUIMI outperforms the state-of-the-art batch mode HAUI-Miner, and the state-of-the-art incremental IHAUPM and FUP-based algorithms in terms of runtime, memory, number of assessed patterns and scalability.publishedVersio

    Efficient Methods for Mining Subgraphs in a Single Large Graph

    Get PDF
    Large and complex graphs are often used for simulation of the complex relationships among objects in many applications in various fields, such as social networks, maps, computer networks, chemical structures, bioinformatics, computer vision and web analysis. Frequent subgraph mining (FSM) is a vital issue and has attracted numerous researchers in recent years, among them, MNI-based approaches are considered as state-of-the-art, such as the GraMi algorithm. FSM plays an important role in various tasks, such as data mining, model analysis, and decision support systems. It is defined as finding all subgraphs whose occurrences in the dataset are greater than or equal to a given frequency threshold. In recent applications, such as social networks, the underlying graphs are very large, therefore algorithms for mining frequent subgraphs from a single large graph have been developing rapidly lately but all of them have huge search spaces, and therefore still needs a lot of time and memory to process. For frequent subgraph mining field, in this thesis, we have proposed a method to record the support of mined subgraphs; a sorting strategy to reduce the number of generated subgraphs; a parallel processing approach to reduce the mining time; early pruning of invalid values in the domain to balance the search space. Our experiments on four real datasets (both of the directed and undirected graphs) showed that the four proposed algorithms had better results with respect to the search space, the running time and the memory requirements and enhance the performance. Besides that, closed frequent subgraph mining was also developed. This has many practical applications and is a fundamental premise for many studies. We propose a closed frequent subgraph mining algorithm based on GraMi to find all closed frequent subgraphs in a single large graph; two strategies are also developed: namely early determining for closed frequent subgraphs and early pruning non-closed subgraphs; and these are used to improve the performance of the proposed algorithm. All our experiments for closed frequent subgraph mining are performed on five real directed/undirected graph datasets and the results show that the running time as well as the memory requirements of our algorithm are better than those of the GraMi-based algorithm.Velké a složité grafy se často používají pro simulaci komplexních vztahů mezi objekty v mnoha aplikacích v různých oblastech, jako jsou sociální sítě, mapy, počítačové sítě, chemické struktury, bioinformatika, počítačové vidění a webové analýzy. Časté dolování podgrafů (FSM) je zásadní problém a v posledních letech přitahuje řadu výzkumníků, mezi nimi jsou přístupy založené na MNI považovány za nejmodernější, jako je algoritmus GraMi. FSM hraje důležitou roli v různých úkolech, jako je dolování dat, analýza modelů a systémy na podporu rozhodování. Je definována jako nalezení všech podgrafů, jejichž výskyty v datové sadě jsou větší nebo rovné danému frekvenčnímu prahu. V nedávných aplikacích, jako jsou sociální sítě, jsou podkladové grafy velmi velké, a proto se algoritmy pro dolování častých podgrafů z jednoho velkého grafu v poslední době rychle vyvíjejí, ale všechny mají obrovské vyhledávací prostory, a proto stale potřebují spoustu času a paměti ke zpracování. Pro frekventované podgrafní těžební pole jsme v této práci navrhli metodu pro záznam podpory vytěžených podgrafů; strategii třídění pro snížení počtu generovaných podgrafů; přístup paralelního zpracování pro zkrácení doby těžby; včasné ořezávání neplatných hodnot v doméně, aby se vyrovnal prostor pro vyhledávání. Naše experiment na čtyřech reálných souborech dat (jak orientovaných, tak neorientovaných grafů) ukázaly, že naše čtyři navržené algoritmy měly lepší výsledky s ohledem na prohledávací prostor, dobu běhu a požadavky na paměť a zvýšily výkon výpočtu. Mimo to byla rovněž rozvinuta metoda hkedání uzavřených (closed) grafů. To má mnoho praktických aplikací a je základním předpokladem pro mnoho studií. Navrhujeme uzavřený algoritmus dolování častých podgrafů založený na GraMi k nalezení všech uzavřených častých podgrafů v jediném velkém grafu; jsou také vyvinuty dvě strategie: jmenovitě včasné určování pro uzavřené časté podgrafy a včasné ořezávání neuzavřených podgrafů; a ty se používají ke zlepšení výkonu navrhovaného algoritmu. Všechny naše experimenty pro uzavřené časté dolování podgrafů jsou prováděny na pěti skutečných řízených/ neorientovaných grafových datových sadách a výsledky ukazují, že doba běhu a paměťové požadavky našeho algoritmu jsou lepší než u algoritmu založeného na GraMi.460 - Katedra informatikyvyhově
    corecore