8 research outputs found

    Towards extending the SWITCH platform for time-critical, cloud-based CUDA applications: Job scheduling parameters influencing performance

    Get PDF
    SWITCH (Software Workbench for Interactive, Time Critical and Highly self-adaptive cloud applications) allows for the development and deployment of real-time applications in the cloud, but it does not yet support instances backed by Graphics Processing Units (GPUs). Wanting to explore how SWITCH might support CUDA (a GPU architecture) in the future, we have undertaken a review of time-critical CUDA applications, discovering that run-time requirements (which we call ‘wall time’) are in many cases regarded as the most important. We have performed experiments to investigate which parameters have the greatest impact on wall time when running multiple Amazon Web Services GPU-backed instances. Although a maximum of 8 single-GPU instances can be launched in a single Amazon Region, launching just 2 instances rather than 1 gives a 42% decrease in wall time. Also, instances are often wasted doing nothing, and there is a moderately-strong relationship between how problems are distributed across instances and wall time. These findings can be used to enhance the SWITCH provision for specifying Non-Functional Requirements (NFRs); in the future, GPU-backed instances could be supported. These findings can also be used more generally, to optimise the balance between the computational resources needed and the resulting wall time to obtain results

    Towards a methodology for creating time-critical, cloud-based CUDA applications

    Get PDF
    CUDA has been used in many different application domains, not all of which are specifically image processing related. There is the opportunity to use multiple and/or distributed CUDA resources in cloud facilities such as Amazon Web Services (AWS), in order to obtain enhanced processing power and to satisfy time-critical requirements which cannot be satisfied using a single CUDA resource. In particular, this would provide enhanced ability for processing Big Data, especially in conjunction with distributed file systems (for example). In this paper, we present a survey of time-critical CUDA applications, identifying requirements and concepts that they tend to have in common. In particular, we investigate the terminology used for Quality of Service metrics, and present a taxonomy which summarises the underlying concepts and maps these terms to the diverse terminology used. We also survey typical requirements for developing, deploying and managing such applications. Given these requirements, we consider how the SWITCH platform can in principle support the entire life-cycle of time-critical CUDA application development and cloud deployment, and identify specific extensions which would be needed in order fully to support this particular class of time-critical cloud applications

    Journal of Real-Time Image Processing manuscript No. (will be inserted by the editor) Evaluation of real-time LBP computing in multiple architectures

    Get PDF
    Abstract Local Binary Pattern (LBP) is a texture operator that is used in several different computer vision applications requiring, in many cases, real-time operation in multiple computing platforms. The irruption of new video standards has increased the typical resolutions and frame rates, which need considerable computational performance. Since LBP is essentially a pixel operator that scales with image size, typical straightforward implementations are usually insufficient to meet these requirements. To identify the solutions that maximize the performance of the real-time LBP extraction, we compare a series different implementations in terms of computational performance and energy efficiency while analyzing the different optimizations that can be made to reach real-time performance on multiple platforms and their different available computing resources. Our contribution addresses the extensive survey of LBP implementations in different platforms that can be found in the literature. To provide for a more complete evaluation, we have implemented the LBP algorithms in several platforms such as Graphics Processing Units, mobile processors and a hybrid programming model image coprocessor. We have extended the evaluation of some of the solutions that can be found in previous work. In addition, we publish the source code of our implementations

    Object Detection on GPU

    Get PDF
    Tato práce je zaměřena na akceleraci detekce objektů v obraze metodou Random Forest. Detektor Random Forest se skládá ze souboru náhodných rozhodovacích stromů, které jsou na sobě nezávisle vyhodnocovány, čehož lze využít pro akceleraci na grafické jednotce. Vývoj a zvyšování výkonu grafických procesorů umožnilo použití GPU pro masivně paralelní obecné výpočty (GPGPU). Cílem této práce je popsat způsob implementace metody Random Forest na GPU s využitím standardu OpenCL.This thesis is focused on the acceleration of Random Forest object detection in an image. Random Forest detector is an ensemble of independently evaluated random decision trees. This feature can be used to acceleration on graphics unit. Development and increasing performance of graphics processing units allow the use of GPU for general-purpose computing (GPGPU). The goal of this thesis is describe how to implement Random Forest method on GPU with OpenCL standard.

    Face Detection in Video on GPU

    Get PDF
    Tato práce se zabývá detekcí obličejů na gra fickém procesoru. V první části je uveden přehled metod detekce obličejů se zaměřením na detektor Violy a Jonese. Dále jsou prostudovány možnosti mapování klíčových částí detektoru na gra fickou kartu. Další část práce popisuje implementační detaily navržené aplikace. Na konci práce jsou zahrnuty výsledky a porovnání s CPU implementací. Poslední kapitola shrnuje celou práci a navrhuje budoucí možnosti vývoje.This work deals with task of face detection on graphic card. First part is the introduction to face detection methods focusing on detector proposed by Viola and Jones. Further, this work studies the possibilities of mapping detector's key parts on graphic card. Next part describes implementation details of designed application. The end of work include results and comparison with CPU approach. The last chapter summarizes the whole work and proposes future possibilities of development.

    Object Detection on GPU

    Get PDF
    Tato práce se zabývá detekcí objektů pomocí grafických procesorů . Jako její součást byl navržen a naimplementován nástroj pro detekci objektů na technologii NVIDIA CUDA , umožňující detekovat objekty ve videu v reálném čase nebo zpracovávat velké množství fotografií . Jejím cílem je prozkoumat aktuální možnosti technologie NVIDIA CUDA vzhledem k detekci objektů a navrhnout , jak by se daly akcelerovat .This thesis addresses the topic of object detection on graphics processing units. As a part of it, a system for object detection using NVIDIA CUDA was designed and implemented, allowing for realtime video object detection and bulk processing. Its contribution is mainly to study the options of NVIDIA CUDA technology and current graphics processing units for object detection acceleration. Also parallel algorithms for object detection are discussed and suggested.

    Fast Face Detection And Recognition On Graphics Processing Units

    Get PDF
    Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2012Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2012Bu çalışmada, iteleme tabanlı bir yüz saptama algoritması ile nitelik tabanlı bir yüz tanıma algoritması yoğun bir şekilde paralelleştirilmiş ve bir GİB (Grafik İşlem Birimi) üzerinde çalışmak üzere geliştirilmiştir. Bu algoritmaların tüm adımları GİB mimarisine uygun şekilde paralelleştirilmiş ve CUDA (Compute Unified Device Architecture) platformu kullanılarak gerçeklenmiştir. Alternatif paralelleştirme yöntemlerinden ve bu yöntemlerdeki problemlerden de bahsedilmiştir. Karşılaştırma amacıyla, aynı algoritmaların bir MİB (Merkezi İşlem Birimi) üzerinde çalışan sürümleri de gerçeklenmiştir. Gerçeklenen algoritmaların hız ve başarımları karşılaştırılmıştır. Yüz saptama algoritması için karşılaştırma işlemi, hem sabit görüntüler, hem de 5 farklı çözünürlükteki video akışları üzerinde yapılmıştır. Yüz tanıma algoritması için karşılaştırmalar ise, farklı nitelik yöneyi uzunlukları ve veritabanı boyuları için yapılmıştır. Karşılaştırma sonuçları, grafik işlemcinin, MİB ile aynı sonuçları üretmekle birlikte, işlemleri çok daha hızlı bitirdiğini göstermiştir. GİB ile MİB arasında hız farkının çözünürlük, nitelik yöneyi boyutu ve veritabanı büyüklüğü ile birlikte arttığı görülmüştür. Bu sonuçlar, grafik işlemcilerin bu algoritmalar için özellikle fazla veri işlenmesi gereken durumlarda çok daha uygun olduğunu göstermektedir.Bu çalışmada, iteleme tabanlı bir yüz saptama algoritması ile nitelik tabanlı bir yüz tanıma algoritması yoğun bir şekilde paralelleştirilmiş ve bir GİB (Grafik İşlem Birimi) üzerinde çalışmak üzere geliştirilmiştir. Bu algoritmaların tüm adımları GİB mimarisine uygun şekilde paralelleştirilmiş ve CUDA (Compute Unified Device Architecture) platformu kullanılarak gerçeklenmiştir. Alternatif paralelleştirme yöntemlerinden ve bu yöntemlerdeki problemlerden de bahsedilmiştir. Karşılaştırma amacıyla, aynı algoritmaların bir MİB (Merkezi İşlem Birimi) üzerinde çalışan sürümleri de gerçeklenmiştir. Gerçeklenen algoritmaların hız ve başarımları karşılaştırılmıştır. Yüz saptama algoritması için karşılaştırma işlemi, hem sabit görüntüler, hem de 5 farklı çözünürlükteki video akışları üzerinde yapılmıştır. Yüz tanıma algoritması için karşılaştırmalar ise, farklı nitelik yöneyi uzunlukları ve veritabanı boyuları için yapılmıştır. Karşılaştırma sonuçları, grafik işlemcinin, MİB ile aynı sonuçları üretmekle birlikte, işlemleri çok daha hızlı bitirdiğini göstermiştir. GİB ile MİB arasında hız farkının çözünürlük, nitelik yöneyi boyutu ve veritabanı büyüklüğü ile birlikte arttığı görülmüştür. Bu sonuçlar, grafik işlemcilerin bu algoritmalar için özellikle fazla veri işlenmesi gereken durumlarda çok daha uygun olduğunu göstermektedir.Yüksek LisansM.Sc
    corecore