5 research outputs found

    Efficient Architecture of Variable Size HEVC 2D-DCT for FPGA Platforms

    Get PDF
    This study presents a design of two-dimensional (2D) discrete cosine transform (DCT) hardware architecture dedicated for High Efficiency Video Coding (HEVC) in field programmable gate array (FPGA) platforms. The proposed methodology efficiently proceeds 2D-DCT computation to fit internal components and characteristics of FPGA resources. A four-stage circuit architecture is developed to implement the proposed methodology. This architecture supports variable size of DCT computation, including 4×4, 8×8, 16×16, and 32×32. The proposed architecture has been implemented in System Verilog and synthesized in various FPGA platforms. Compared with existing related works in literature, this proposed architecture demonstrates significant advantages in hardware cost and performance improvement. The proposed architecture is able to sustain 4K@30fps ultra high definition (UHD) TV real-time encoding applications with a reduction of 31-64% in hardware cost

    IMPLEMENTASI DISCRETE COSINE TRANSFORM (DCT) PADA FIELD PROGRAMMABLE GATE ARRAY (FPGA) UNTUK APLIKASI KOMPRESI CITRA

    Get PDF
    DCT adalah transformasi data yang mengubah dari domain waktu ke domain frekuensi, yang mampu memisahkan informasi pada frekuensi rendah hingga frekuensi tinggi. Manfaat dari transformasi ini cukup banyak, karena dengan bantuan transformasi ini dapat mengurangi besar data yang dikandung oleh citra tanpa merusak kulaitas citra tersebut. Pada tugas akhir ini penulis telah merancang sistem DCT dengan N=8 dan N=2 dan berhasil diimplementasikan pada FPGA Altera Cyclone II – EP2C20F484C7. Penelitian ini bertujuan untuk membuktikan bahwa DCT dapat diimplementasikan pada FPGA dan hasilnya tidak jauh beda dengan perhitungan menggunakan MATLAB. Sistem ini dirancang menggunakan bahasa VERILOG yang merupakan bahasa hardware yang dimengerrti oleh FPGA, pemilihan bahasa ini untuk memudahkan dalam mengkodekan perhitungan sistem DCT. Sistem ini dikodekan menggunakan Quartus Lite 16.0.0.2.1.1 dan disimulasikan dengan MODELSIM lalu kemudian disintesa pada FPGA. Hasil keluaran dari FPGA akan dibandingkan dengan hasil keluaran dari MATLAB. Setelah disimulasikan dan didapatkan hasilnya, sistem disintesa ke board FPGA Altera Cyclone II – EP2C20F484C7. Dari hasil simulasi yang dapat diimplementasikan pada board FPGA Altera Cyclone II – EP2C20F484C7 hanya DCT dengan N=2 karena DCT dengan N=8 memakan resource memory yang cukup besar yaitu 3285% sedangkan sistem DCT dengan N=2 sebesar 92%. Dari hasil simulasi juga didapatkan perbandingan waktu delay dan BER antara perhitungan menggunakan MATLAB dan FPGA. Hasilnya adalah waktu delay yang dibutuhkan oleh MATLAB untuk menghitung DCT dengan N=8 adalah 0.10894 s dan dengan N=2 adalah 0.12107 s sedangkan waktu yang dibutuhkan oleh FPGA untuk menghitung DCT dengan N=8 adalah 0.00000024 s dan dengan N=2 adalah 0,00000136 s. BER yang dihasilkan antara MATLAB dengan FPGA adalah 0.2930 untuk DCT dengan N=2 dan 0.0503 untuk DCT dengan N=8. Kata kunci: Discrete Cosine Transform, Kompresi Citra, Field Programmable Gate Arra

    Energy area and speed optimized signal processing on FPGA

    Get PDF
    Matrix multiplication and Fast Fourier transform are two computational intensive DSP functions widely used as kernel operations in the applications such as graphics, imaging and wireless communication. Traditionally the performance metrics for signal processing has been latency and throughput. Energy efficiency has become increasingly important with proliferation of portable mobile devices as in software defined radio. A FPGA based system is a viable solution for requirement of adaptability and high computational power. But one limitation in FPGA is the limitation of resources. So there is need for optimization between energy, area and latency. There are numerous ways to map an algorithm to FPGA. So for the process of optimization the parameters must be determined by low level simulation of each of the designs possible which gives rise to vast time consumption. So there is need for a high level energy model in which parameters can be determined at algorithm and architectural level rather than low level simulation. In this dissertation matrix multiplication algorithms are implemented with pipelining and parallel processing features to increase throughput and reduce latency there by reduce the energy dissipation. But it increases area by the increased numbers of processing elements. The major area of the design is used by multiplier which further increases with increase in input word width which is difficult for VLSI implementation. So a word width decomposition technique is used with these algorithms to keep the size of multipliers fixed irrespective of the width of input data. FFT algorithms are implemented with pipelining to increase throughput. To reduce energy and area due to the complex multipliers used in the design for multiplication with twiddle factors, distributed arithmetic is used to provide multiplier less architecture. To compensate speed performance parallel distributed arithmetic models are used. This dissertation also proposes method of optimization of the parameters at high level for these two kernel applications by constructing a high level energy model using specified algorithms and architectures. Results obtained from the model are compared with those obtained from low level simulation for estimation of error
    corecore