4 research outputs found

    Improving Job Processing Speed through Shuffle Phase Optimization for SSD-based Hadoop MapReduce System

    Get PDF
    학위논문 (석사)-- 서울대학교 융합과학기술대학원 : 융합과학기술대학원 융합과학부(지능형융합시스템전공), 2015. 8. 홍성수.맵리듀스는 클라우드 데이터센터에서 대용량 데이터 처리를 위해 널리 사용되는 분산 처리 프로그래밍 모델이다. 맵리듀스는 맵, 셔플, 리듀스의 3단계로 구성된다. 하둡 맵리듀스는 맵리듀스 프로그래밍 모델을 구현한 프레임워크 중 가장 많이 쓰이는 것 중 하나이다. 현재 하둡 맵리듀스의 셔플 단계는 동일 데이터의 중복된 읽기/쓰기로 대량의 I/O를 발생시키며, 네트워크 전송에 의한 긴 지연을 발생시킨다. 이 문제를 해결하기 위하여 본 논문에서는 SSD 기반 하둡 맵리듀스 시스템에서 데이터 주소 기반의 셔플 메커니즘을 제안한다. 데이터 주소 기반의 셔플 메커니즘은 (1) 데이터 주소 기반 정렬 방법, (2) 데이터 주소 기반 병합 방법과 (3) 맵 출력 데이터 선 전송 방법으로 구성된다. 이는 임의 읽기/쓰기 속도가 빠른 SSD의 특징을 활용하여 대량의 중간 데이터 전체를 정렬하는 대신 작은 크기의 데이터 주소정보만을 정렬하고, 맵 태스크에서 리듀스 태스크로의 데이터 전송을 맵 출력 파일이 아닌 스필 파일과 주소정보 파일로 함으로써 네트워크 전송 시작을 앞당길 수 있는 메커니즘이다. 이를 활용하여 (1) 로컬 저장장치에 대한 읽기/쓰기 횟수와 데이터 양을 줄이고, (2) 네트워크 전송을 위한 지연 시간을 줄여 하둡 맵리듀스 셔플 단계의 수행시간을 단축하였다. 데이터 주소 기반의 셔플 메커니즘을 하둡 1.2.1에 구현하고 실험하였다. 실험결과 데이터 주소 기반의 셔플 메커니즘은 Terasort 벤치마크와 Wordcount 벤치마크의 평균 실행시간이 각각 8%와 1% 감소시킴을 보였다.초 록 i 목 차 iii 표 목차 iv 그림 목차 v 제 1 장 서 론 1 제 2 장 관련 연구 5 2.1 하둡 맵리듀스 성능 개선 연구 5 2.2 SSD 기반 하둡 시스템 연구 6 제 3 장 배 경 9 3.1 맵리듀스 프로그래밍 모델 9 3.2 하둡 맵리듀스 11 3.3 SSD (Solid State Drive) 특성 13 제 4 장 시스템 모델 15 4.1 SSD 기반의 하둡 시스템 15 4.2 하둡 맵리듀스의 셔플 단계 16 제 5 장 문제 정의 19 5.1 동일 데이터의 중복 읽기/쓰기 문제 19 5.2 네트워크 전송의 지연 문제 20 제 6 장 데이터 주소 기반 셔플 메커니즘 22 6.1 데이터 주소 기반 정렬 22 6.2 데이터 주소 기반 병합 23 6.3 맵 출력 데이터 선 전송 26 제 7 장 실험 및 평가 28 7.1 실험 환경 28 7.2 실험 결과 및 평가 30 제 8 장 결 론 35 참고 문헌 37 Abstract 40Maste

    Análisis Comparativo del Desempeño y Costo Computacional de una Infraestructura de Almacenamiento y Procesamiento Distribuido para el Procesamiento de Colecciones de Texto.

    Get PDF
    62 hojasLa computación distribuida para el procesamiento en paralelo sobre un clúster de computadores ofrece un rendimiento computacional mayor con tiempos de respuesta mucho menores que si se realizara el mismo procesamiento en una sola máquina. Si se toma en cuenta que cada computador por sí solo implica una serie de recursos y costos para su funcionamiento (económicos, humanos, etc.), y además se considera que cuanto más computadores se incluyan al clúster representará un aumento en tiempos de transmisión de información entre ellos, no es difícil inferir que habrá un punto en el cual se deberá hacer un balance entre las ventajas que ofrecen la inclusión de más computadores (en términos de capacidad de cómputo) y el costo que representan (en energía, dinero y transferencia de datos).PregradoIngeniería de Sistema

    Managing contamination delay to improve Timing Speculation architectures

    Get PDF
    Timing Speculation (TS) is a widely known method for realizing better-than-worst-case systems. Aggressive clocking, realizable by TS, enable systems to operate beyond specified safe frequency limits to effectively exploit the data dependent circuit delay. However, the range of aggressive clocking for performance enhancement under TS is restricted by short paths. In this paper, we show that increasing the lengths of short paths of the circuit increases the effectiveness of TS, leading to performance improvement. Also, we propose an algorithm to efficiently add delay buffers to selected short paths while keeping down the area penalty. We present our algorithm results for ISCAS-85 suite and show that it is possible to increase the circuit contamination delay by up to 30% without affecting the propagation delay. We also explore the possibility of increasing short path delays further by relaxing the constraint on propagation delay and analyze the performance impact
    corecore