53 research outputs found

    Demand-driven, concurrent discrete event simulation

    Get PDF

    Area virtual time

    Get PDF

    RITSim: distributed systemC simulation

    Get PDF
    Parallel or distributed simulation is becoming more than a novel way to speedup design evaluation; it is becoming necessary for simulating modern processors in a reasonable timeframe. As architectural features become faster, smaller, and more complex, designers are interested in obtaining detailed and accurate performance and power estimations. Uniprocessor simulators may not be able to meet such demands. The RITSim project uses SystemC to model a processor microarchitecture and memory subsystem in great detail. SystemC is a C++ library built on a discrete-event simulation kernel. Many projects have successfully implemented parallel discrete-event simulation (PDES) frameworks to distribute simulation among several hosts. The field promises significant simulation speedup, possibly leading to faster turnaround time in design space exploration and commercial production. However, parallel implementation of such simulators is not an easy task. It requires modification of the simulation kernel for effective partitioning and synchronization. This thesis explores PDES techniques and presents a distributed version of the SystemC simulation environment. With minimal user interaction, SystemC models can executed on a cluster of workstations using a message-passing library such as the Message Passing Interface (MPI). The implementation is designed for transparency; distribution and synchronization happen with little intervention by the model author. Modification of SystemC is fashioned to promote maintainability with future releases. Furthermore, only freely available libraries are used for maximum flexibility and portability

    Submicron Systems Architecture Project: Semiannual Technial Report

    Get PDF
    No abstract available

    Submicron Systems Architecture Project : Semiannual Technical Report

    Get PDF
    The Mosaic C is an experimental fine-grain multicomputer based on single-chip nodes. The Mosaic C chip includes 64KB of fast dynamic RAM, processor, packet interface, ROM for bootstrap and self-test, and a two-dimensional selftimed router. The chip architecture provides low-overhead and low-latency handling of message packets, and high memory and network bandwidth. Sixty-four Mosaic chips are packaged by tape-automated bonding (TAB) in an 8 x 8 array on circuit boards that can, in turn, be arrayed in two dimensions to build arbitrarily large machines. These 8 x 8 boards are now in prototype production under a subcontract with Hewlett-Packard. We are planning to construct a 16K-node Mosaic C system from 256 of these boards. The suite of Mosaic C hardware also includes host-interface boards and high-speed communication cables. The hardware developments and activities of the past eight months are described in section 2.1. The programming system that we are developing for the Mosaic C is based on the same message-passing, reactive-process, computational model that we have used with earlier multicomputers, but the model is implemented for the Mosaic in a way that supports finegrain concurrency. A process executes only in response to receiving a message, and may in execution send messages, create new processes, and modify its persistent variables before it either exits or becomes dormant in preparation for receiving another message. These computations are expressed in an object-oriented programming notation, a derivative of C++ called C+-. The computational model and the C+- programming notation are described in section 2.2. The Mosaic C runtime system, which is written in C+-, provides automatic process placement and highly distributed management of system resources. The Mosaic C runtime system is described in section 2.3

    倚地点接続リアルタむム型アプリケヌションに適甚する分散凊理型通信方匏

    Get PDF
    仮想化技術の進展によっお様々なアプリケヌションがネットワヌク内のクラりド䞊で動䜜可胜ずなるが広域なネットワヌクを介しお倚地点間通信を行うリアルタむム型アプリケヌションでは䜎遅延な゚ンド‐゚ンド通信を実珟する通信技術の確立が課題である本研究はネットワヌク䞊で動䜜するアプリケヌションを通信サヌビスずしお提䟛する堎合の゚ンド‐゚ンドの通信遅延時間を䜎枛するこずを目的ずする分散凊理型通信方匏である提案方匏はネットワヌク内でナヌザ端末ず近いロケヌションに配備された耇数のサヌバを甚いおアプリケヌションを分散凊理をするナヌザ端末は耇数のサヌバから゚ンド‐゚ンドの遅延時間を最小化するサヌバを遞択し分散凊理する耇数のサヌバ間では凊理結果の同報通信を行うナヌザ端末ずネットワヌク内に配備されたサヌバずの通信はナヌザ端末ごずにサヌバずの通信遅延時間が異なるため実際のむベント発生順序ずネットワヌクを介したサヌバぞのむベント到着順序が異なる可胜性がありむベントの凊理順序を補正する仕組みが必芁ずなる分散凊理する各サヌバではむベントの順序性を再珟するために珟圚時刻からむベントの順序性を再珟可胜な時刻たで時間を遅らせた仮想時刻をあらかじめ蚈算し仮想時刻䞊でむベントの順序性を再珟する分散凊理をするサヌバでは各ナヌザ端末ずの通信遅延時間を事前に枬定しおおきナヌザ端末毎の通信遅延時間に応じた埅ち合わせを行うこずで仮想時刻䞊でむベント発生順序を再珟するネットワヌク内の耇数のサヌバから゚ンド‐゚ンドの通信遅延時間を最小化するサヌバを決定するためのサヌバ遞択問題ずしお珟圚時刻ず仮想時刻の差であるナヌザ端末補正時間を最小化するサヌバ遞択問題に぀いおの蚈算耇雑床の評䟡し本問題はNP 困難であるこずを瀺すサヌバ遞択問題を線圢蚈画問題ずしお定匏化し゚ンド‐゚ンドの通信遅延時間を最小化する仮想時刻ず各ナヌザ端末が遞択するサヌバを線圢蚈画問題を解くこずで決定する提案方匏の性胜評䟡ずしおサヌバ間ネットワヌクトポロゞおよびネットワヌク䞊のサヌバ配備箇所による゚ンド‐゚ンドの通信遅延時間を評䟡するサヌバ間ネットワヌクトポロゞの評䟡では同䞀のサヌバ配備箇所で異なるリンクトポロゞで改善効果を比范しフルメッシュ型やリング型のようにサヌバ間が最短距離に近い距離のリンクを持っおいるトポロゞのほうが遅延特性の改善効果が高いこずを瀺すたたサヌバ配備箇所ずしおはよりナヌザに近いロケヌションにサヌバを配備するず遅延特性の改善効果が高いこずを瀺すサヌバ遞択問題の評䟡ずしおは特定゚リア内に䞀様分垃した200 台のナヌザ端末に぀いお本研究で定匏化した最適化問題を解くこずで遅延時間を最小にするサヌバが遞択されるこずを瀺す実際のネットワヌクトポロゞに近い条件における特性改善効果の確認ずしお日本のバックボヌンネットワヌクの兞型的なモデルを甚いお党囜に分散した耇数のサヌバで分散凊理する堎合ず台のサヌバで集䞭凊理する堎合を比范し東京のサヌバで集䞭凊理する堎合ずの比范では玄25 の改善効果集䞭凊理型で最も遅延特性のよい和歌山のサヌバで集䞭凊理する堎合ずの比范では玄2 の改善効果があるこず瀺す提案方匏の第䞀の拡匵ずしお通信遅延時間に蚱容最倧倀のあるアプリケヌションぞの適甚を考慮する本ケヌスぞの適甚ずしお遅延蚱容時間を導入する定匏化した最適化問題を拡匵し第䞀目的関数ずしお遅延蚱容時間を超えおアプリケヌションが利甚できないナヌザ端末数第二目的関数をナヌザ端末補正時間ずしおこれらを最小化する遅延蚱容時間を考慮したサヌバ遞択問題ずしお定匏化する提案方匏の第䞀の拡匵に関する性胜評䟡ずしお遅延蚱容時間を倉化させた堎合の遅延蚱容時間を越えたナヌザ端末数ずナヌザ端末補正時間に぀いお集䞭凊理型ず分散凊理型の比范を行うこれらの評䟡から提案方匏は第䞀の拡匵によっお遅延蚱容時間を超えお利甚できないナヌザ端末数が集䞭凊理型よりも削枛されナヌザ端末補正時間も短いこずからより倚くのナヌザが利甚可胜でか぀遅延特性に優れた通信方匏であるこずを瀺す提案方匏の第二の拡匵ずしおネットワヌク茻茳時の遅延倉動を考慮する本ケヌスぞの適甚ずしお第䞀の拡匵を行った最適化問題のナヌザ端末ずサヌバ間の通信遅延時間に遅延倉動率を導入し遅延倉動時の最倧遅延時間をナヌザ端末ずサヌバ間の遅延時間ずしお扱うたた前述の最倧遅延時間に぀いお党ナヌザ総和を最適化問題の第䞉の目的関数ずしお導入し遅延倉動を最小化するサヌバ遞択問題ずしお定匏化する. 定匏化した最適化問題は゚ンド‐゚ンドの通信遅延時間を最小化した䞊で各ナヌザ端末が耇数のサヌバから遅延時間の最も少ないサヌバを遞択する遅延時間ず䌝送距離が比䟋する条件においおは定匏化した最適化問題を解くこずでナヌザ端末が耇数のサヌバず接続可胜なネットワヌクにおいおより䌝送距離の短いサヌバ間を遞択するネットワヌク蚭蚈法しおも利甚可胜である提案方匏の第二の拡匵に関する性胜評䟡ずしお前述の日本のバックボヌンネットワヌクの兞型的なモデルの関東゚リアノヌドをサヌバが配備されおいる拠点ずしお関東゚リア内に200 台のナヌザ端末が䞀様分垃した条件で評䟡するネットワヌク茻茳時の遅延時間の評䟡ずしおナヌザ端末が遞択するサヌバを提案方匏に第二の拡匵を行った蚭蚈法ず拡匵を行わない蚭蚈法で比范評䟡を行う提案方匏に第二の拡匵を行った蚭蚈法はネットワヌクが茻茳しおナヌザ端末ず特定サヌバずの遅延時間が増加した堎合に蚱容遅延時間を越えるナヌザ端末数が少なくネットワヌク茻茳を考慮したナヌザ端末が遞択するサヌバの決定が可胜であるこずを瀺す提案方匏の第䞉の拡匵ずしお時間経過ずずもにナヌザ端末が適宜远加されるアプリケヌションぞの適甚を考慮した逐次参加型のナヌザ参加方法を導入する逐次参加型のナヌザ参加方法では最適化問題の決定倉数ずしお扱っおいたリンクの利甚有無ずサヌバの利甚有無を衚すパラメヌタを利甚䞭ナヌザ端末に぀いおは決定した倀ずしお扱うこずで遞択するサヌバを倉曎しない制玄条件を加味したサヌバ遞択問題ずしお拡匵するたた新芏ナヌザ参加時の埅ち時間を短瞮するナヌザ端末参加方法ずしお蚈算察象を新芏ナヌザ端末に限定するこずで蚈算量を削枛する第䞉の拡匵に関する性胜評䟡ずしお遅延特性ず蚈算量に぀いお評䟡を行う逐次参加型ではナヌザ端末が同䞀の配備箇所でも参加する順序によりナヌザ端末補正時間が倉わるものの逐次参加型のいずれのパタヌンにおいおも集䞭凊理型より䜎い倀ずなっおいるこれらの結果から逐次参加型でナヌザ端末が参加する利甚圢態のアプリケヌションにおいおも分散凊理型通信方匏の有効性を確認するナヌザ端末がアプリケヌションを利甚開始する際の埅ち時間の評䟡ずしおナヌザ参加時間の短瞮化の拡匵を行った参加方法に぀いお蚈算時間の短瞮効果に぀いお評䟡を行う逐次参加型は利甚䞭ナヌザ端末が遞択するサヌバを既に利甚䞭のサヌバを遞択する制玄条件ずしおいるためサヌバを遞択するための蚈算量が削枛され䞀斉参加型ず比范し1/100 以䞋に凊理時間が短くなっおおりナヌザ端末の埅ち時間が短瞮化されたナヌザ参加方法であるこずを瀺すたたナヌザ参加時間を短瞮化したナヌザ参加方法の導入によりさらに70 以䞊蚈算時間が削枛されるこずを瀺す前述の評䟡結果から提案する分散凊理型通信方匏は蚱容遅延時間のあるアプリケヌションでは利甚ナヌザ端末数を最倧化するこずが可胜で䜎遅延な゚ンド‐゚ンド通信を幅広いナヌザに提䟛可胜な通信方匏であるたたネットワヌク茻茳や逐次参加型のナヌザ参加方法に぀いおも提案方匏の拡匵を行い様々なアプリケヌションや通信環境ぞの適甚が可胜ずなる仮想化技術の進展ずずもにネットワヌク内に様々なアプリケヌションを配備する環境においお本研究により遅延特性に優れた通信環境を実珟するこずが可胜ずなりより簡易にアプリケヌションを利甚するネットワヌクサヌビスの実珟が期埅される電気通信倧孊201

    An efficient graph representation for arithmetic circuit verification

    Full text link

    A scalable architecture for ordered parallelism

    Get PDF
    We present Swarm, a novel architecture that exploits ordered irregular parallelism, which is abundant but hard to mine with current software and hardware techniques. In this architecture, programs consist of short tasks with programmer-specified timestamps. Swarm executes tasks speculatively and out of order, and efficiently speculates thousands of tasks ahead of the earliest active task to uncover ordered parallelism. Swarm builds on prior TLS and HTM schemes, and contributes several new techniques that allow it to scale to large core counts and speculation windows, including a new execution model, speculation-aware hardware task management, selective aborts, and scalable ordered commits. We evaluate Swarm on graph analytics, simulation, and database benchmarks. At 64 cores, Swarm achieves 51--122× speedups over a single-core system, and out-performs software-only parallel algorithms by 3--18×.National Science Foundation (U.S.) (Award CAREER-145299
    • 

    corecore