?

一種多核處理器時鐘精確并行仿真技術

2015-02-25 09:45蘇雅麗呼和浩特民族學院內蒙古呼和浩特010051
赤峰學院學報·自然科學版 2015年6期
關鍵詞:時鐘

蘇雅麗(呼和浩特民族學院,內蒙古 呼和浩特 010051)

?

一種多核處理器時鐘精確并行仿真技術

蘇雅麗
(呼和浩特民族學院,內蒙古呼和浩特010051)

摘要:PCASim作為時鐘精確多核處理器有著廣泛的應用,本文主要研究該處理器的并行仿真技術.在仿真技術方面,PCASim主要根據成熟的串行仿真技術制造獲得,其中,在進行的仿真目標系統中有多項專業技術系統組成,主要包括:基于目錄的高速緩存一致性協議;動態競爭的互連網絡;多層次的存儲子系統.同時,PCASim采用了并行化原型仿真器——POSIX線程庫,能夠進行劃分對象模型為存儲子系統、處理器核,并能夠實現到宿主線程的映射,依靠S1ack機制實現線程同步.本文就是為了解決該問題,確保仿真器時鐘精確性,通過研究當前所廣泛應用的S1ack機制,提出了新同步方法.在新的方法中主要采用了提前設置懸掛路障,從而能夠實現零延遲事件實時監控并被接受,提高保守同步協議能力.

關鍵詞:多核處理器;PCASim;時鐘;精確;并行仿真

1 引言

在單核處理器的發展過程中,功耗問題和處理性能問題一直困擾著計算機技術的發展,然而多核處理器出現就解決了該問題.同時,根據摩爾定律可知,在一年半的時間內必然讓單片芯片上集成的晶體管數目成倍增加.晶體管技術的發展促使處理器能夠具備更加豐富的功能,從而提升處理功能.2005年之前,Intel和AMD主要從晶體管增加的技術來促進處理器性能的提升.該方法在此之前卻未使處理器技術獲得革命性的發展,而是在發展中使處理器成為阻礙計算機技術發展難點.在處理器頻率達到一定的數值時,晶體管性能邊際收益阻礙了其功能的進一步提升,并且這一過程中還存在散熱偏大和功耗過大的問題(Agarwal et al,2000).因此,研究多核處理器的仿真細致建模有著重要的意義.

圖1 串行仿真器性能的可擴展性

根據上圖可知,當目標系統處理器數呈現增加趨勢時,傳統時鐘精確串行仿真存在超線性時間開銷的情況.上圖中為SimpleScalar的串行多處理器仿真器規模下運行多道程序與多線程程序得到的性能降速比,其中,所用來做比較的是單處理器應用下的數據.通過這一對比可以看出,在多線程程序和多道程序中串行仿真的降速比都超出了線性斜率,額外性能開銷在8節點模式下已經超出了1倍.同時,在兩種模式下性能下降更為明顯.因此,應該選擇并行化技術來面對該問題帶來的壓力,多核處理器仿真技術的研究有著重要價值.

2 實驗設置

本文研究中選擇目標處理器核兼容X86指令級,處理器核采用了支持單線程的五級超標量亂序執行流水線;處理器核都各自進行連接數據高速緩存體和指令高速緩存體,二級高速緩存體接收到第一層總線共享數塊,會進一步借助第二層總線將數據共享到主存控制器和三級高速緩存,從而能夠形成胖樹型拓撲的結構.其中,在一級、二級、三級高速緩存及主存訪問延遲分別為2、10、50、200 Cycle,由目錄式MOESI協議維持一致性.同時,測試實例均采用了配置32核心目標處理器,并且處理器其他設置完全一致.

根據多線程并行程序測試套件Splash2的應用程序,本文選擇其中較為典型程序進行測試,具體有:OCEANCONTIGUOUS、WATER- NSQUARED、WATER- SPATIAL、CHOLESKY、RADIX、LU- CONTIGUOUS、LU- NONCONTIGUOUS以及FFT,同時,設置較大輸入規模.實際上,以上程序在工作集和存儲訪問模式具備明顯不同的差異,從而能夠涉及不同處理器性能和模型特征.PCASim在進行測試可擴展性和功能性能時,分別使用1、5、9、17條宿主線程仿真32條目標程序線程.通過對比并行仿真的IPC與串行仿真的周期精準,PCASim仍存在部分偏差,導致這一現象的原因是宿主線程并行執行存在不確定性,本文研究中會給出相應的精確度對比結果.此外,進行比較了在增加懸掛故障對仿真器性能的影響.

3 實驗結果與分析

根據圖2數據可知,說明了PCASim并行仿真時相對串行仿真的加速比以及可擴展性.加速比實際上是由測試程序串行仿真與并行仿真時分別耗費的邏輯時間的比值.在應用5條、9條、17條宿主線程進行程序測試所獲得加速比分別為48倍、63倍、8.66倍.同時,在應用5條、9條、17條宿主線程中所獲得仿真器的并行效率呈現上升的趨勢,其中,導

致該現象原因主要包括集中式管理線程的通信瓶頸以及每條核心線程計算負載的相對下降.通過分析可知,集中式管理線程的通信瓶頸顯然存在,而每條核心線程計算負載的相對下降是因為采用32核處理器的目標系統,這就導致總核心線程數翻倍后計算負載降低.同時,在減弱計算負載過程中就會增加通信開銷比重,也就出現了惡化集中式管理線程的通信瓶頸.此外,增加的線程數會導致通信資源呈現逐漸上升的趨勢,同時也會分割管理線程功能,也就導致通信開銷出現額外增加.

圖2 在不同宿主線程下運行各測試程序時仿真器達到的加速比

表1 17條宿主線程下各測試程序的精度損失

根據上表的數據能夠直接獲得仿真器使用17條宿主線程時各測試程序的在邏輯時間與指令數兩種指標上的精度損失.同時,邏輯時間精度損失計算公式如下所示:

Cycle精神損失=

Splash2的測試程序在串行仿真中能夠保持確定性,也就是說目標系統在運行過程中都有一致性的狀態輸出結果,而PCASim卻不具備Splash2的確定性,導致這種情況主要原因是功能模擬器成為時序仿真器的一部分而被并行化,從而促使功能仿真器在執行指令的過程中出現數據競爭,也就產生了運行指令數量在每次運行中都存在一定差異.在功能仿真過程中,數據競爭在很大程度上控制難度較大.從時序仿真器的運行機制可知,Slack同步機制和懸掛路障同步機制都不能對仿真器的共享變量訪問順序進行排序;在控制數據競爭產生的過程中,就可以利用串行化來處理功能仿真,然而,該方法卻會在一定程度上降低線程數較大仿真器的并行度.

針對懸掛路障對并行仿真器性能的影響本文進行了研究,獲得研究結果如圖3所示.根據圖中數據可知,相對Slack機制進行了歸一數據處理,也就是降速比等于使用懸掛路障的仿真速度除以不使用懸掛路障、單純Slack同步的仿真速度.其中,仿真器中的懸掛路障未使用,這就不能及時接收到零延遲事件,同時,若出現零延遲事件遲到,接收線程就認為此時為其發生時刻,也就是進行延長仿真總時間,仿真速度也成為指標進行對比和分析.當一級高速緩存訪問缺失時就會進行創建懸掛路障,同時,相對管理線程運行速度,核心線程有著更快的速度,并且在超過時間窗口就會轉變成單時鐘周期同步.在應用程序訪問過程中,一級高速緩存有著很大的命中率,一般情況下也不會主動創建懸掛路障;在發生訪問缺失和核心線程超過時間窗口上限,相比于路障阻塞線程情況下,單時鐘周期同步的性能損失較低,所以,在創建懸掛路障時不會過大的影響仿真器性能.在實施懸掛路障能夠控制在性能范圍,保持其性能在5%上下浮動,負值性能產生也是因為并行仿真不確定導致的,可以看出,懸掛路障不會產生過大的影響.

圖3 懸掛路障機制對仿真器性能的影響

4 總結

通過實驗研究,PCASim在17條宿主線程規模時相對串行仿真達到了平均8.66倍的加速比,該數值保持在較高水平,同時,采用集中映射后端子系統就能夠展示可擴展性.

參考文獻:

〔1〕陳芳園,張冬松,王志英.異構多核處理器體系結構設計研究[J].計算機工程與科學,2011(12).

〔2〕唐軼軒,吳俊敏,陳國良,朱小東,胡蝶.并行片上網絡仿真器ParaNSim的設計及性能分析[J].西安交通大學學報,2012(02).

〔3〕王進祥,付方發,孫俊.NoC_MPSim:基于片上網絡通信架構多核仿真平臺[J].中國集成電路,2011(06).

〔4〕吳嘉慧.JPEG圖像解碼方案[J].現代計算機,2007(03).

〔5〕高明倫,杜高明.NoC:下一代集成電路主流設計技術[J].微電子學,2006(04).

〔6〕Luca Benini,Davide Bertozzi,A1essandro Bog1io1o,Francesco Meniche11i,Mauro O1ivieri. MPARM: Exp1oring the Mu1ti-Processor SoC Design Space with SystemC [J]. The Journa1 of VLSI Signa1 Processing -Systems for Signa1,Image,and Video Techno1ogy.2005 (2).

〔7〕Axe1 Jantsch,Johnny ?berg,Hannu Tenhunen. Specia1 issue on networks on chip [J]. Journa1 of Systems Architecture.2003(2).

中圖分類號:TP332

文獻標識碼:A

文章編號:1673- 260X(2015)03- 0012- 02

猜你喜歡
時鐘
北斗時鐘盤
別樣的“時鐘”
古代的時鐘
這個時鐘一根針
有趣的時鐘問題
有趣的時鐘
有個性的創意時鐘
無限時鐘
時鐘會開“花”
時鐘,時鐘,本領大!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合