?

一種環形網絡的可擴展流水仲裁器設計*

2015-03-09 06:46任秀江施晶晶謝向輝
關鍵詞:流水仲裁鏈路

任秀江,施晶晶,謝向輝

(江南計算技術研究所, 江蘇 無錫 214083)

一種環形網絡的可擴展流水仲裁器設計*

任秀江?,施晶晶,謝向輝

(江南計算技術研究所, 江蘇 無錫 214083)

對環形網絡的仲裁器結構進行研究,提出了一種可擴展流水仲裁器結構,能夠同時完成通信緩沖和通信鏈路的分配.對14個通信節點互連進行了建模模擬,各節點命中數量差值小于5%,該結構仲裁器具有較好的仲裁公平性;然后采用Chartered 65 nm工藝對RTL設計進行了時序綜合實驗,關鍵通路延遲比同等規模的全交叉開關結構降低36.8%;同時該仲裁結構中的仲裁核心邏輯時序受互連規模變化影響較小,具有一定的可擴展性.

仲裁器;片上互連;環形網絡;可擴展設計

隨著微處理器體系結構的發展和VLSI工藝水平的持續進步,設計人員可以將更多的功能模塊集成到單個芯片中,多核結構已經成為微處理器發展的方向.與傳統的單核處理器相比,多核系統的片上通信機制變得更加復雜,對片上互連結構的要求也越來越高;另一方面,隨著工藝的不斷進步和片上芯片數量的不斷擴大,片上通信的線延遲正逐漸成為片上互連設計實現時需要考慮的重要因素.

片上網絡技術[1-3]能夠提供靈活擴展的互連架構,但額外的路由器設計不僅引入了新的功耗和面積開銷[4-6],路由算法、通信協議等設計更大大增加了片上互連的設計復雜度[7],尤其在片上通信節點數有限的芯片中,片上網絡設計的性價比不高.傳統的互連結構,如基于總線的結構或者全交叉開關結構,具有結構簡單、易實現的特點,但可擴展性受限.環形網絡是一種改進的多段總線互連結構,分段的互連線結構易于高頻實現和互連規模的擴大,仲裁器設計對發揮環形網絡的可擴展性具有重要影響.

本文對環形網絡的仲裁器結構進行研究,提出了一種阻塞式可擴展流水仲裁器結構,能夠較為公平地完成請求仲裁和鏈路分配,并且仲裁核心的邏輯長度受網絡規模影響小,能夠應用于不同通信節點數量的環形網絡設計中,具有一定的可擴展性.

1 相關研究

1.1 環形網絡互連結構

早期的片上互連結構中通信節點之間由物理介質直接互連,通信數據直接在源、目的之間傳輸,沒有通過第三方設備.這種基于直接連接的互連結構具有結構簡單、易于實現的特點.比較有代表性結構有總線結構、交叉開關結構.

總線是應用最早、最傳統的互連結構,如:ARM的AMBA[8],IBM的CoreConnect[9],Silicore的Wishbone,均為總線結構.總線結構中所有設備共享物理介質,因此無法在同一時刻支持一對以上設備通信,通信帶寬受限;并且隨著片上通信距離的增大,全局連線延遲往往可以達到若干個時鐘周期,對總線結構直接的影響是傳輸效率的進一步降低.

交叉開關(Crossbar)是在總線之后發展起來的常用互連結構[10],國內外多款多核處理器中均采用交叉開關結構互連,如:Sun公司的UltraSPARC多核處理器[11]、IBM公司POWER系列多核處理器[12].交叉開關在每一對通信節點間提供獨立的物理互連,能夠克服帶寬限制問題,可以實現盡可能多的并發通信,通信效率高.但交叉開關的連線資源開銷與節點數成比例增加,節點數增多會導致通信端口的連線數量劇增、線負載增大,不利于后端設計實現,不利于互連規模擴展.

環形網絡中也是通過共用物理鏈路實現互連的,與總線結構不同的是,通信節點將物理連線分成多段,段間有寄存器站臺隔開,有利于實現高頻設計.不重合的段與段之間可以獨立使用,能夠提供較高的聚合通信帶寬.環形網絡中連線規整,易于同時實現多套物理連線,降低片上通信的沖突性.例如,IBM研制的CELL處理器[13]中實現了4套環形網絡來降低通信沖突、提高聚合通信帶寬.設置不同方向的環形網絡,可以將網絡直徑減少為網絡規模的一半.

環形網絡是對總線結構和交叉開關結構的折中,因此環形網絡同時具有總線結構易于實現和交叉開關聚合帶寬高的優點.同時,環形網絡中的互連通過分段的總線連接,節點數增加對網絡實現的影響小,并且由于連線規整,易于后端實現.但環形網絡有些非相鄰節點的通信會存在通信鏈路競爭的問題,如何做好環形網絡中各段鏈路的分配工作,對發揮環形網絡聚合通信帶寬、提高通信效率具有重要意義.

1.2 NoC片上網絡

為解決大規模多核SoC中的全局通信問題,基于路由轉發的互連結構——片上網絡(NoC:Network on Chip)成為近些年學術界研究的熱點[1-3].借鑒于分布式計算網絡,片上網絡NoC中通過路由器將分布在芯片上的計算資源連接起來,路由器負責轉發各設備之間的通信信息,有效地實現了計算與通信的分離.

NoC概念從被提出之后就受到廣泛關注,并有多個處理器采用了NoC作為互連結構,影響比較大的有:麻省理工的RAW處理器[14],Intel的TeraFLOPS處理器[4,15-16],Tilera公司的Tile64處理器[5,17-18]等.基于路由轉發的片上網絡具有很好的擴展性,也引入了眾多新問題,如NoC拓撲結構、路由算法選擇、流量控制等與片外網絡有著很大不同,這些都大大增加了片上互連的設計復雜度.

NoC中路由器的引入進一步加劇了片上的功耗、面積開銷.文獻[19]中介紹在Teraflops和RAW原型芯片中NoC所占功耗比重分別為30%和40%.文獻[4,19]中對路由器的功耗分布進行了分析,緩沖功耗比例達22%;文獻[20]分析RAW和TRIPS處理器中輸入緩沖所占功耗分別達到了31%和35%.在面積開銷方面,Teraflops芯片中路由器面積占瓦片面積的17%[4],其中大部分面積均為輸入或輸出端口中的緩沖;TILE64處理器的片上網絡中緩沖占到60%[5],TRIPS處理器中輸入緩沖占到路由器面積的75%以上[6].

1.3 仲裁機制研究

仲裁器是互連結構中的核心部件,它負責在相互沖突的通信請求之間做出選擇,在源和目標之間建立通信.例如:在總線中,仲裁器需要對不同設備同時提交的請求進行選擇,決定不同請求對總線的占用,保證不同設備對總線的串行時間使用;在路由器中,仲裁器的功能更加復雜,不僅需要對目標方向相同的多個通信請求進行選擇,還需要根據目標坐標為通信請求選擇合適的傳輸方向.

除了解決通信沖突,公平性和效率也是評價一個仲裁器的重要指標.公平性是指仲裁器需要保證各個通信設備之間能夠幾率均等地使用通信資源,不允許有饑餓的情況發生,比較典型的仲裁機制有輪轉仲裁[21]、堆棧仲裁等.在一些特殊的情況下,也會使用有優先級的仲裁設計,比如固定優先級仲裁[22].效率是指仲裁器需要最大化通信資源的使用率,有通信請求的情況下,盡可能地使不沖突的通信請求能夠并發處理,努力減少通信資源的空閑時間.

當通信設備增多、仲裁規模擴大后,仲裁邏輯往往會成為電路的關鍵路徑,尤其是在高頻設計中.這種情況下通常會使用分級仲裁,同時收到的多個請求先進行分組仲裁,經過分組后的結果再進行最終仲裁.在分級仲裁結構中,選擇仲裁機制時需要注意避免饑餓情況的發生,比如多級的輪轉仲裁結構中極易發生饑餓[23,24].為解決輪轉仲裁中的饑餓問題,引入了超時機制和固定優先級仲裁,即為每個請求的等待時間進行計數,如果等待時間超過某一閾值,則提高該超時請求的仲裁等級.超時機制的引入,能夠解決饑餓問題,但對互連結構的通信效率有所影響.

隨著片上通信規模的增多,仲裁器需要在時序、公平、效率等方面均衡考慮,這是仲裁器設計的重點.例如,CELL處理器的EIB互連結構[25]中,將傳輸請求的處理分為兩個階段:請求仲裁階段和鏈路仲裁階段.這種分段仲裁結構能夠降低仲裁時序,同時也能夠兼顧通信設備間的公平性.但也存在問題,例如獲得請求仲裁的請求在沒有獲得鏈路仲裁之前將一直占有請求目標的通信資源,降低了通信節點上的資源利用效率;并且請求仲裁階段,請求的廣播和偵聽過程較為復雜,延時較長,這會降低仲裁器效率.

本文對基于環形網絡的仲裁結構進行研究,提出了一種可擴展的流水仲裁結構,并且針對某SoC芯片完成了14節點的環形網絡設計.通過軟件模擬和后端實驗,具有較高的可實現性.本文后續章節安排如下,第2部分介紹了用于環形網絡的可擴展流水仲裁器的結構,第3部分對基于該仲裁器的環形網絡和交叉開關結構進行了軟件模擬和設計實現比較,最后對模擬、實驗結果進行小結.

2 環形網絡的可擴展流水仲裁器

為充分發揮環形網絡結構的高聚合帶寬優勢,同時解決上文所述EIB仲裁結構的缺點,提出一種可擴展流水仲裁器結構.

2.1 中心仲裁的環形網絡結構

圖1所示是中心仲裁控制環形網絡結構示意圖.整個環形網絡由通信單元、節點站臺、流水仲裁器組成.其中通信單元是本地設備的接口部件,負責向流水仲裁器提出通信請求;流水仲裁器集中控制通信節點上的通信資源分配和通信鏈路的分配;節點站臺負責根據中心仲裁器的指示控制傳輸數據的傳輸和上下網通道的選通.環形網絡上的通信過程分為以下3步:

圖1 中心仲裁控制的環形網絡結構圖

1)通信單元向仲裁器發出通信請求;

2)仲裁器根據請求目標節點的通信資源占用情況和通信鏈路的使用情況對請求進行仲裁處理;

3)獲得仲裁成功響應的請求將通信數據發送到仲裁器分配的環形網絡鏈路上,傳送到目標節點下網.

由于鏈路沖突、目標接收緩沖的分配均在流水仲裁器中的仲裁階段解決,通信數據在環形網絡上的傳輸不會發生沖突,這種機制可以簡化節點站臺的設計.節點站臺只需根據通信數據中攜帶的目標號控制鏈路開關決定數據繼續傳輸或者下網到達目標節點,到達目標節點的數據無條件下網寫入接收緩沖.

2.2 可擴展的流水仲裁器

流水仲裁器是環形網絡的核心部件,負責接收通信請求、分配接收緩沖資源、分配通信鏈路等功能.

2.2.1 仲裁器總體結構

流水仲裁器的控制結構由兩套鏈路構成.圖2所示是請求提交和響應返回通路,主要由請求發送單元、請求篩選單元、仲裁核心三部分構成.該通路主要用于通信請求的提交和仲裁結果的返回.請求發送單元與通信單元連接,支持多個虛通道設置,負責將多個虛通道中的請求進行選擇后提交給請求篩選單元;請求篩選單元連接多個通信單元,能夠接收緩存通信單元提交的通信請求;仲裁核心接收請求篩選單元提交的通信請求,進行仲裁后對通信請求方返回仲裁響應.

圖2 請求提交和響應返回通路

通過調節寄存器站臺,使得仲裁響應返回各通信節點的延遲相同,因此通信節點收到響應后可以在固定的時間內發送數據上網,這可以簡化響應通路設計.

除了請求提交通路外,還有一條簡單的信用釋放鏈路,由信用釋放單元、中心信用管理單元構成.該通路是個單向通路,主要作用是將通信單元中接收緩沖的釋放信息發送到中心信用管理單元中.

2.2.2 有條件篩選請求

請求篩選操作分布在多個單元中配合完成:請求發送單元,完成不同虛通道間請求的篩選;請求篩選單元,完成不同請求發送單元提交請求的篩選.

位于通信單元內的請求發送單元中包含多個虛通道,能夠保存不同類型的請求.相同虛通道內的請求采用先來先服務的原則進行排隊,不同虛通道內的請求則采用公平的堆棧仲裁策略選擇后進行提交.請求發送單元為每個虛通道中的頭請求設置一個年齡計數器,提交出去的請求每返回一次失敗響應,則將年齡計數器加1.根據接收到的仲裁響應,請求發送單元完成下述操作:

1)仲裁成功響應,啟動數據傳輸,清除命中虛通道的年齡計數值,根據堆棧仲裁器選擇提交下一個請求;

2)仲裁失敗響應,將仲裁失敗的虛通道年齡計數值加1,根據堆棧仲裁器選擇提交下一個請求;

3)如果選擇提交的請求的年齡計數值超過預設閾值,則將提交請求的超時標簽置有效;

請求篩選單元連接多個通信單元,能夠接收通信單元提交的通信請求,并按照一定的策略選擇請求提交給仲裁核心.圖3所示為連接4個通信單元的請求篩選單元結構示意圖.請求篩選單元中有請求提交緩沖,能夠保存接收到的請求,請求提交緩沖的深度大于等于連接的通信單元數.

請求篩選單元接收緩存請求的策略是:請求阻塞排隊,短距離優先.請求篩選單元采用先來先服務的順序阻塞排隊,緩存有效請求的同時保存請求的提交時間到“時間標簽”中.對于同時間到達的多個請求,按照請求傳輸距離進行排隊編號并保存到緩沖隊列中.

圖3 請求篩選單元結構示意圖

請求篩選單元向仲裁核心提交請求的策略是:有信用優先.請求篩選單元按照時間標簽從小到大(時間標簽相同的則按照排隊次序從小到大)開始遍歷緩沖隊列,挑選第一個有通信信用的請求提交到仲裁核心;如果都沒有通信信用,則按照隊列順序提交.這種以通信信用為條件的優先稱為有條件優先.

請求篩選單元實際上是在請求提交的過程中按照既定策略對請求進行了初步選擇,被優先選擇的請求都是屬于命中幾率高的請求(滿足基本通信條件,即目標方有通信信用).請求阻塞排隊和提交則保證每個通信單元都能有公平機會進行通信,防止饑餓或死鎖發生.通信單元中的接收緩沖被占滿后,釋放的時間是不確定的;而環形網絡中鏈路的占用總會在某一固定時間內排空.因此在請求篩選階段選擇有信用的請求優先提交可以提高仲裁效率和鏈路利用效率.

仲裁核心會返回請求仲裁兩種響應,請求篩選單元根據仲裁結果和請求實際情況,分3種情況進行處理:

1)請求成功響應,接到成功響應后請求篩選單元清除請求緩沖隊列中的相應條目,并提交下一個請求,同時對仲裁命中的請求發送單元返回仲裁成功信號;

2)請求失敗響應,并且該請求的超時標簽有效,則重新提交該請求;

3)請求失敗響應,該請求的超時標簽無效,則清除請求緩沖隊列中的相應條目,按照規則提交下一個請求,同時對仲裁失敗的請求發送單元返回仲裁失敗信號.

2.2.3 有條件阻塞的流水仲裁

環形網絡上的通信請求仲裁命中必須同時滿足兩個條件:通信目標有接收緩沖(也即是有通信信用),傳輸鏈路空閑.

仲裁器對請求的仲裁策略采取有條件阻塞仲裁策略.仲裁核心對請求篩選單元提交來的請求進行信用仲裁和鏈路仲裁,對滿足阻塞條件的請求采取阻塞式仲裁,直到命中后才接收下一個請求進入仲裁核心.通信請求有條件阻塞仲裁策略是:

1)在仲裁階段對由于沒有通信信用的通信請求返回仲裁失敗響應,不能阻塞其他請求的仲裁;

2)除此之外的請求情況,仲裁核心對于提交來的請求將會采取無條件阻塞仲裁的辦法直到仲裁命中.

環形網絡通信中短距離傳輸占用的環形網絡鏈路少,并且可以支持鏈路不重合的多個通信并發執行,仲裁器對短距離通信請求進行優先選擇有利于提高鏈路利用率和環形網絡通信帶寬,減少通信請求的總等待時間.

如圖3所示的請求篩選單元中,設計有緩沖能夠緩存通信請求,請求緩沖的深度與請求篩選單元的輸入源數有關,每個請求源對應一個固定條目.通信請求一旦被仲裁核心或者下一級請求篩選單元選中,則會從緩沖中讀出,然后該緩沖允許寫入下一個新的通信請求;如果通信請求滿足仲裁條件,仲裁核心可以連續地仲裁.也就是說,該仲裁器中通信請求從通信單元提交出來,到經過請求篩選單元篩選后最終提交到仲裁核心,這個過程都是可以流水連接的.因此當通信請求比較密集的時候,該仲裁器結構能夠連續仲裁,流水地返回仲裁響應,仲裁能力取決于仲裁核心的設計復雜度.

2.2.4 仲裁器的可擴展性

基于上節所述請求篩選機制的仲裁結構,可以根據通信單元數目靈活組裝配置,構成不同層次的篩選結構.這種通過裁剪請求篩選的方法,可以使仲裁核心的仲裁邏輯保持不變.因此該仲裁結構能夠在保持關鍵時序路徑不變的情況下,適應通信節點數量的變化.如圖4所示,當通信單元數目由6增加為18時,請求篩選單元由一層增加為兩層構成的多級請求篩選結構.由于通信請求在請求篩選單元之間是能夠流水提交處理的,因此仲裁核心邏輯可以不做重大修改,保持原有的仲裁邏輯長度便可完成從6節點到18節點的設計.

圖4 基于篩選的可擴展仲裁器結構

3 模擬實驗

3.1 軟件建模模擬

對采用上面所述結構的流水仲裁器的環形網絡進行了建模模擬.模擬平臺采用SystemVerilog和Verilog語言,在ModelSim模擬環境下開發,通信激勵通過調用隨機函數產生,仲裁器實現采用RTL描述,能夠實現節拍級模擬.其中:互連結構實現了環形網絡結構、交叉開關結構,設計采用Verilog實現,環形網絡結構中實現了上文所述的可擴展流水仲裁器結構,交叉開關中的仲裁器采用Round Robin結構;通信單元采用SystemVerilog構建模型,能夠按照系統配置產生通信請求和接收通信數據.模擬系統能夠根據頂層配置參數選擇調用交叉開關或者環形網絡進行互連,通信單元模型可以通過參數控制激勵產生.

3.1.1 仲裁公平性模擬

首先,采用環形網絡結構,在保持物理連線規模不變的情況下,對不同通信鏈路規模的環形網絡性能進行了模擬.物理連線規模為512位,按照鏈路寬度分為3種情況:

1)64位*8套鏈路,4套順時針方向,4套逆時針方向;

2)128位*4套鏈路,2套順時針方向,2套逆時針方向;

3)256位*2套鏈路,1套順時針方向,1套逆時針方向;

主要測試目的是測試不同鏈路規模下,驗證該流水仲裁器結構的仲裁公平性.設置網絡節點規模為14個,各個網絡均采用數據包的通信方式,數據包長度固定為128Byte.設置各通信節點固定運行20 000拍,運行過程中各節點均為滿入射率,通信目標偽隨機生成.

在相同時間內,三個網絡中各個節點發出、接收到的通信次數柱狀圖如圖5所示.從圖中可以看到,在固定的時間內,各節點發出的通信請求命中數量相差在5%以內,由此可見該流水仲裁器設計對各個節點的通信機會是公平的.

圖5 各節點發出通信請求數量

除此之外,仲裁器的公平性還可以從最大通信延遲上反映出來.根據通信模擬條件可以知道環形網絡中一次通信延遲如下式所示:

通信延遲t=請求仲裁延遲+數據發送延遲+鏈路傳輸延遲;

(1)

數據發送延遲=數據包大小/鏈路寬度;

(2)

數據傳輸延遲=(目標號-源號)%(節點數/2 -1).

(3)

由于鏈路寬度差異以及通信源、目標距離造成的通信延遲變化很小,最大通信延遲主要是由于請求仲裁排隊決定的.在極限情況下,即所有節點的通信目標相同時,此時最后命中的節點將會等待時間最長,即產生最大通信延遲.

最大通信延遲T=(節點數-2)*(數據發送延遲+最大數據傳輸延遲).

(4)

根據上面公式可以算出64位*8,128位*4,256位*2三個環形網絡的最大通信延遲的理論值分別為:264拍,168拍,120拍.

我們調整測試方式,每個節點固定提交400 000個通信請求,通信數據包固定128字節,通信目標偽隨機.模擬過程中,我們記錄下各個節點的通信請求包最長的處理節拍數,測試結果如圖6所示,為各節點的一次數據包通信最大延遲對比曲線圖.從圖中的數值區間可以看到,測試中的最大通信延遲均沒有超過理論極限值,這也可以說明在多套環形網絡鏈路中,該流水仲裁器設計能夠做到公平仲裁.

圖6 各節點上通信請求最大延遲曲線圖

3.1.2 仲裁效率模擬

如前所述,仲裁器設計除了要保證公平性,也要最大化發揮互連結構的通信效率,提高通信帶寬.本節對采用不同仲裁能力的仲裁器結構對環形網絡帶寬效率進行了測試模擬,并與環形網絡理想仲裁條件進行了對比.環形網絡理想仲裁表示所有鏈路不沖突的請求可以并發傳輸,可以認為理想仲裁能夠發揮環形網絡的最大測試帶寬.

實驗條件設置為:時鐘頻率設置為1GHz,14個通信節點采用均勻隨機激勵模式,激勵均為128字節固定長度數據包,運行時間為400 000拍.

考慮到環形網絡中數據下網端口沖突可能限制帶寬效率,實驗分為存在下網沖突和無下網沖突兩部分進行,分別對2種環形網絡結構進行了帶寬測試.結果如下表1所示.

從表1中的測試數據可以看到,與理想仲裁測試相比,采用每拍1個仲裁結果的流水仲裁器的環形網絡帶寬損失率在7%~26%左右;如果將仲裁能力提高到每拍2個,帶寬效率普遍有所提高,帶寬效率可以再提高2.8%~6.9%.從測試結果可以知道,仲裁能力與環形網絡帶寬效率成正比例關系,仲裁能力越高對帶寬的利用效率越高.采用該流水仲裁器結構對帶寬利用效率確實有一定的損失,但降低的仲裁能力要求,顯然大大簡化了仲裁核心邏輯的復雜度.

表1 帶寬模擬結果

3.2 時序綜合實驗

如前所述,在該流水仲裁器結構中,各通信節點發出的通信請求經過請求篩選結構的篩選,到達仲裁核心邏輯的請求數量大大減少,這能夠降低仲裁核心邏輯的復雜度,因此環形網絡與交叉開關相比在高頻率設計中更具可實現性.本節對采用該流水仲裁器的環形網絡進行了RTL實現,并與交叉開關結構進行比較.

基于Chartered 65 nm工藝標準單元庫,采用Cadence公司的DC工具進行了物理綜合實驗,實驗結果如表2所示.

表2 RTL綜合實驗結果

從表中可以看到,在14個節點規模下,該流水仲裁器的邏輯延遲是全交叉開關仲裁的63%左右,是理想仲裁器的46%左右.這是因為流水仲裁器通過請求篩選結構減少了到達仲裁核心的請求數量,能夠有效降低仲裁器的關鍵路徑邏輯級數;全交叉開關結構采用簡單的13端口的輪轉仲裁邏輯實現,邏輯級數較長;而理想仲裁器,由于節點數多達14個,需要同時完成盡量多的不沖突請求的仲裁所導致的邏輯級數劇增,因此邏輯延遲最大.在數據通路上,環形網絡的下網邏輯為四選一MUX,而全交叉開關為十三選一MUX,環形網絡也具有時序優勢,環形網絡的延遲僅為全交叉開關延遲的41%.通過上面的實驗結果可以看到,基于請求篩選的流水仲裁器的環形網絡在邏輯延遲和后端可實現性上比交叉開關結構具有優勢.

此外,由于設計中同時采用順時針、逆時針兩個方向環形網絡,網絡通信的最大跨步為節點數的一半,這個特點使得仲裁核心記錄鏈路的占用節拍減少為節點數的一半,因此對減少仲裁核心的邏輯長度有很大好處.對比表2中不同仲裁能力的流水仲裁器的延遲,可以發現每拍2個與每拍1個的邏輯延遲相差不大.我們專門對8個節點和14個節點的仲裁核心邏輯進行了DC綜合對比實驗.通過實驗發現,節點數從8個增加到14個時,每拍1個仲裁結果的流水仲裁核心的邏輯延遲從0.54 ns增加為0.58 ns.這也在一定程度上反映了該流水仲裁器具有一定的可擴展性.

4 結束語

本文對環形網絡的仲裁結構進行了研究,提出了一種基于請求篩選的可擴展流水仲裁器結構.該仲裁結構中,通信請求經過請求篩選單元的有條件優先選擇,提交到仲裁核心的請求優先滿足有通信信用的要求,有利于提高仲裁命中效率.短距離傳輸占用的環網鏈路少,比長距離傳輸請求更容易達到傳輸要求,請求排隊和仲裁時,采用短距離優先策略能夠更好的提高鏈路通信效率,減少請求的總等待時間.請求發送單元中的超時機制、請求篩選和仲裁時的阻塞式排隊策略,則能夠保證通信網絡的基本公平性,并且通過模擬實驗也說明該結構仲裁器具有較好的仲裁公平性.請求篩選結構設計獨立性強,可根據環網規模和仲裁核心的仲裁能力靈活組裝配置,時序綜合實驗也證明該結構邏輯級數少、實現延遲較小的特點,這些都有利于高頻設計的實現.此外,由于仲裁核心時序受互連規模影響較小,有利于互連規模的擴展,適合用于通信節點數量不是特別大的片上互連設計中.

[1] HEMANI A, JANTSCH A, KUMAR S,etal. NetworkonChip: an architecture for billion transistor era [C]//Proceedings of the 18th IEEE NorChip Conference. Turku, Finland, 2000: 166-173.

[2] DALLY W J, TOWLES B. Route packets, not wires: on-chip interconnection net-works [C]// Proceedings of the 38th Design Automation Conference. Las Vegas, Nevada, USA, 2001: 684-689.

[3] BENINI L, MICHELI G D. Powering networks on chips: energy-efficient and reliable interconnect design for SoCs [C]// Proceedings of the 14th International Symposium on System Synthesis. Montreal, Canada, 2001: 33-38.

[4] HOSKOTE Y, VANGAL S, SINGH A,etal. A 5-GHz mesh interconnect for a teraflops processor [J]. IEEE Micro, 2007, 27 (5): 51-61.

[5] WENTZLAFF D, GRIFFIN P, HOFFMANN H,etal. On-chip interconnection architecture of the TILE processor [J]. IEEE Micro, 2007, 27 (5): 15-31.

[6] GRATZ P, KIM C, SANKARALINGAM K,etal. On-chip interconnection networks of the TRIPS chip [J]. IEEE Micro, 2007, 27 (5): 41-50.

[7] 錢悅. 片上網絡演算模型即性能分析[D].長沙:國防科學技術大學, 2010.

QIAN YUE. Calculus models and performance analysis for networks-on-chip[D]. Changsha: National University of Defense Technology, 2010 .(In Chinese)

[8] ARM. AMBA Open Specifications [EB/OL]. 2011. http://www.arm.com/products/system-ip/amba/amba-open-specifications.php.

[9] IBM.Core Connect Bus Architecture[EB/OL]. 2011. https://www-01.ibm.com/chips/techlib/techlib.nsf/products/CoreConnect_Bus_Architecture.

[10]葛芬. 專用片上網絡設計關鍵技術研究[D].南京:南京航空航天大學, 2010.

GE FEN. The key technology of application-specific network on chip design[D].Nanjing: Nanjing University of Aeronautics and Astronautics, 2010. (In Chinese)

[11]LEON A S, SHIN J L, TAM K W,etal. A power-efficient high-throughput 32-thread SPARC processor [C]// Proceedings of IEEE International Solid-State Circuits Conference. San Francisco, CA, USA, 2006: 295-304.

[12]TENDLER J M, DODSON J S, FIELDS J S,etal. Power 4 system micro architecture[J]. IBM Journal of Research and Development, 2002, 46( 1) : 5-24.

[13]KAHLE J A. Introduction to the cell multiprocessor[J] .IBM Journal of Research and Development, 2005, 49( 4/ 5) : 589-604.

[14]TAYLOR M B, KIM J, MILLER J,etal. The raw microprocessor: a computational fabric for software circuits and general purpose programs [J]. IEEE Micro, 2002, 22(2):25-35.

[15]VANGAL S R, HOWARD J, RUHL G,etal. An 80-tile 1.28 TFLOPS network-on-chip in 65 nm CMOS [C]//Proceedings of International Solid-State Circuits Conference (ISSCC). San Francisco, CA, USA, 2007:98-589.

[16]VANGAL S R, HOWARD J, RUHL G,etal.An 80-tile sub-100-w TeraFLOPS processor in 65-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2008, 43(1):29-41.

[17]BELL S, EDWARDS B, AMANN J. TILE64 processor: A 64-core SoC with mesh interconnect [C]// Proceeding of International IEEE Solid-State Circuits Conference(ISSCC). IEEE, 2008:88-598.

[18]AGARWAL A, BAO L, BROWN J. Tile processor: embedded multicore for networking and multimedia [M]. 2007:1-12. http://www.hotchip s.org/archives/hc19/2_Mon/HC19.03/HC19.03.04.pdf.

[19]TAYLOR M B, PSOTA J, SARAF A,etal. Evaluation of the raw microprocessor: an exposed-wire-delay architecture for ILP and streams [C]//Proceedings of the 31st Annual International Symposium on Computer Architecture. Munich, Germany, 2004: 2-13.

[20]WANG H, PEH L-S, MALIK S. Power-driven design of router microarchitectures in on-chip networks [C]// Proceedings of the 36th Annual IEEE/ACM International Symposium on Microarchitecture. San Diego, CA, USA, 2003: 105-116.

[21]HIN E S, MOONEY V J, RILEY G F. Round-robin arbiter design and generation[R]. Atlanta, USA: Georgia Institute of Technology, Tech. Rep. 2002: 02-38.

[22]LUMMER W W. Asynchronous arbiters[J]. IEEE Transactions on Computers, 1972, 21(1): 37-42.

[23]FELICIIAN F, FURBER S B. An asynchronous on-chip network router with quality-of-service (QoS) support [C]//Proceedings of IEEE International SOC Conference . Santa Clara : IEEE, 2004 : 274-277.

[24]ZID M, ZITOUNI A, BAGNNE A,etal. New generic GALS NoC architectures with multiple QoS [C]//International Conference on Design and Test of Integrated Systems in Nanoscale Technology. La Marsa, 2006 : 345-349.

[25]THOMAS W, AINSW O, NORTHROP G,etal. Characterizing the cell EIB on chip network [C]//IEEE Computer Society. 2007: 6-14.

A Scalable Pipelined Arbiter Design for Ring Bus

REN Xiu-jiang?, SHI Jing-jing,XIE Xiang-hui

(Jiangnan Institute of Computing Technology, Wuxi,Jiangsu 214083, China)

The arbiter architecture of the ring bus was studied, and a novel extensible pipelined design was proposed, which can allocate the communication buffers and links simultaneously. Three characteristics have been found in the proposed design. Firstly, the arbiter is fair for each node, only with a 5% difference of the hit number. The communicated nodes were found in the simulation when the arbiter in an interconnect system was modeled with 14 nodes. Secondly, compared with the crossbar design, the worst time delay of our synthesis RTL design with Chartered 65 nm Technology was reduced by 36.8%. Furthermore, as the number of the nodes has less effect on the key circuit, the arbiter has certain scalability.

arbiter; interconnect; ring;extensible design

1674-2974(2015)08-0086-08

2014-09-19

上海教委科研創新重點基礎研究資助項目(12ZZ182)

任秀江(1982-),男,山東莒南人,工程師

?通訊聯系人,E-mail:sunshinebuxiu@126.com

TP302

A

猜你喜歡
流水仲裁鏈路
天空地一體化網絡多中繼鏈路自適應調度技術
流水
基于星間鏈路的導航衛星時間自主恢復策略
一種多通道共享讀寫SDRAM的仲裁方法
ICSID仲裁中的有效解釋原則:溯源、適用及其略比
流水有心
前身寄予流水,幾世修到蓮花?
兩岸四地間相互執行仲裁裁決:過去、現在及將來(上)
基于3G的VPDN技術在高速公路備份鏈路中的應用
落紅只逐東流水
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合