?

基于擺幅恢復傳輸管邏輯的高性能全加器設計

2020-09-21 05:00韓金亮張躍軍張會紅
工程科學學報 2020年8期
關鍵詞:擺幅晶體管功耗

韓金亮,張躍軍?,溫 亮,張會紅

1) 寧波大學信息科學與工程學院,寧波 315211 2) 中國人民武裝警察部隊海警學院電子技術系,寧波 315211

高性能的加法器對數字電路系統性能提升具有至關重要的作用[1?3]. 根據輸出信號的閾值損失情況,全加器可分為非全擺幅和全擺幅兩大類型.非全擺幅全加器包括:靜態能量回收全加器(Static energy recovery full adder, SERF)[4]、10T[5]、8T[6]等.此類全加器通過減少電路晶體管數目的方法來提升電路速度、降低功耗,但是往往會造成電路輸出不能達到全擺幅、驅動能力下降. 全擺幅全加器包括:互補CMOS全加器、傳輸函數全加器(Transmission function full adder, TFA)、傳輸門全加器(Transmission gate full adder, TGA)、互補式傳輸 管 邏 輯 全 加 器 (Complementary pass transistor logic full adder, CPL)[7?9]. 互補 CMOS 全加器具有完整PMOS、NMOS鏈的優點,門的上/下拉網絡為對偶結構,具有良好的驅動能力和全擺幅輸出. 但是互補CMOS全加器需要28個晶體管,晶體管數量較多導致電路面積較大、關鍵路徑較長導致電路速度降低. TFA采用兩個異或電路和2選1數據選擇器的結構,由16個晶體管組成. 因此TFA減少晶體管數量和輸入電容,具有速度快和功耗低的特點,但由于驅動能力弱導致TFA在大扇出或者級聯時性能顯著下降. TGA由20個晶體管組成,其關鍵路徑包括4個晶體管. 由于TGA單元的輸入耦合到輸出,因此缺乏驅動能力,在級聯時需要通過緩沖器改善驅動能力[10]. CPL采用多個NMOS管的方式實現,其中4個PMOS管形成上拉網絡恢復輸出電平. 由于使用大量的NMOS管,CPL具有更快的速度,但內部切換節點過多,導致電路的動態功耗過大. 近幾年來,研究人員陸續提出各種采用不同器件工藝設計的全加器,例如量子元胞自動機(Quantum-dot cellular automata, QCA)全加器[11],門擴散輸入邏輯(Gate diffusion input, GDI)全加器[12],超薄體絕緣體上硅(Ultra-thin-body silicon-on-insulator, UTBSOI) 全加器[13]等. 相對于發展成熟的CMOS工藝,新型的器件工藝成本昂貴且處于開發階段. 因此,CMOS工藝仍然是全加器電路應用中的主流工藝.傳統全加器在設計上采用不同的設計風格和傳輸邏輯來達到全擺幅輸出. 這些設計各有優缺點,因此高性能全加器設計應綜合考慮輸出擺幅、驅動能力、延時與功耗等.

鑒此,通過對不同邏輯補償閾值損失的異或/同或(XOR/XNOR)電路研究,分析 3T XOR/XNOR[14]電路中存在的閾值損失,本文提出一種無閾值損失的擺幅恢復7T XOR/XNOR電路. 然后,設計求和與進位電路,使用異或/同或電路產生的互補輸出作為求和與進位電路的驅動信號. 最后,實現具有擺幅恢復傳輸管邏輯的高性能全加器.

1 XOR/XNOR 的閾值損失建模與分析

1.1 3T XOR/XNOR 電路分析

異或/同或電路是高性能全加器設計的關鍵[15?18],設計低硬件開銷、無閾值損失的電路具有十分重要的意義. 本文以采用傳輸管邏輯的3T XOR/XNOR電路為例進行分析,如圖1(a)所示. 此電路具有較快的速度,但輸出存在閾值損失,且電路中存在直流通路. 當輸入AB=00時,P1和P2同時導通,輸出端負載電容CL放電,由于PMOS晶體管的柵極與漏極之間存在閾值損失VTP,負載電容CL只能下拉至∣VTP∣,輸出端XOR為∣VTP∣的弱‘0’信號,如圖 1(c)所示;當輸入AB=01時,P3和 N2同時導通. 此時存在P3至N2的直流通路,產生較大的直流功耗;當輸入AB=10時,P1和N1同時導通,此時存在P1至N1的直流通路;當輸入AB=11時,N2,N3管晶體管導通,VDD對輸出端負載電容CL充電,由于NMOS晶體管的柵極與漏極之間存在閾值損失VTN,負載電容CL只能上拉至VDD-VTN,輸出端 XNOR 為VDD-VTN的弱‘1’信號,如圖 1(b)所示.

圖1 3T XOR/XNOR 電路和傳輸管傳輸狀態分析. (a)異或/同或電路;(b)NMOS 高電平傳輸狀態;(c)PMOS 低電平傳輸狀態Fig.1 3T XOR/XNOR circuit and the transition analysis by pass transistor:(a) XOR/XNOR circuit; (b) logic “1” transition by NMOS; (c)logic “0” transition by PMOS

1.2 改進型 XOR/XNOR 電路建模與分析

針對3T XOR/XNOR電路存在直流通路的問題,采用增加串聯NMOS/PMOS管的方法消除電路中的直流通路,如圖 2(a)所示. 當AB=11時,N1和N2同時導通將XOR信號下拉至低電平. 當AB=00時,P3和P4同時導通將XNOR信號上拉至高電平. 電路中不存在直流通路,降低了功耗.

圖2 改進型異或/同或電路與 RC 模型. (a)改進型異或/同或電路;(b)AB=11 異或電路 RC 模型;(c)AB=00 同或電路 RC 模型Fig.2 Improved XOR/XNOR circuit and RC model:(a) improved XOR/XNOR circuit; (b) RC model of XOR circuit forAB=11; (c) RC model of XNOR circuit forAB=00

在改進型異或/同或電路基礎上構建其電阻-電容(Resistor-capacitance, RC)模型. 當輸入AB=11和AB=00時,異或電路和同或電路的RC模型如圖 2(b)和(c)所示. 當電路工作在異或模式時,兩個串聯NMOS管(N1和N2)共享同一個襯底,與輸出節點相鄰的N1管存在體效應. 因此連接至N1的輸入具有更高的閾值電壓和更大的寄生電容,導致不同輸入端的寄生延時存在差異. 分析當輸入AB=10向輸入AB=11跳變的情形.R為單位NMOS晶體管的等效電阻,KPX、KNX為PMOS和NMOS管的單位寬度,Cd為晶體管的擴散電容. 根據圖2(b)可以得到節點電容CXOR和CX的表達式,

當AB從10到11跳變時,由于節點X處的電壓為VDD-VTN,結合圖 2(b)和 Naseri與 Timarchi[19]延時公式可得Td,AB=10→11的表達式,

當AB從01向11跳變時,由于節點X處的電壓為0,不需要電荷傳送到節點X. 可得Td,AB=01→11的表達式,

2 擺幅恢復 7T XOR/XNOR 電路設計

2.1 7T XOR/XNOR 電路工作原理

通過對上述閾值損失和電路延時的分析,在改進型異或/同或電路的基礎上,利用補償電路閾值損失的方式,提出具有擺幅恢復的7T XOR/XNOR電路,如圖3所示. 為了平衡上述Elmore延時差使電路達到最優性能,在異或電路設計中,輸入信號A連接到內層晶體管N2,采用柵極接的NMOS管彌補XOR信號的閾值損失,并將輸入信號B連接到N3的擴散區. 同理,在同或電路中將輸入信號B連接到內層晶體管P2,采用柵極接的PMOS管彌補XNOR信號的閾值損失,并將輸入信號A連接到P3的擴散區. 所設計的異或/同或電路包括三個區域:傳輸管邏輯區域、靜態CMOS區域和擺幅恢復區域. N4、N5、P4、P5構成快速傳輸管電路,P1和P2為上拉網絡,N1和N2為下拉網絡,P3和N3為閾值補償晶體管組成擺幅恢復電路.

圖3 擺幅恢復 7T XOR/XNOR 電路Fig.3 Swing recovery 7T XOR/XNOR circuit

當輸入AB=00時,P1、P2串聯上拉網絡使得XNOR 信號強‘1’輸出. P4、P5 管僅能傳輸電位為∣VTP∣的弱‘0’信號,N3 晶體管作強‘0’補充使得XOR信號強‘0’輸出;當輸入AB=01和AB=10時,由 N4、N5、P4和 P5使得 XOR,XNOR信號強‘1’和強‘0’輸出;當輸入AB=11時,N1、N2串聯下拉網絡使得 XOR 信號強‘0’輸出. N4、N5管僅能傳輸電位為VDD-VTN的弱‘1’信號,P3 晶體管作強‘1’補充使得XNOR信號強‘1’輸出,彌補N4、N5管傳輸高電平時的不足.

2.2 閾值補償情況分析

通過4中的仿真環境對所設計的7T XOR/XNOR與3T XOR/XNOR電路進行仿真對比分析閾值補償情況. 圖 4為在 1.2 V 電壓下 3T XOR/XNOR電路與7T XOR/XNOR電路輸出電平對比圖. 如上文分析,對于輸入AB=00,由于PMOS管傳輸低電平存在閾值損失,3T XOR電路中輸出信號不能達到全擺幅,輸出XOR僅能達到∣VTP∣≈0.36 V 的弱‘0’信號,如圖 4(a)所示. 同樣,對于輸入AB=11,由于NMOS管傳輸高電平存在閾值損失,3T XNOR電路中輸出信號不能達到全擺幅,輸出XNOR僅能達到VDD-VTN≈0.89 V的弱‘1’信號,如圖 4(b)所示. 對于擺幅恢復 7T XOR/XNOR 電路,當輸入AB=00時,N3管作為強‘0’補充使輸出XOR達到全擺幅;當輸入AB=11時,P3管作為強‘1’補充使輸出XNOR達到全擺幅.

圖4 異或/同或電路輸出電平對比. (a) XOR;(b) XNORFig.4 Comparison of XOR/XNOR circuit output levels:(a) XOR; (b)XNOR

3 擺幅恢復 SRPL-26T 全加器電路設計

3.1 SRPL-26T 全加器結構框圖

在全加器中,A和B為加數,CI為進位輸入,Sum為和,Cout為進位輸出. 通過對全加器邏輯表達式的推導,可以獲得表達式(6)和(7).

⊕為異或運算符. 由表達式(6)和(7),可以將全加器分為3個部分:異或/同或電路,求和電路,進位電路. 其中異或/同或電路可以產生同步的XOR,XNOR信號,作為求和電路和進位電路的驅動信號,如圖5所示.

圖5 全加器結構框圖Fig.5 Full adder block diagram

3.2 求和電路與進位電路設計

通過對上述異或/同或電路以及全加器結構的分析,列出求和電路與進位電路,如圖6所示.圖6(a)為采用傳輸管邏輯和傳輸門邏輯的4T XOR[20]求和電路,異或/同或電路產生的互補輸出信號作為傳輸門的柵極輸入. 當傳輸門關斷時,由 P2 和 N2 分別傳輸強‘1’和強‘0’信號,使輸出Sum達到全擺幅;當傳輸門導通時,由于P2傳輸低電平存在閾值損失,N2傳輸高電平存在閾值損失,傳輸門作為強‘1’和強‘0’補充彌補閾值損失,因此輸出Sum能達到全擺幅. 該電路輸出無閾值損失且晶體管數量較少,具有較低的硬件開銷.圖6(b)為使用傳輸門邏輯實現的進位電路[21],輸出無閾值損失,但由于輸出節點使用傳輸門,因此不適用于大負載電路. 通過式(5)分析,對輸入信號與輸出信號同時取反,在輸出節點處接反相器同樣可得到正確的邏輯功能. 圖6(c)為改進的具有一定驅動能力的進位電路,在輸出節點處使用反向器以增加驅動能力.

3.3 SRPL-26T 全加器電路及工作原理

圖6 求和電路與進位電路. (a)基于傳輸門的 4T XOR 求和電路;(b)基于傳輸門的進位電路;(c)改進的傳輸門進位電路Fig.6 Sum circuit and carry circuit:(a) 4T XOR sum circuit based on transmission gate; (b) carry circuit based on transmission gate; (c) improved carry circuit based on transmission gate

圖7 SRPL-26T 全加器電路Fig.7 SRPL-26T full adder circuit

SRPL-26T全加器電路結構如圖7所示,由18個晶體管和4個反相器組成,包括異或/同或電路、求和電路、進位電路. 異或/同或電路產生同步的XOR和XNOR信號,作為求和電路與進位電路的驅動信號. 求和電路采用了由傳輸門與傳輸管邏輯組成的4T XOR電路,異或/同或電路產生的互補信號作為傳輸門的柵極輸入信號. 進位電路采用改進的基于傳輸門的數據選擇器,輸出節點連接反相器,以提高進位輸出信號Cout的驅動能力.

當輸入AB=00時,XOR信號輸出為0,XNOR信號輸出為1. 若輸入信號CI為0,P7導通將源極輸入信號XOR傳輸至輸出端. 由于PMOS管傳輸低電平存在閾值損失,輸出Sum達不到全擺幅,與此同時P6和N6組成的傳輸門導通彌補閾值損失,因此輸出信號Sum能達到強‘0’輸出. 進位電路中P8和N8組成的傳輸門導通將輸入信號傳輸至節點經由反相器達到輸出端,因此輸出信號 Cout能達到強‘0’輸出. 若輸入 CI為 1,N7 導通將源極輸入信號XNOR傳輸至輸出端. 由于NMOS管傳輸高電平存在閾值損失,輸出Sum達不到全擺幅,與此同時P6和N6組成的傳輸門導通彌補閾值損失,因此輸出信號Sum能達到強‘1’輸出. 此時輸出信號 Sum 為 1,Cout為 0. 同理,當輸入AB=11時,XOR信號輸出為0,XNOR信號輸出為1. 若輸入信號CI為0,則輸出信號Sum為0,Cout為1. 若輸入信號CI為1,則輸出信號Sum為1,Cout為1.

當輸入AB=01時,XOR信號輸出為1,XNOR信號輸出為0. 若輸入CI為0,P7導通將源極輸入信號XOR傳輸至輸出端,輸出信號Sum能達到強‘1’輸出. 與此同時進位電路中P9和N9組成的傳輸門導通將輸入信號傳 輸至輸出節點經由反相器達到輸出端,因此輸出信號Cout能達到強‘0’輸出. 若輸入信號 CI為 1,N7 導通將輸入信號XNOR傳輸至輸出端,輸出無閾值損失. 此時輸出信號Sum為0,Cout為1. 同理,當輸入AB=10時,若輸入CI為0,此時輸出信號Sum為1,Cout為0;若輸入CI為1,此時輸出信號Sum為0,Cout為1.SRPL-26T全加器電路具有全擺幅輸出和良好的驅動能力. 采用全定制方法在TSMC 65 nm工藝下使用Cadence Virtuoso工具繪制SRPL-26T全加器電路的版圖,僅采用兩層金屬線布局,如圖8所示,版圖面積為 17.78 μm2.

4 實驗結果與分析

在 TSMC 65 nm工藝下,本文使用 HSPICE軟件對所設計的電路進行仿真驗證. 輸入信號為包含所有跳變情況的隨機數(其最大工作頻率為1 GHz),電源電壓為 1.2 V,延時為輸入電壓電平50%到輸出電壓電平50%的時間,功耗為電路的平均功耗,功耗延時積為電路的平均功耗與最大延時的乘積,輸出負載為FO1-FO32[19]的反相器.在與相關文獻比較時,采用相同的測試環境,且均將晶體管尺寸調節到最優尺寸,確保比較的準確性與公平性.

4.1 XOR/XNOR 電路實驗結果分析

圖8 SRPL-26T 全加器電路全定制版圖Fig.8 SRPL-26T full adder circuit layout

圖9 擺幅恢復 7T XOR/XNOR 電路仿真結果. (a)仿真波形圖;(b)不同負載下 PDP 對比Fig.9 Swing recovery of 7T XOR/XNOR circuit:(a) simulation waveform; (b) PDP results under different load conditions

在上述實驗條件下對異或/同或電路進行仿真分析,實驗結果如圖9所示. 圖9(a)為擺幅恢復7T XOR/XNOR電路仿真波形圖. 對于不同的輸入和跳變組合,XOR和XNOR信號均能達到全擺幅輸出. 為了更好的評估電路性能,也對比分析了不同負載下異或/同或電路的性能. 圖9(b)為在不同負載下異或/同或電路功耗延時積(Power-delay product, PDP)對比. 擺幅恢復 7T XOR/XNOR 電路有對稱的上拉和下拉網絡,能提供良好的驅動能力,當負載在FO1-FO8變化時,能保持最小的PDP. 可以預測當負載繼續加大時,電路仍能保持最小的PDP. 異或/同或電路在電壓為1.2 V時的仿真結果如表1所示. 從仿真結果分析得出,文獻[21]采用的反饋式異或/同或電路具有最小的平均功耗,但由于其上拉能力不足導致延時最大. 文獻[20]采用的交叉耦合上拉式異或/同或電路由于其內部翻轉節點過多且存在直流通路導致功耗過大. 本文提出的擺幅恢復7T XOR/XNOR電路具有最小的延時,延時可減少7.8%~50.6%,PDP可減少23.8%~43.9%.

4.2 全加器電路實驗結果分析

為了模擬真實的測試環境和更好的比較全加器電路性能,對全擺幅全加器在不同電壓與不同負載下進行仿真分析. 分別比較了全擺幅全加器在0.7~1.4 V供電電壓下的功耗、延時和PDP,如圖 10(a)、10(b)、10(c)所示. 通過對仿真數據分析得到,由于CPL采用了大量的NMOS管使其在速度上有明顯優勢,但CPL在電壓變化范圍內具有最大的功耗,導致其PDP最大. 14T全加器在電壓低于1 V時輸出達不到供電電壓的50%. 隨著電壓的減少,14T全加器的延時與其它全加器相比逐漸增大. 本文提出的全加器在電壓變化范圍內具有最小的延時和PDP. 隨著電源電壓降低,PDP逐漸趨于平緩,在1.1~1.2 V電壓下達到最小PDP.圖10(d)為在不同負載下全擺幅全加器的PDP對比. 在FO4-FO32的不同的負載下,SRPL-26T全加器與其它結構相比具有最小的PDP. 隨著負載逐漸增加,本文提出的全加器的PDP保持最小的增幅.

表1 擺幅恢復 7T XOR/XNOR 電路與相關文獻比較結果Table 1 7T XOR/XNOR circuit and comparison results of related literature

圖10 不同電壓與不同負載下全加器電路仿真結果. (a)不同電壓下全加器電路功耗對比;(b)不同電壓下全加器電路延時對比;(c)不同電壓下全加器電路PDP對比;(d)不同負載下全加器電路PDP對比Fig.10 Simulation results of full adder circuit under different voltages and loads:(a) power results for different voltages; (b) delay results for different voltages; (c) PDP results for different voltages; (d) PDP results under different load conditions

全加器電路在1.2 V電壓,負載為FO4時的仿真結果如表2所示. 與其他電路相比,SERF和10T全加器使用了較少的晶體管具有最小的功耗與面積,但輸出存在閾值損失達不到全擺幅,在負載較大時延時顯著增加. 在全擺幅全加器中14T全加器的面積最小,但其沒有良好的驅動能力導致延時較大,在設計時需要仔細優化反饋晶體管的尺寸. TGA全加器的晶體管數量較少,但它的面積只比CMOS略小,因為TGA需要更大的晶體管尺寸以實現最小PDP. CPL使用了最多的晶體管,功耗最大,其不規則的排列導致布局的復雜性增加,面積最大. TFA與Hybrid全加器的晶體管數量相同,但后者面積更大. 因為Hybrid的延時改善是以增大晶體管尺寸為代價的,導致其面積增加. 本文提出的全加器具有最小的延時和PDP,與CPL、TFA、Hybrid等結構相比,延時分別減少10.7%、14.4%、13.7%以上. 本文提出的全加器的布局更加規整,其面積比CMOS略大,因為需要額外的金屬線連接互補輸入導致布局復雜性增加.與常規全加器相比,提出的全加器以較低的面積開銷為代價提升性能,且具有低硬件開銷特性.

表2 全加器電路與相關文獻比較結果Table 2 Full adder circuit and related literature comparison results

5 結論

通過對3T XOR/XNOR電路的閾值損失機理與電路特性分析,在改進型異或/同或電路的Elmore延時分析基礎上結合擺幅恢復邏輯提出擺幅恢復7T XOR/XNOR電路. 使用增加閾值補償晶體管的方式彌補電路的閾值損失使電路輸出達到全擺幅. 實驗結果表明,所設計的7T XOR/XNOR電路具有全擺幅輸出,且與相關文獻相比具有更快的速度和更好的驅動能力. 并結合4T XOR快速求和電路與改進的傳輸門進位電路實現高性能全加器. 實驗結果表明,在0.7~1.4 V電壓變化范圍內提出的全加器電路與文獻相比具有最小的延時和PDP,且在不同負載下也表現出良好的性能. 由于采用擺幅恢復邏輯,電路設計中引入反向輸入,增加電路面積. 提出的全加器電路以較小的面積增加提升電路性能,仍然具有低開銷特性. 利用擺幅恢復邏輯實現電路低延時與全擺幅輸出的設計思想,可以進一步應用到其它邏輯電路的設計中,從而推動擺幅恢復邏輯電路的實用化進程.

猜你喜歡
擺幅晶體管功耗
基于任務映射的暗硅芯片功耗預算方法
影響擺擺動快慢的因素實驗創新
科學家首次實現亞1納米柵極長度晶體管
2.6萬億個晶體管
起重機鋼絲繩擺幅及有效干涉策略研究
功率晶體管擊穿特性及測試分析
揭開GPU功耗的面紗
擺輪不平衡對機械手表機芯走時誤差的影響分析
數字電路功耗的分析及優化
一種面向星載計算機的功能級功耗估計方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合