作者简介:夏银水(1963— ),男(汉族),浙江省余姚市人,宁波大学研究员、博士生导师.E-mail:xiayinshui@nbu.edu.cn
中文责编:英 子; 英文责编:雨 辰
Xia Yinshui, Wang Shiheng, and Qian LiboCollege of Information Science and Engineering, Ningbo University, Ningbo 315211, Zhejiang Province, P.R.China
integrated circuit; full adder; arithmetic circuit; hybrid logic; low energy consumption; delay; power delay product
DOI: 10.3724/SP.J.1249.2014.05479
针对全加器速度和功耗日益突出的矛盾,提出一种基于M4结构的混合逻辑全加器(HLM4-FA)设计方案.通过两个独立的部分分别产生输出信号,减小电路模块间内部信号的输出负载,优化器件的延时.针对不同的模块,采用混合逻辑设计方法,克服单一逻辑设计电路的局限性,降低电路的功耗,从而降低全加器的功耗延时积.与Hybird、Hybird_CMOS和SR_CPL_Buffer全加器相比,延时和功耗延时积减小分别达33%和37%,有效节省了电路能耗.
Against the increasing contradiction between speed and power consumption of full adders, a new full adder design method based on hybrid logic of M4 structure(HLM4-FA)is proposed.By generating output signals with two separate parts,the output load of internal signals between different modules is reduced, and the delay is optimized.The employment of hybrid logic styles for different modules in the design improves the speed, lowers the power consumption,and also reduces the power delay product(PDP).Compared with the Hybird, Hybird_CMOS, and SR_CPL_Buffer full adders,the proposed full adder reduces the delay and PDP by 33% and 37% respectively.
作为算术运算的核心单元,全加器的速度和功耗对整个系统的性能起着至关重要的作用.例如在乘法器压缩树、比较器及奇偶校验等运算电路中,承担最基本运算功能的全加器的性能明显影响着运算电路的整体性能.在电路设计中,功耗低、延时小和输出全摆幅是运算单元应具有的特性,只有这样才能在低供电电压的情况下,提供足够的驱动能力,保证输出信号的稳定性[1-2].
传统全加器设计大多采用如图1(a)结构[3-7],由3个模块构成(简称M3结构),即输入信号A和B通过module1模块产生异或(XOR)和同或(XNOR)信号,再由module2和module3结合信号Ci输出和信号(SUM)及进位信号(COUT).此类全加器通过module1产生的XOR或XNOR信号来同时驱动module2和module3,这种设计不仅增加了XOR/XNOR的输出负载要求,且增大了电路关键路径上的延时.图1(b)的M4结构[8]则是分别输出信号SUM和COUT,使module1和module2模块的输出负载减小,从而提升整个电路的工作速度.但是,与M3结构相比,由于M4结构采用的是互补传输管逻辑,这也增加了电路的功耗和面积.
针对全加器设计功耗和速度的矛盾,本研究构造了基于M4结构的混合逻辑全加器(以下简称HLM4-FA).该全加器由相互独立的部分分别产生SUM与COUT信号, 以减小与端口A、 B直接相连的两个模块的输出负载,从而优化电路延时; 同时,采用基于混合逻辑的电路设计方法,使用适合低电压工作的电路模块以降低功耗,减小功耗延时积(power delay product,PDP).
常用的逻辑设计风格有静态/动态CMOS逻辑、传输管逻辑和差分级联电压开关(differential cascade voltage switch,DCVS)逻辑等.其中,静态CMOS逻辑可在低电压和较小尺寸晶体管的情况下得到全摆幅的输出电压,功耗较低,版图实现更具规则性,但速度较慢[9].动态CMOS逻辑与时钟网络配合,可提升电路的工作频率,但频繁的时钟跳变和时钟网络负载的增加,会使功耗增大,不利于低功耗设计[10-11].与CMOS逻辑不同,传输管逻辑的工作速度更快,但其性能受晶体管尺寸变化影响较大,且MOS管源级通常连接输入信号,因此驱动能力较差[9].DCVS逻辑由于正反馈的存在而功耗较大,同样不利于低功耗设计[12].基于静态CMOS和传输管逻辑的混合逻辑因具有兼顾功耗、速度与驱动能力等优点,引起研究者的关注,如Hybrid全加器[6]、Hybrid_CMOS全加器[13]和SR_CPL_Buffer全加器[8].图2展示了这些全加器的结构,它们将作为本研究的对照电路.
本研究利用M3结构部分模块低功耗特性和M4结构的速度优势,采用模块化设计,对不同的模块采用合适的逻辑设计方法,避免M4结构A、 B的互补输入信号,省去了反相器又减少了关键跳变节点,降低了功耗.同时,发挥静态CMOS逻辑的优势,在全加器PDP值不增加的情况下,以较小尺寸的晶体管实现正确的逻辑功能,达到优化电路功耗的目的,实现了功耗和速度的平衡.新型全加器设计如图3(a).当Ci=0时, SUM=A⊕B, COUT=A·B; 当Ci=1时, SUM=A⊕B^-,COUT=A+B.
新型全加器电路具有如下特征:
1)模块module1采用文献[6]提出的XOR/XNOR结构,通过2列上拉PMOS和下拉NMOS网络保证了中间信号XOR/XNOR输出电压达全摆幅,增大了驱动能力.由于它们仅需驱动后接传输门的源极,中间信号的输出负载要远小于采用M3结构中由module1驱动2个模块时的输出负载,有效降低了模块间的负载电容,减小了功耗.而且,由于2列上拉和下拉的MOS管之间,不存在由电源到地之间的短路通道,避免了电路的短路功耗.
2)在不增加全加器PDP前提下,module2模块采用静态CMOS逻辑,保证了加法器在低电压下即使采用较小尺寸的晶体管,也能正确实现逻辑功能.晶体管尺寸越小,其自身信号翻转时的负载也越小,进而电路功耗亦越小.在CMOS工艺中,晶体管的源极电容小于栅极电容,与module1一样,module2中NAND和NOR信号都是从传输门的源极输出,这也是电路功耗得以优化的因素之一.
3)模块module3和module4皆采用不存在短路功耗的传输门并后接反相器,以克服传输管逻辑驱动能力不足的问题.无论Ci为何值,module3和module4中的两个传输门都只有1个导通,且是否导通与A、 B无关.若Ci在某时间段内不变,可保
图2 Hybrid,Hybrid_CMOS和SR_CPL_Buffer全加器电路结构
Fig.2 The circuit structures of Hybrid,Hybrid_CMOS and SR_CPL_Buffer full adders
证总有1个传输门呈截止状态,这也可减小电路的动态功耗.
4)采用M4结构的全加器比用M3结构的Hybrid和Hybrid_CMOS全加器的电路运行速度更快.
5)采用混合逻辑,去掉了A、 B的互补输入信号及大尺寸反相器.与基于M4结构并采用单一互补传输管逻辑的SR_CPL_Buffer全加器相比,本研究设计的电路逻辑,克服了以往互补传输管逻辑因节点跳变较多和关键路径上为保证速度采用大尺寸晶体管而导致功耗突出的问题.该设计不需特意为A、 B的互补信号提供金属布线,降低了互连线布线时的复杂度,使版图更易实现,且有效减小版图面积.
6)SUM和COUT信号由2个独立的模块产生,这种设计方式比Hybrid和Hybrid_CMOS结构能更方便地调整XOR/XNOR和NAND/NOR的晶体管尺寸,用以分别改变输入信号到输出端SUM和COUT的传播延时,适应级联需要.
为与参考电路比较,基于NCSU 45 nm CMOS工艺参数模型,对所有参考电路所提供的晶体管尺寸在宽长比(W/L)不变的情况下,使W和L等比缩小到NCSU 45 nm工艺尺寸,并在标准电压下,以降低PDP值为目标,优化模块局部晶体管尺寸,最大程度上获得达到45 nm工艺下各参考电路的PDP性能指标最小化.结合文献[6,13]中的晶体管尺寸优化方法,本研究在优化晶体管尺寸过程中,遵循4条规则:
规则1 对互补或完全对称的PMOS和NMOS管同时进行优化.这是因为晶体管的输出是连在一起的,单独改变任一晶体管尺寸都可能增长输出转换时间和产生毛刺现象.
规则2 令平行、互补和对称的晶体管PMOS和NMOS的宽度比(μN/μP)1/2在1.0~1.5波动[9],使PMOS和NMOS的传输速率相等.
规则3 保持平行或串联的同类型晶体管尺寸一致.不同信号经过平行的晶体管时,可使信号同时到达输出端口; 信号经过串联的晶体管时,可使串联晶体管之间驱动电流相互匹配.
规则4 为保证晶体管的驱动能力,设每个晶体管为2倍或更高倍数的工艺尺寸.
以如图2(a)的Hybrid全加器为例,说明优化具体过程为:
1)找出每个模块内符合上述规则的PMOS管和NMOS管,并对它们的最佳宽度比例进行步进搜索.针对Hybrid全加器中的module1,保证并行的P1和P2尺寸相等,并行的N1和N2尺寸一样,令其宽度比WP1/WN1以步进0.1在1.0~1.5范围内变化,找出令XOR和XNOR信号同时产生的比值,此时PMOS管和NMOS管载流子速率相等.该比值只与MOS管互补、对称以及工艺有关,得到其尺寸最优比近似为4:3.采用相同方法得到module2的WP6/WN6=WP7/WN7, 且最优比近似为 5:4; module3 静态CMOS中, WP8/WN8=WP9/WN9且比值近似为4:3.
2)进行基于模块间的PDP迭代优化.当module1与module2和module3组合时,假设关键路径上的模块是module1和module2,在模块内最优尺寸比例不变的情况下,以步进方式分别对module1和module2等比例缩放,并记下module1的第i次缩放和module2第j次缩放时的全加器PDPij值,找出PDP的最小值,使模块之间相互匹配.在优化过程中,可能使module1和module3构成关键路径,此时再按上述方法在不增加关键路径延时的前提下,对module1和module3的PDP进行迭代优化,直到不能优化为止.此时,晶体管的尺寸无论在模块内,还是在模块间都实现了最佳匹配,且PDP值最小.
需注意的是,在这2个优化过程中,对module1 的每次缩放,都将module1的上拉和下拉MOS管尺寸调整在合适的值,该值的确定,只需保证XOR和XNOR由0转换到1,或1转换到0的时间控制在信号A、 B到达XOR和XNOR时间的10%左右,并对晶体管尺寸做最小化处理.
按照上述优化规则,将所有电路经优化的晶体管的尺寸标于晶体管旁边,如图2和图3.其中,图2(a)中module1和module3构成关键路径,基于静态CMOS的module3需设置较大的晶体管尺寸才能保证PDP值最小化.图3(a)module3中“与非门”中并联的PMOS管和“或非门”中并联的NMOS管是对称关系,“与非门”中串联的NMOS管和“或非门”中串联的PMOS管是对称关系.
对图3的全加器和图2的比较电路,在Cadence IC6.1.0环境下进行原理图和版图设计(图3(b)给出本研究设计的电路版图),利用Calibre工具对版图进行DRC、LVS及PEX,采用Hspice在Slow(0.95 V,125 ℃)、Typical(1.1 V,25 ℃)和Fast(1.25 V,0 ℃)条件下,进行带寄生参数的后仿真验证.相应的仿真测试电路如图4,仿真结果如图5.其中,输入信号的频率为100 MHz,输出端的负载电容C为100 fF.
图5 不同的全加器在Slow、Typical和Fast条件下的延时、平均功耗和PDP
Fig.5 The delay、average power and PDP of different full adders under Slow、Typical and Fast conditions
从图5可见,无论在Slow、Typical还是Fast条件下,Hybrid全加器在平均功耗方面都占有优势,这主要得益于其XOR/XNOR结构,这种结构无论在全加器还是4-2压缩器[14-15]中,都获得了低电压下的低功耗效果.本研究设计的全加器HLM4-FA采用了文献[6]提出的XOR/XNOR结构产生A、 B的异或和同或信号,同时下半部分通过静态CMOS逻辑实现低电压下的全摆幅,使得所提出的全加器在4种电路中,平均功耗略高于Hybrid,但关键路径时延最小,实现了PDP的最小化.
NCSU 45 nm工艺标准供电电压为1.1 V,考虑到测试电压高于标准电压太多,会烧坏晶体管; 而供电电压太低,则电路不能正常工作,因此电压选定在0.7~1.3 V,如此电路既能正常工作,又可方便进行低电压下低能耗特性的比较.
表1至表3给出了全加器在25 ℃,电压范围在0.7~1.3 V,负载C=100 fF,频率100 MHz下的延时、平均功耗和PDP性能参数.
由表1可见,HLM4-FA与SR_CPL_Buffer全加器均采用输出信号相互独立的M4结构,module1和module2信号输出端连接传输门源极,减小了输出负载; 同时,由Ci及其互补信号控制传输门栅极,因此其速度较Hybrid和Hybrid_CMOS全加器结构优势明显.从能耗角度考虑,由表2可见,尽管Hybrid结构随电压变化的平均功耗最小,但其较长的延时导致PDP值增大.虽然在3个已发表的Hybird、Hybird_CMOS和SR_CPL_Buffer设计中, SR_CPL_Buffer结构的速度优势最明显,但其互补传输管逻辑的节点和静态反相器较多,且关键路径上存在较多的大尺寸晶体管,使其平均功耗较大,抑制了其PDP的优势.HLM4-FA结构的晶体管数目多于Hybrid结构,平均功耗亦略大.但由于去掉了A、 B的互补信号和反相器,功耗相应降低; 同时,由于module2采用静态CMOS逻辑,可用较小的晶体管尺寸,在低电压条件下稳定地输出A、 B的NAND/NOR信号,功耗进一步减小; M4结构的特性也有效地降低了全加器的延时.从表3可见,HLM4-FA结构在不同电压下PDP值最小.
为说明电路的负载承受能力,图6给出Slow工艺条件下,负载在0~200 fF变化时的PDP仿真曲线.从图6可见,本研究设计的HLM4-FA全加器的PDP值小于其他3种全加器,充分说明了本研究设计的全加器在大负载条件下的优势.
图6 Slow条件下全加器PDP与负载电容关系特性曲线
Fig.6 The full adders' PDP under Slow condition with different load capacitances
全加器电路是构建加法器和乘法器等运算电路的基本单元[16-18],为验证其在真实环境下的性能,本研究构建如图7的4个N bit操作数相加的进位保留加法器(carry save adder,CSA)结构.尽管相加的操作数数量会影响CSA阵列的结构,但并不影响不同全加器在同一环境下的性能比较.
在1.1 V、25℃条件下,对不同全加器构建的CSA电路,抽取版图寄生参数并进行后仿真.电路的输入信号频率为50 MHz,仿真结果见表4.
由表4可见,本研究提出的HLM4-FA全加器构建的电路延时最小.虽然随着N的增大,各电路的平均功耗呈比例上升,但用HLM4-FA构建的CSA电路的平均功耗相对较小,与其他电路相比,PDP更有优势,且随着N的增大,该优势逾明显.
表5给出了各全加器电路在NCSU 45 nm CMOS工艺下版图面积,所有电路的版图都是按照DRC要求的最小间距设计的.定义垂直方向的距离为高度,水平方向距离为长度.从表5可见,Hybrid和Hybrid_CMOS结构由于使用的晶体管较少,所以面积也相对较小.SR_CPL_Buffer结构晶体管数不是最多,但面积最大,这是由于其结构上下两部分都采用了互补传输管逻辑, A、 B端口及其互补信号使得布线面积增大,且PMOS管和NMOS管数量不完全对称,导致该结构不规则的连线版图实现起来较复杂.对比之下,本研究所提出的HLM4-FA全加器虽然所需晶体管数最多,但因结构对称,且不需A、 B有互补的输入信号,面积较SR_CPL_Buffer结构的节省了约30%; 与Hybrid和Hybrid_CMOS相
比, 尽管面积增了9%,但也换取了超过30%的延时和PDP性能的提升.
基于静态CMOS和传输管逻辑的混合逻辑设计方法,本研究提出一种新型的全加器结构HLM4-FA.该全加器既避免了互补传输管逻辑节点多的问题,又合理地利用了静态CMOS逻辑运算不随供电电压和晶体管尺寸改变的高鲁棒特性,通过采用能降低关键节点负载的模块,分别优化电路的功耗、延时等性能指标.与Hybird、Hybird_CMOS和SR_CPL_Buffer这3个典型结构的全加器,及他们构建的CSA电路仿真结果的比较,验证HLM4-FA能实现电路的低功耗设计,并优化了延时,减小了能耗,为设计高速低耗大规模运算集成电路提供参考.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 阮双琛
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N