Haswell处理器的名字延续了Core处理器家族的称呼,正式名字是“The4thGenerationIntelCoreProcessorFamily”,即第四代Core处理器家族,采用更为成熟的22nm3D晶体管工艺制造,晶体管数量依然和IvyBridge一样是14亿个,不过核心面积从160mm2上升到177mm2。
首批上市的Haswell处理器共有16款,包括Corei7-4770K、i7-4770、i7-4770S、i7-4770T、i7-4770TE、i7-4765T等六款i7处理器和Corei5-4670K、i5-4670、i5-4670S、i5-4670T、i5-4570、i5-4570S、i5-4570T、i5-4570TE、i5-4430、i5-4430S等十款i5处理器。
Haswell并不像去年的IvyBridge只是SandyBridge的制程升级版本,而是一个全新的架构,那么它必然有许多变化了的地方,下面我们就来罗列一下它所变化的地方。
更换LGA1150封装
Haswell最明显的变化就是CPU的接口变成LGA1150了,必须得用最新的8系列主板才能支持,所有想升级的朋友必须得重新购买一套新的CPU和主板。
整合的显示核心也进行了一次升级,现在首批上市的Haswell处理器所用的基本都是GT2核心的HDGraphics4600,拥有20个EU单元,移动平台上还有性能更强的GT3核显,拥有40个EU单元,而且部分型号还配有大容量的eDRAM缓存。
上一代的HD4000只有16个EU单元,而且大多数的IvyBridge处理器用的还是性能低下的HD2500核显,只有6个EU单元,Haswell的核显性能比上代产品规格有明显的提升,性能的提升也非常明显。
整合FIVR调压模块
Haswell集成性更高,把原来五部分的VR调压模块现在整合为一个FIVR模块,原来的调压模块有Core、显卡、SA、I/O、PLL之分,现在统一为输入VR。
Haswell同样采用22nm工艺,晶体管数量依然和IvyBridge一样是14亿个,不过核心面积从160mm2上升到177mm2,面积增加的原因可能是整合了FIVR模块导致的。
内核变化:缓存带宽增加,超频限制放宽
Haswell支持新一代的指令分支预测,可提供性能并减少性能浪费;加强了前端处理,预测性地除非TLB和cachemisses,同步处理cachemisses以减少时延;采用了更大容量的缓存,这样就可以解析更多的同步指令,单线程运行时可获得更多资源;拥有更多的执行单元;更大的取/存指令带宽,更加的预取指功能,更少的cacheline分离时延和吞吐量,L2带宽加倍。
Haswell处理器每核心4个算术逻辑单元(ALU)和3个地址生成单元(AGU,2个位于加载管线,1个位于存储管线);每核心8指令发射端口,可同时运行8条内部指令(uOPs),以实现4倍整数运算(SandyBridge/IvyBridge为6uOPs/3倍整数运算);2个256比特的SIMD单元,以便支持Larrabee/Knight系列的512位SIMD;类似于LGA2011平台的可调节外频/基准时钟频率(即ReferenceClockRatio技术),意味着Haswell平台的超频限制放宽。
不变之处
FIVR集成式调压模块:一片顶五片
在Haswell之前,整个处理器的VR模块可以分为CoreVR、GraphicsVR、PLLVR、SystemAgentVR及IOVR,这五个VR模块再加上Memory内存VR都是位于主板上的,Haswell将前面5个VR模块整合成一个,并且集成到了CPU内部,主板上只留下MemoryVR模块。
FIVR的实现:2.8mm2专用电路单元,最多320相
FIVR把主板上的功能集成到了CPU内,这就需要CPU芯片单独划出一部分电路来控制。Haswell中,每个CPU内都有单独的PowerCell电路,内有16相PWM电路,核心面积2.8平方毫米,每个处理器内最多可有20个PowerCell单元,最多320相供电,核心面积也会增加,按照20个cell来算这就是56平方毫米了,相对核心面积只有100平方毫米的CPU来说不小了。
当然,Intel官方公布的资料里也没具体说明Haswell处理器到底集成了多少个PowerCell单元,实际上不会有20个这么多,从之前公布的测试来看,我觉得5个都算多了。
PowerCell架构:每路电流25A,开关频率最高140MHz
据Intel所说,每个PowerCell单元实际上就相当于一个最小的VR电路(上桥MOSFET+驱动电路),支持通过电流25A(每相电路相当于1.56A),20个Cell电路就相当于500A电流,远远高于CPU正常所需的电流。此外,其开关频率可达30-140MHz,这样单纯的数据没有什么意义,我们以技嘉主板的超耐久5用料中的IR3550MOSFET,其开关频率为1MHz,就算把最顶级的MOSFET算上,Haswell的PowerCell电路的开关速度都是它的30-100倍以上,而开关频率越高,电流输出就会越平稳。
最后,PowerCell中的每相电路的自身电感值只有17nH(纳亨),而主板上使用的电感大都是R56或者R80的,电感值为0.56/0.80uH(微亨),相当于560/800nH。
需要注意的是,我们现在看到的这些FIVR模块数据实际上都是基于90nm工艺制造的,也就是说如果Intel打算用更先进的制程工艺来生产PowerCell电路,那么其核心面积还会进一步减小,性能也可以更高。
FIVR模块的意义:更精确的供电控制,更高的能效
Intel不惜以增加核心面积和功耗的代价在Haswell处理器上使用FIVR模块,这说明FIVR带来效果肯定是利远大于弊。通过FIVR,Haswell处理器的每个内核的的供电管理会更佳精细化,直接好处就是电压波纹更低,能效更高。
按照Intel的测试,FIVR的电压波纹只有2mV左右,目前高端主板的波纹能做到10-20mV,一般的主板能做到50-80mV就不错了,2mV的波纹绝对是惊人的水平。
传统的设计中峰值最高效率也只有76%,FIVR可以轻松达到82%的水平。
Intel还对比了与主板上的VR模块的体积问题,FIVR具备400A以上供电能力,传统主板设计普遍是120A左右(实际上高端主板普遍是12相,每相电路一般认为30A供电能力,差不多也有400A的供电能力),而且FIVR的最大特色就是体积更小,二者完全不在一个量级上。
主板供电大大简化,FIVR代表未来
初看Intel的FIVR设计还以为它能取代主板上的PWM电路呢,实际上FIVR目前还不具备这个功能,因为它只是个高精度高精细化的调节模块,还需要主板的PWM电路提供基本电压调节。另外,MemoryVR模块还是独立在主板上的。
另一方面就是FIVR的精细化调节,让系统更加省电。它能独立调节每个内核、显卡核心、SA系统助手以及内部的I/O总线等各个部分供电,不需要的部分就关闭掉。比如播放视频,基本只要GPU解码参与就行,FIVR通过精细化调节让Ring-Bus总线全速运行,同时关闭CPU供电,这样功耗会降低许多。
FIVR代表的是未来,更精确精细化的供电控制可以让Intel更好地调控CPU核心或者整个处理器的功耗与发热,可以实现哪里不用关哪里的效果,带来更深层的C节能状态。
在2011年发布的AVX2则在此基础上加入了以下新内容:
-整数SIMD指令扩展至256位
-2个新FMA单元及浮点FMA指令
-离散数据加载指令“gather”、新的位移和广播指令
理论性能:整数和浮点性能翻倍
其中最为重要的是对256位的整数SIMD的支持,并新增60条256位浮点SIMD指令,完善从AVX开始的256位扩展,理论上可再次提升整数和浮点运算速度。
FMA指令集是AVX的扩展指令集,即熔合乘法累积,一种三元运算指令,允许建立新的指令并有效率地执行各种复杂的运算。熔合乘法累积可结合乘法与加法运算,通过单一指令执行多次重复计算,从而简化程序,从而使系统能快速执行绘图、渲染、相片着色、立体音效,及复杂向量运算等计算量大的工作。
FMA拥有20种指令形式,与3种操作数次序组合,形成60种新指令,为选择内存操作数或目的操作数提供了极大的灵活性。另外融合乘加还会自动选择多项式的计算过程,降低了延迟。
在AVX中,Intel定义了两个128位通道,分别是高通道和低通道,不同通道不能互取数据;到AVX2中,跨通道数据排列操作则实现了高低通道数据互通,效率更高。
新的离散数据加载指令是一种访问非连续内存的基本操作,可以加载8个双字节或者4个四字节到一个目的寄存器中,提供了一种新的矢量化途径。
另外AVX2还加入了一些移位指令和广播指令,其中移位指令包括任意到任意SIMD数据置换与矢量移位,使矢量化更高效、可靠。
实际应用:加强视频处理、游戏和专业计算性能
(1)目前大部分程序(包括操作系统以及游戏)的代码靠的主要是整数运算。AVX2指令集引入了对256位整数矢量指令的支持,让Haswell处理器的整数运算比上代架构有了更大提升,软件响应速度更快,运行更流畅。另外,较多使用整数运算的图像、视频处理也将受益。
(2)新的FMA单元加强了处理器浮点运算性能。对普通用户来说,游戏效果、3D动画以及视频播放是接触浮点运算最多的应用领域;浮点运算还是通用计算的主力。AVX2指令集帮助Haswell处理器提升浮点运算性能,也就是说,Haswell处理器将能比SandyBridge和IvyBridge展现出更强的3D性能和更快更准的通用计算能力。
多线程多核处理器问世几年来,在AMD和Intel的轮番推动下双核、双核四线程CPU已经是最基本的配置,四核以及四核八线程也不是少数人的玩物了,总之就是多线程在物理基础上已经普及,但是日常应用中八线程并不能总是比双线程要快。
其中的原因有软件/游戏开发商对多核优化不够造成的,但是CPU自身也存在一定限制,比如传统操作中一个线程访问了某部分内存数据之后就会通过一个“lock”锁操作来保证数据的统一性,又分出粗粒度锁定(Coarse-grainedthreadlock)以及细粒度锁定(Fine-grainedthreadlock),无论是哪种锁都存在多线程并行的效率问题,因为锁操作是互斥的。
Intel早在2006年的IDF上就公布了这一问题的解决方案,那就是改用TransactionalMemory(事务型内存),这一技术早在服务器处理器上应用多年,但在桌面CPU中还没有应用过,要等到Haswell这一代才能有实际应用。
举个简单的例子,你在编辑excel表格,如果你打算同时编辑两份拷贝,excel就会提示你该文件正在编辑,只能以只读方式打开但不能编辑,这种情况叫做粗粒度线程锁定,这种锁定比较简单,很容易实现,但是效率不高。
细粒度线程锁定则可以实现自由度更高的数据同步,还是前面的例子,如果使用细粒度线程锁定,那么每个线程都可以操作不同纵列的数据,明显提高了CPU效率,不过这样做也有更大的风险,比如数据出错的几率更大,特别是多个线程同时向一个区域写入数据时,而粗粒度线程锁定则可以避免这个问题,同时保持不需要的核心处于休眠状态,更节能。
为了避免出错,程序员往往钟爱粗粒度线程锁定,而TSX扩展的设计目的就是评估软硬件状况并为程序员提供无错的细粒度线程锁定。
Intel在当时的软件仿真演示中表示使用事务内存技术后性能可以提升1-3倍,比如基于锁操作的测试需要10.4秒,而使用事务内存处理只需要4.6秒,性能是前者的2倍还多。
Haswell将是消费级处理器中首次使用事务内存技术的架构,虽然Intel已经展示了该技术的良好前景,特别是在复杂的多线程应用中其理应有更好的表现,不过回到现实中这一技术还需要系统在内存管理和线程调度上做相应的优化,具体性能提升只能拭目以待。
最后要说的是并不是所有的Haswell处理器都支持TSX技术,我们手头上的i7-4770K就是其中一个,另外还有i5-4670K、i5-4430以及i5-4430S处理器都不支持TSX。
◆图形核心:全新“锐炬”品牌
从架构上来说Haswell的核显其实和IvyBridge是非常相似的,同样采用环形总线与CPU其他部分相连,内部分成6个区域,分别是全局单元、模块列阵共享区(包括光栅单元、3级高速缓存和像素后端)、子模块阵列区(包括着色器、指令高速缓存和取样器)、多格式视频编码解码器引擎、视频质量增强引擎、显示输出单元。
不过Haswell的显示核心在设计时就会扩展做好了准备,模块列阵共享区和子模块阵列区是可以扩展的,因此诞生了GT3核心。
目前知道的是GT2核心拥有EU单元20个,80个ALU单元,2个曲面细分单元,与目前HD4000显卡的16个EU单元相比多了四分之一,而SNB到IVB提升了三分之一。
GT3核心的规格则是GT2的两倍,EU单元大幅升至40个,160个ALU单元,4个曲面细分单元,虽然还不知道具体性能数据,但是这么大规模的硬件提升已经让Haswell超越了入门级显卡的水平,甚至具备叫板中端显卡的能力,这对AMD或者NVIDIA来说可不是什么好消息。
至于GT1核心,目前尚不清楚它的具体规格,首批上市的Haswell也都是采用GT2核心的产品,什么处理器会采用GT1核心也不太清楚,根据之前的传闻,GT1核心拥有6个EU单元,24个ALU单元,1个曲面细分单元,与目前的HD2500显卡基本相同。
Intel在2013年的VLSI超大规模集成电路会议上发表了一篇论文——集成3D晶体管及MIMCAP板载芯片的22nm高性能嵌入式eDRAMSoC技术,这里就提到了HaswellGT3e核显的设计。GT3e核显集成了128MBeDRAM,位宽512bit,带宽可达64GB/s,作为对比的是128bit5GbpsGDDR5的GT650带宽是80GB/s,DDR3版的GT640带宽在28.5-43GB/s之间。
这个嵌入式eDRAM是作为L4缓存存在的,可以同时提升CPU和GPU性能。在服务器环境中,大容量缓存对多核处理器是很有用的。在这里L4缓存也能提升GPU的性能,虽然不能指望它有高端GPU的表现,但是相比传统集成式GPU的设计来说,GT3e应该会带来更好的性能。
核显新名字“锐炬”
Intel的核显一直以来都用HDGraphics来命名,不过与NVIDIA的GeForce还有AMD的Radeon相比这个名字还是不够霸气,因此从Haswell处理器的核芯显卡开始,英特尔将引入新的名字“Iris”和“IrisPro”,中文名为“锐炬”和“锐炬Pro”。
Haswell处理器的GT3e级别核芯显卡被命名为IrisPro,中文名为锐炬Pro,具体型号有IrisProGraphics5200,也就是之前盛传的HDGraphics5200,英特尔称其性能与GeForceGT640是同一级别的;GT3级别核芯显卡则是Iris系列,中文名为锐炬,具体产品有IrisGraphics5100。
那么和上一代7系主板相比,新一代的8系主板有哪些变化?
单纯从名字来看,Z87、H87、B85是对应IvyBridge处理器芯片组Z77、H77、B75的升级型号,它们的市场定位也应该基本类似,不同的是8系主板中多了H81,或许可以把它看作是H61飞跃的产物。
CPU插座支持LGA1150,不兼容旧处理器
由于Haswell处理器的接口变成了LGA1150,相应的,支持Haswell的8系主板CPU插座也必须作出改变来支持LGA1150,这意味着旧的CPU哪怕是IVB也不能在8系主板上使用,新CPU要配新主板,新主板也得用新CPU,英特尔已经这么干了好多年。
原生SATA6Gbps接口更多了
和Z77上可怜的2个SATA6Gbps接口相比,Intel对新主板上真算得上大方了,Z87和H87的原生SATA6Gbps接口达到了6个,B85也有4个。原生SATA6Gbps接口的增多,意味着很多中低端8系主板可能不会再利用第三方芯片来提供额外的SATA6Gbps接口。
同时,8系主板原生的SATA3Gbps接口有所减少,Z87和H87甚至不提供了,H81和B85也只提供两个SATA3Gbps。
正是几家欢乐几家愁,用户是欢了,不过这次愁的那些第三方SATA6Gbps芯片厂商,它们的生存空间无疑被压缩了很多。
Z87主板:超频的唯一选择
当然,最重要的是,Z87是唯一支持Haswell超频的芯片组,它延承了上一代的优良传统。另外,要组双卡交火或SLI的话,也只有Z87或H87可选,不过有能力组双卡的玩家,相信基本上会选择Z87主板。
H81主板:H61的接班人
由于没有H71主板的存在,H81的出现让我们又看到了H61大卖特卖的情景,从规格上讲,它是几款消费级8系主板中最低的,价格也肯定最低,具有突出的性价比,它是H61最佳接班人,当然低端的LGA1150处理器还没出现,所以首发也自然没有H81的份。
B85主板:支持SRT
H87主板:廉价双卡方案
与Z87相比,H87主板只是不支持超频,以及不支持动态磁盘加速技术,它依然可以支持组建双卡交火或SLI系统,而且售价上应该会比Z87便宜不少,对于不超频又想组双卡的玩家来说H87是一个比较便宜的选择。
小结:
英特尔8系主板和7系主板对比来看,规格上的变化很小,在功能和性能上不能奢望太多,主要是它支持Haswell处理器,CPU插座接口发生了变化,细节上如增加了原生SATA6Gbps接口等,而B85支持SRT和H81的出现,也算是为数不多的亮点。
这些其实都不重要,关键在于,配Haswell你只得用8系主板。
这是我们买回来国行盒装的Corei7-4770K包装,LGA1150处理器的包装与LGA1155处理器有很大的差别,不过这个新包装怎么看怎么诡异的样子。
三个CPU的背面照片,Corei7-4770K的背部元件明显要比另外两个要少,另外触点少了5个,有朋友感兴趣找一下吗?
◆测试平台与说明
分别对比默认频率和4GHz同频时的CPU性能,使用独显时的游戏性能,另外还会对比Intel三代核显的性能,具体的测试项目如上表所示。
在默认设置下,Corei7-4770K的性能领先上一代旗舰产品Corei7-3770K有15%之多,不过这多少有点是频率差距所造成的,因为Corei7-4770K的四核TourboBoost频率能达到3.9GHz,而Corei7-3770K的四核TurboBoost频率只能达到3.7GHz,单核负载时才能达到3.9GHz,所以在多线程的测试中i7-3770K在默认频率下是比较吃亏的。
◆CPU默认频率性能对比:对阵Corei7-2600K
与上两代的Corei7-2600K对比的话差距就更明显了,因为i7-2600K四核TurboBoost频率只能达到3.5GHz,频率差距更明显,所以i7-4770K要领先24%之多。
◆CPU同频比武:对阵Corei7-2600K
◆实际应用测试:差异甚微
前面的测试都是些理论测试,下面我们来跑几款游戏看看Corei7-4770K在实际应用中能领先上两代处理器多少。
Corei7-4770Kvs.Corei7-2600K
相比与CPU那10%的性能提升,核显的性能提升给力多了,HDGraphics4600相比HDGraphics4000的性能提升了43%之多,在3DMark11中领先幅度达到了81%之多,可以预见的是下一代的超级本3D性能会较现在大幅提升,让我更期待采用GT3核心的HDGraphics5000系列核显了。
如果对比HDGraphics3000的话,性能完全就翻了一倍,而且HDGraphics4600还支持DX11,可见这几年Intel在提升核显性能上下了不少功夫。
◆温度测试:满载温度上升
Corei7-4770K在待机时频率只有800MHz,只有两代产品的1.6GHz的一般,所以待机电压也低了不少,只有0.712V,温度也自然最低,只有25.6℃,同制程的Corei7-3770K温度是26℃,而Corei7-2600K的温度则是30.1℃。
◆功耗测试:实际应用功耗降低
集成VRM调压模块的好处就是可以更精确的控制CPU核心个部分的电压,所以功耗可以控制得更精确,i7-4770K待机时平台功耗只有22W,要远比LGA1155平台的两个处理器要低。用3DMarkCloudGate负载时也一样,功耗只有53W,比另外两款都低很多。
不过用AIDA64负载时Corei-4770K的功耗就变得非常恐怖了,达到143W之多,此时功耗远超两款LGA1155处理器,频率和电压较高可能是主要原因吧,虽然低负载时的功耗控制得很好,但是满载时功耗还是挺吓人的。
◆超频测试:超外频时代归来
默电超4.2GHz
主板电压选项如果设为AUTO的话会自动加压,所以要把核心电压设置设为Normal才行,另外关闭了TurboBoost,所以超频时电压为1.177V,倍频可调至41,外频则可超至102.37MHz,最终主频为4.2GHz,顺利的通过10分钟ORTHOS烤机测试。
风冷极限4.8GHz
在风冷环境下这颗Corei7-4770K可以超至4.8GHz,电压需要加至1.548V才比较稳定,不过此时CPU的发热非常大,运行一些负载较低的测试还是可以的,高负载测试要不就自动降频,要不就直接蓝屏。
可稳定4.5GHz
要这颗CPU稳定下来而且负载时不降频的话,4.5GHz是一个比较稳定的选择,电压1.409V,此时CPU的发热用猫头鹰NH-U14S勉强可以压制得住,不会降频和蓝屏,顺利的通过ORTHOS10分钟烤机测试。
最大外频170MHz
面对这次的平台升级,估计有大多数用户都在买不买这个问题上纠结,就现阶段来说,LGA1155平台确实是有价格上的优势,但是LGA1150平台在以下几个方面有优势:
2.整合GPU性能大幅提升:比上一代提升了43%,流畅运行主流游戏没什么问题。
4.Z87/H87提供了6个原生SATA6Gbps接口:有多个SSD的用户再也不用烦恼了,而且这也意味着mSATA6Gbps接口会在Intel平台上出现。
5.超频更容易:RCR技术的引入让CPU的外频调节范围大幅放宽,现在超频不再是“K”系列处理器的专利了,普通版本的处理器也可以通过超外频的方式进行超频,当然了前提是你有一块Z87主板。
选购建议:LGA1155用户继续观望,其它用户首选
至于售价方面,Haswell处理器Intel的建议零售价其实和现在的IvyBridge处理器是一样的,i7-4770K与i7-3770K一样是339美元,只不过i7-3770K上市了这么久,实际售价已经向下调整了不少,淘宝上i7-4770K的售价在2400元左右,i7-3770K的话2200元就有交易了,当然了我知道这点差价并不能阻碍新用户和非LGA1155平台用户直接购买Haswell平台,更何况前者还有性能上的优势。
对于LGA1155平台用户来说,升级没有那么迫切,性能提升幅度较小,其它方面的体验也并非是致命诱惑,不值得花重金去购买一套全新的平台,你可以通过添加独立显卡等方法来提升平台性能,或许明年Q2更新版的Haswell能让你更心动。