大逆转:新一代“龙芯”能否挑战Core i7?
雷锋网上一次介绍国产龙芯处理器发展情况时曾提到,虽然目前龙芯销售的成品芯片在性能、功耗等各方面都不尽人意,但是下一代核心将有非常明显的进步,一举接近国际一流水平。最近,《中国科学:信息科学》期刊刊登了下一代龙芯架构的相关论文,介绍了新产品的具体改进与多项性能测试数据。从中我们惊讶的发现,新龙芯已经不再是过去那只丑小鸭了。
龙芯现有的两个桌面型号分别是四核心的3A-1000和八核心的3B-1500,其内核是2006年定型的GS464微架构。如今老旧的GS464核心已经不堪重任,各项性能指标与当前国际主流CPU差距较大,无法适应竞争激烈的芯片市场。为了追上国际一流水平,中科院计算所于2012年开始研制新一代龙芯架构GS464E。2014年底使用GS464E核心的首款芯片3A-1500流片,预计今年年底成品面世。
相比上代产品,GS464E核心有了相当大的改进:提升分支预测效率、增加发射和重定序队列、使用新设计的缓存方案和访存部件等。这些改进的结果是核心单线程性能大幅提升,访存性能更是有了飞跃。此外,GS464E还优化了多核并行的效率,并增加了硬件级的x86与ARM指令翻译模块,使芯片可以高效率模拟运行x86和ARM平台的应用程序。
大家可以这样理解新龙芯核心的变化:部队行军作战不仅需要勇猛的士兵,还要有先进的装备、稳定的后勤;上代龙芯架构中负责“作战”的那部分设计的很好,但与之配合的“装备”“后勤”就比较落后。GS464E重点强化的就是后者,现在士兵有了强力武器和充足的后勤供应,打起仗来自然如虎添翼。
核心大幅改进后,新龙芯的性能表现自然就备受期待。这次计算所慷慨地放出了多项测试程序的对比结果,部分项目还直接找来Intel上代桌面高端处理器Core i7 3770来同场竞技,让观众大饱眼福。
参与测试的处理器有上代四核心的龙芯3A-1000和新一代的3A-1500,主频均为1GHZ;3A-1000使用双路DDR3-667内存,3A-1500则用双路DDR3-1000;对比的Core i7 3770则使用单通道DDR3-1333内存。
首先来看常用的SPEC CPU 2000跨平台测试集。单线程测试中3A-1500的整数性能比上代提升了54.9%,浮点则大幅提升100.6%。这还是使用通用GCC编译器的结果,如果未来改用针对新龙芯优化的专用编译器,预计其优势会更大。下图是新龙芯运行各项SPEC测试子项目时相对老产品的性能提升比例:
然后是几项老牌的处理器运算速度测试程序:Whetstone偏重浮点运算,Dhrystone和CoreMark是整数测试。由于GS464E主频较低,这里对比了它与Core i7-3770的同频率等效性能。
在这三项测试中,尚未得到编译器充分优化的龙芯竟然跑出了接近甚至超越Core i7的同频效率。虽然龙芯的主频远不如对手,整体性能依旧落后不少,但同频性能接近i7-3770已经证明新架构的实力的确强悍。将来龙芯经过工艺改进和后端优化后可以实现2GHZ以上的主频,届时就可以和主流双核桌面CPU一较高下。
上代龙芯的一大软肋是访存性能,这也是GS464E重点强化的指标。我们来看实际测试的结果如何:
由于相关测试程序暂时无法识别GS464E的双路内存控制器,所以这里3A-1500与i7-3770都是用单通道内存模式,频率分别为1000MHZ和1333MHZ。测试结果表明新龙芯的访存性能有了数量级的飞跃,已经接近国际一流水平。至此,访存性能不再是龙芯的主要瓶颈。
计算所对新龙芯的初步测试结果无疑是十分满意的。他们在文章中写道:
GS464E 处理器核的性能比上一代处理器核产品有大幅提升, 在流式访存程序上,更是获得了超过 10 倍的性能提升. 从程序运行效率的角度, 其结果已不输于 Intel Ivy Bridge 处理器.总体而言, GS464E 的设计已经接近国际最先进水平, 是一款国内顶尖的拥有自主知识产权的处理器 核产品.
短短几行字,自信和自豪感跃然纸上。
龙芯3A-1500只是GS464E核心的一个验证性质的版本,制造工艺仍是老旧的40nm,主频不过1GHZ。计算所计划在接下来发展28nm工艺、主频超过1.5GHZ的龙芯3A-2000,这款芯片将正式推向市场,走进PC、服务器与Intel、AMD的处理器正面对抗。计算所未来还将有加强浮点能力、支持超线程并改用更先进工艺的龙芯3B-2000等新品。从市场角度来说,龙芯3A-2000即可满足绝大多数的家用、办公场景需求,可以替代运行常见任务的x86 PC与服务器。由于龙芯平台基本不存在软硬件后门问题,更适合政府和大型企业等敏感部门使用。
棱镜事件后,中国对自主研制的通用处理器需求愈发强烈。新一代龙芯如能顺利发展,快速推向市场,将弥补我国关键领域缺乏性能够用的国产芯片的空白。经过十余年艰难探索,龙芯终于要破茧成蝶了。
注:本文数据及图表引用自《龙芯GS464E处理器核架构设计》(《中国科学:信息科学》2015年45卷4期)。
- 来自 - 美国 的 Chrome/Windows 用户 2015-05-04 07:14 8 赞 回复
-
领先的都是浮点bench, CINT2000里的大多都不到IVB一半的性能
以前听说MIPS跑dhry差, 见识到了.
- 来自 - 江苏苏州 的 Firefox/Windows 用户 2015-05-02 12:21 15 赞 回复
-
为何要用不同配置来对比测试?
i7用单通道DDR1333 , 而龙芯用双通道667,1000 ??
几年前MIPS被拆分收构前,MIPS性能已超越ARM许多,为何同样使用MIPS架构的RSIC芯片龙芯要和复杂指令集的X86芯片来比较?
- 来自 - 内蒙古呼和浩特 的 Chrome/Windows 用户 2015-04-30 15:53 22 赞 回复
- 新构架就加个“E”?新构架起码得有个新型号吧!就加个“E”可想而知就是简单修改下。测试数据就别看了,坐等打脸!