Linux.中国 - 开源社区

 找回密码
 骑士注册

QQ登录

微博登录


美国封锁对华超算技术出口:出什么事了?

2015-4-14 10:17    评论: 7    

美国封锁对华超级计算机关键技术出口的消息,让超算这个词汇又成了媒体关注的焦点。

虽然国产超算“天河2号”已经数度夺得全球性能冠军,但是为之自豪的网民还很少对“超级计算机”这个概念有比较深入的了解。本文将先为大家介绍超级计算机相关的背景知识,并探讨美国技术封锁政策对我国超算发展的影响。

(题图来自:qianzhan123.com)

什么是超算?

超级计算机,又称高性能计算,英文名High Performance Computing,简称超算/HPC。HPC是为了解决工业界对大规模计算能力的需求而诞生的技术,现代超算本质上是将大量配置接近普通家用电脑/商用工作站的主机通过高速网络连接起来的主机集群。它运行的是专用操作系统,每台主机是一个运算节点;大量节点的运算能力叠加起来,就获得了远超单台或几台普通PC的计算能力。

超算的技术特点

经常在超算相关的新闻下面看到这样的评论:“这么强,跑xxx游戏卡不卡?”普通消费者对“运算速度”的概念通常就是玩一些大型游戏有多少帧率、画面细节能达到什么档次。有趣的是,超算执行的任务与3D游戏有不少相似之处。

计算机世界中,“计算”可以分为整数和浮点计算两大类。8X4是整数运算,而1.5912/0.4就是浮点计算。我们常见的大多数程序都是以整数计算为主,辅之以少量浮点部分;但3D游戏、图像渲染、视频特效这类工作则会大量应用浮点代码。

在科学和工程领域常见的计算任务都是偏浮点化的:典型如大气模拟、材料应力计算、蛋白质分子模拟、地质模型分析等。这些领域中整数运算所占的比例较小,与我们常见的PC程序有较大差异。

浮点运算任务的一大特点是很容易高度并行化。简单来说就是一段计算可以拆分给许许多多的计算核心来完成,不像整数计算那样很多时候只能分给少量几个核心。另外,密集浮点程序可以大量使用高级浮点指令—例如AVX、FMA等来明显提升运算速度。相比之下一般消费者使用的程序往往只能用到老旧的SSE、SSE2,不太容易从新指令中获得加速效果。

因为上述特点,高性能计算领域的应用可以很容易地从CPU的浮点运算能力改进中得益。下图是Intel几代Xeon CPU的理论浮点性能对比,可以看出受益于高级指令的增加,每代新品的性能都提升1倍以上;我们普通消费者很难感受到这么大幅度的进步,但科学和工程计算程序就获益匪浅。

5526fdbf477d7.jpg

偏重浮点性能、可以大规模并行化的特点使科学计算应用很适合跑在GPU上。GPU可以看作是有很多小核心的一种CPU,牺牲整数性能和单核心性能换来整块芯片超强的浮点性能。CPU和GPU联合执行科学计算的方式被称为异构计算,最近几年异构计算开始逐渐在业界推广。

除了执行运算的CPU、GPU核心,超算的另外两大关键技术是内存和互联网络。高性能计算任务通常需要大量的内存,而且所需的空间随计算核心数量的增多而增加;此外,这些内存还要有很高的带宽来迅速将数据传递给处理器核心。互联网络则是将成千上万的主机搭建成超算系统的关键,主机数量越多,对网络的带宽、延迟和稳定性要求就越高。

超算技术发展现状

从前面的介绍我们可以知道,超算需要的是浮点性能很强、内存带宽和容量很高的计算芯片,以及高性能的大规模互联网络。高性能芯片的技术被四大巨头垄断:Intel、IBM、Nvidia和AMD。其中,Intel和IBM一方面生产CPU,另一方面研制出了类似GPU的超多核心芯片。例如Intel的新一代Xeon Phi处理器就是将数十颗特别加强了浮点性能的Atom核心集成到一起,配上带宽达到数百GB/s的3D封装内存制造而成的。一颗新版Xeon Phi的性能达到每秒2万亿次浮点运算,相当于最快的Xeon CPU的3倍。Nvidia和AMD则在自家GPU的基础上生产专用计算卡Tesla和FirePro,其浮点性能也达到2-3万亿次每秒的水平。

5526fde31eb31.jpg

由于制造技术与成本的限制,Tesla和Xeon Phi这样的芯片的内存不能做到很大容量,无法执行那些需要庞大内存空间的代码,这也限制了这类芯片的普及率。但由于这些芯片的性能相比一般CPU有明显优势,且几大企业都在努力解决内存空间的问题,未来它们会是业界的主流选择。Intel希望自己的Xeon Phi在未来能一统天下;Nvidia与IBM合作,将推出Power CPU+Tesla 计算卡的异构解决方案;AMD则力推自家的HSA异构方案,希望Opteron CPU+FirePro计算卡的组合能占据一席之地。目前来看Intel的优势比较大,而Nvidia/IBM的联盟也能拿下一定的份额。

互联网络方面的技术不像计算芯片那样高度垄断。目前有不少企业都在提供超算网络解决方案,我国在这方面也具备世界一流水平。最先进的超算网络可以让数万计算节点以高达100Gbps的带宽通信,同时保证稳定性和低延时。

超算对国家的意义

一如前文所述,超算技术主要是服务工业和科学研究的。强大的计算能力对企业、学校和国防研究都有很大的帮助,甚至可以说是不可或缺的。当年美国宣布终止核试验,其底气就是超算模拟核试验技术已经足够成熟。由于投入巨大、回报周期较长,各国的超算项目主要由政府实施或资助。如今,超算技术和资源水平已经成为一国科研实力的重要指标之一。

中国的超算技术近年来发展迅速,曙光、天河前后多次登上全球超算性能排行榜冠军。如今美国宣布对华超算技术禁运,无疑是感到了中国在这一领域的威胁。

那么美国的禁运政策将对中国有什么影响呢?

据《华尔街日报》报导,美国政府刚刚下发了对中国超算技术的出口禁令。这则禁令无疑令中国的超算产业发展蒙上了一层阴影。

中国的超算技术发展在过去几年可谓顺风顺水。国家建立了四大超算技术中心,曙光、天河又屡次拿下业界Top500排行榜性能冠军,风头一时无两。其中,国内研发机构与Intel、Nvidia的合作为国产超算的发展贡献了很大力量,那么为何过去对这类合作并无限制的美国政府会突然宣布对华技术封锁呢?

以往超算的核心芯片大都可以在公开市场买得到,不可能被彻底禁运。多年以来美国也因为此一直没有对中国的超算技术发展加以干涉。但是随着业界形势的变化,一些新的状况出现了。

最关键的变化是异构计算的崛起。过去超算主要使用常见的Xeon CPU搭建,而现在的高性能HPC往往会搭载大量的专用计算芯片,如Xeon Phi、Tesla和FirePro。这些芯片产量较少,在市面销售不多,而且编程模式比较特殊。超算研究机构为了加快研制速度往往会与芯片企业合作,提前半年甚至更久拿到未上市的新一代计算芯片,并在后者帮助下进行系统编译优化工作。

5526ff8c4328a.jpg

国产天河2号超算就是与Intel合作,提前数月拿到了Xeon Phi计算卡并完成了部署。待Xeon Phi正式发售时天河2号已经跑完了测试项目,准备进入商业运行阶段。彼时负责天河2号项目的国防科大与Intel进行了深度沟通,获得了大量编程指导,很顺利地进行了系统代码部署。如果没有这层合作关系,不仅天河的工期会大大延后,由于异构计算的复杂性国防科大也很难独立完成超算的软件调试优化任务。

美国意识到了异构计算时代芯片企业与超算制造方合作的重要性。只要掐断美国企业和中国机构的合作关系,即便后者能够从公开市场买到芯片,也需要等到芯片正式发售后才能做到;缺乏芯片设计商的指导,中国的超算项目也很难充分利用芯片性能,进而在与美国同行的对抗中丧失优势。如此一来,美国便可重夺超算性能冠军宝座,而中国会遇到不小的麻烦。以天河为例,本来今年其计划升级到新一代Xeon Phi芯片,继续坐稳冠军位置,但突如其来的禁令必然会影响原定方案。今年天河很可能会让出性能之王的称号了。

美国企业对禁令当然很不满。Intel和国防科大的合作一直愉快,天河2号也给Xeon Phi打了不少广告。Intel还刚在IDF论坛上宣布在中国建设并行计算中心,目的就是推广Xeon Phi。现在大客户没了,Intel的损失也不小。

那么,中国的超算项目能改用国产芯片取代进口技术吗?

中国很早就开始研制自主知识产权的超算用芯片,先后诞生了计算所的龙芯、国防科大的飞腾和江南所的申威处理器。早在2008年,计算所曙光超算项目就计划使用8000-10000颗龙芯3B CPU搭建第一台国产千万亿次HPC。遗憾的是龙芯3B直到曙光超算部署两年后才小量生产,且首批产品问题多多性能低下基本没有实用性,最后只部署了3000颗作研究用。国防科大的天河超算用到了科大自主设计的飞腾CPU,但只用在互联网络,没有承担计算任务。江南所的申威部署在一台神威超算中,整体计算能力不是很突出。

55270066093b0.jpg

几种国产芯片的主要问题是它们的性能远逊于美国对手:单芯片浮点性能不过200G Flops以下,远不如新一代Xeon E5的700G Flops,更比不上Xeon Phi、Tesla等众核协处理器。而且这些国产CPU的内存性能都很不理想,大大限制了实际应用的表现。这就是为什么国产超算依旧青睐进口芯片,而对国产芯片不甚感冒的原因。

倘若用这些国产芯片取代进口的Xeon Phi、Tesla,需要部署十倍数量以上的计算节点才能获得相同的性能。但现有的网络技术无法支持数以十万计的节点高效互联,换句话说这条路是不可行的。

想要取代进口芯片,中国必须发展出顶尖的异构计算技术。但是制造类似Xeon Phi这样的芯片有很大难度:大量核心之间的互联不好做;高带宽的内存系统很难做;芯片之间的通信总线要求很高。过去几年来国内研究机构在这几项技术领域只是有一定探索,水平与Intel、Nvidia等差距较大。想要追上世界一流水平,制造出匹敌同时代Xeon Phi、Tesla的芯片,没有几年的时间和大量的资金、人力投入是不行的。江南所正在研制的众核处理器有望组建一套10亿亿次超算,但节点效率、能源效率等指标都不会很高。

进口芯片不再容易,国产技术短时间难以成熟,中国的超算产业将迎来数年的低潮期。连续几次夺冠的辉煌在未来几年是难以见到了,国人只能坐视美国重新坐上霸主地位。目前美国能源部分别选择Intel、Nvidia、IBM的方案订购了三台20-30亿亿次规模的超算,将在未来两年陆续交付。到2018年之前美国都会称霸超算性能排行榜。

但是美国的技术封锁将大大刺激中国政府的相关政策:即使是为了“争口气”,中国也会向几大芯片研究机构注入前所未有的资源来加快研究进度,力争早日摆脱对美国技术的依赖。国产芯片会因为美国的禁运迎来大好的发展机遇,前进速度也会成倍加快。在国家推动下,数年后中国自主芯片产业就会崛起为不可忽视的力量,不仅在超算领域,而是在服务器、PC、移动设备产业与美国企业展开全面对抗。从这一角度来看,美国的禁运对中国长远来看是好事一桩。没有压力就没有动力,这次中国不想上也得上了。

发表评论


最新评论

我也要发表评论

来自 - 云南昆明 的 Mozilla/Mac 用户 2015-4-15 17:21
不是走谁说了龙芯很屌吗,怎么这下阳痿了
4 回复
来自 - 江苏南京 的 Chrome/Windows 用户 2015-4-15 12:35
这篇文章结尾有点太乐观了。。如果只是为了“争口气”而通过行政方式和ZF强力推动的方式发展电子硬件行业,那最多是缩小差距。也许在军用领域可以挺有效,但在民用领域这种ZF国有企业面对市场竞争的创新和活力真是不敢恭维。不浪费ZF投资就不错了。。同时ZF的大量不计代价的投资注定会产生不少利用政策保护而坐吃非市场竞争,借ZF保护获益的阿斗型企业。。
15 回复
来自 - 江苏南京 的 Safari/Linux 用户 2015-4-15 08:47
这篇文章写的还是很客观的啊!
1 回复
剑气冲云 2015-4-15 06:33
硬件不行 软件也不行 咋办?
7 回复
来自 - 澳大利亚 的 Chrome/Linux 用户 2015-4-15 04:52
最大的威胁是,在你超算赶上之前,你自己已经不存在了。别以为美国不这么想。
回复
maowu122 2015-4-14 13:37
没有压力就没有动力,希望是个机遇吧
22 回复
来自 - 湖北 的 Safari/Linux 用户 2015-4-14 10:46
是机遇,也是挑战。
10 回复

热点评论

maowu122 2015-4-14 13:37
没有压力就没有动力,希望是个机遇吧
22
来自 - 江苏南京 的 Chrome/Windows 用户 2015-4-15 12:35
这篇文章结尾有点太乐观了。。如果只是为了“争口气”而通过行政方式和ZF强力推动的方式发展电子硬件行业,那最多是缩小差距。也许在军用领域可以挺有效,但在民用领域这种ZF国有企业面对市场竞争的创新和活力真是不敢恭维。不浪费ZF投资就不错了。。同时ZF的大量不计代价的投资注定会产生不少利用政策保护而坐吃非市场竞争,借ZF保护获益的阿斗型企业。。
15
来自 - 湖北 的 Safari/Linux 用户 2015-4-14 10:46
是机遇,也是挑战。
10
剑气冲云 2015-4-15 06:33
硬件不行 软件也不行 咋办?
7
来自 - 云南昆明 的 Mozilla/Mac 用户 2015-4-15 17:21
不是走谁说了龙芯很屌吗,怎么这下阳痿了
4
返回顶部

分享到微信朋友圈

打开微信,点击底部的“发现”,
使用“扫一扫”将网页分享至朋友圈。