李宗隆:千帆兢渡 百舸争流: 大陆超级计算机的快速发展

选择字号:   本文共阅读 897 次 更新时间:2018-12-05 00:32:59

进入专题: 超级计算机  

李宗隆  

  

   摘要:一国超级计算机的水平不仅代表计算机科学与工程技术的前沿,也是其整体工业发展的重要指标。在大陆连续称霸全球五年后,美国最近夺回「超算」世界第一的头衔,我们应如何看待此事?本文深入浅出地介绍「超算」和「超算500强」的相关基本知识,有助读者了解国际超算风起云涌的发展现况,并能看懂「天河二号」和「神威·太湖之光」超算的技术优越处,从而理解我国超算团队的智慧和毅力。最后谈及下一代「E级计算机」的现况,和对台湾同胞的期盼。

  

引言

  

   超级计算机(Supercomputer,简称「超算」)是指运算速度比一般计算机快千、万或更多倍的计算机。国际超级计算大会(ISC,International Supercomputing Conference)自1993年开始,每半年公布一次世界上最快计算机的前500名,称为「超算500强(TOP500)」。2018年6月最新的超算500强榜单显示,中国过去五年占有的全球第一,被美国最新超算取代了。想了解国际超算的发展现况,得先对「超算」和「超算500强」有些基本认识才有可能。

  

「超算」及其核心技术


   假如我要到位于东、西、南、北方,且各离我5,000米的四家店去买特定物品,我单独一人当然可在某段时间内把任务完成。但如果我有三个助理,我们四人可以同时出发,各跑一家店各买一物,他们再把买到的东西交我。采这方式完成任务的时间,约是前一方法的四分之一。我们四人并没加快脚程,但四人合作让完成任务的速度变快。这种加速完成任务的方法称为「并行处理」或「平行处理」。

   并行处理能加速的任务必须满足一个条件:其子任务相互没有依存度,即彼此是独立的。「一人到某家店买东西」和「另个人到另家店买另样东西」两个子任务是独立的,因此可以「并行」。要注意的是:不是所有任务都可「并行」。例如,任务的内容改为:「一人去买西瓜或凤梨」和「前者如买到西瓜,第二人去买西瓜刀;前者如买到凤梨,第二人去买凤梨刀」。这两个子任务相互依存,第二人得等前一人回来后才知道要买啥。这两个子任务彼此不独立,因此不能「并行」。

   任务并行化的过程得经过三个阶段。一、管理者把任务分割为子任务,并派工给参与任务人员。二、参与任务人员(管理者和助理)各自执行完成子任务。三、助理将子任务成果交给管理者,管理者整合最后的任务成果,发布最终结果。如果未把任务并行化,第一、三阶段是不必要的。第一、三阶段是把任务并行化所增生的附加管理工作,而且任务管理本身常常不能并行化。因此,这不可避免的任务管理工作是拖慢整体任务的因素之一。

   再以前面提到「一人去买西瓜或凤梨」和「另个人去买相应用途水果刀」的两任务为例,如果两人在执行子任务时能彼此通讯,买果人一旦买定某种水果立刻通知买刀人,这两个子任务就不是完全不能并行化了。两人可同时出发前往各自的目的地,如果买刀人先到刀店,就在刀店等买果人的电话。二人买好东西,各自返回时又可达一定程度的并行化。因此,只要允许子任务之间可以通讯,能并行化的工作就增加了许多。

   当然,这类型工作的并行化不如「彼此独立」的工作有效率。效率折损的程度由三因素决定。一、等待时间。如果买刀人的脚程比买果人快,他的优势会因等待而变得不显著。二、通讯速度。两人如用手机通讯会比信鸽通讯快很多,买刀人会更快知道要买哪种刀,也可更早启程返回。三、通讯量。如果买果人跟买刀人报告的内容,除了水果种类之外,必须报告水果大小、硬度等资讯,买刀人才知如何买刀,通讯时间越拉长,越不利于并行化的时程。可见等待时间越短、通讯速度越快、通讯量越少,对并行化任务的执行越有利。

   如果用计算机术语把上面例子再整理一遍,读者就可了解为何「超算」能算得那么快的原因,以及「超算」要达快速计算所要克服的核心技术。

   首先,「超算」所以能快速计算的原因,并不是采用了一个效能强于目前技术可及器件千万倍或以上的处理器(这种处理器当然不存在),而是把计算工作能并行处理的部分并行化,再把子工作派给「许多」处理器的计算核心电路协同计算,达到加速计算的目的。这里的「许多」可能是成千上万,在一些特大型的计算可能是上亿。每个处理器的效能和当时主流处理器的效能其实差不多,但如能让大数量的处理器有效率地协同工作,便能大幅提升总体计算效能。计算机科学家有时也称这类的计算速度提升为「并行计算」或「平行计算」。

   其次,一个完整的计算一般可分成数个子计算。如前面例子所提,不是所有任务都可以高效地并行(即便允许子任务间相互通讯)。在不能并行的程序片段,所有其他参与计算的处理器只能处在等待状态,对计算的加速完全使不上劲。即便在可并行的片段,并行化不能避免的任务划分派遣、最后子任务计算结果的集结整合等等的管理工作,也对计算的加速不利。由于这些因素,一部「超算」的实际计算效能永远低于理论效能。

   再者,并行计算时,子任务之间的通讯速度和通讯量是影响超算效能的关键因素之一。通讯量主要由计算程序所用的数学方法(演算法)决定,数学家和软体工程师一般已把这个环节最佳化了,计算演算法选定后再以减低通讯量来改进效能的机会就不大了。进一步的效能改进只能依赖增快子任务之间的通讯速度,所以任务之间的通讯速度是超算系统计算速度最关键的因素之一。通讯速度由超算系统所采用的通讯网络速度决定,因此几乎每一部占上全球最快位置的超算,其通讯网络速度在当时常有一定程度的突破。

   最后,超算系统任务划分和资料通讯的负荷,会随处理器数目的增加而增加,因而抵消增加处理器数目所获得的计算效能。因此,一部超算能有的处理器数目是有其上限的。这个事实可用阿姆达尔定律(Amdahl's law)描述。如图1,超算的理论加速比(Speed up)对其处理器数目(Number of processors)作图。理论加速比也和程序的可并行化之比率(Parallel portion)有关。以图中代表可并行化比率90%的程序的曲线为例,当处理器数目增加到128时,理论加速比已开始趋缓;当处理器数目超过512时,理论加速比已几乎没变化。所以,一部超算的优越效能绝对不是靠处理器的堆集就可以达到。相反地,一部超算所能容纳的处理器数目是由其「超算系统架构」决定的。超算系统架构是指硬体部件(如处理器、内存、通讯网路等)和软件之高效配置,是超算的核心技术。

  

图1:超算的理论加速比(Speedup)对其处理器数目(Numberof processors)作图,称为「阿姆达尔定律(Amdahl'slaw)」。


   超算是一个技术含量极高的计算体系。为确保各处理器高效地协同运行,高效的处理器、快速的网络、先进的系统架构等都是关键核心技术。任何一部可以占上世界第一的超算,都隐含在全部或部分关键核心技术有一定的突破,进而把人类技术能力的前沿向前推进了一步。

  

超算500强(TOP500)

  

   国际超级计算大会最新发布的「超算500强」的前10名如图2所示。图中表列的两个速度Rmax和Rpeak分别为超算的实测和理论运算速度(如前所述,Rmax永远比Rpeak小)。衡量Rmax和Rpeak的单位为每秒浮点运算次数(Flop/s),其中Flop为浮点运算(Floating-point operation)的缩写。(浮点运算即浮点数的运算;浮点数是计算机用以表示一个数的方法,类似以科学记号表示的十进位数。)图二所用的单位为TFlop/s,即每秒万亿次浮点运算。「超算500强」是以超算的实测运算速度(Rmax)排名的。

图2:2018年6月全球「500强」超算榜单中的前10名。


   最新榜单中,前四名依序为:美国的「顶点(Summit)」、大陆的「神威·太湖之光(Sunway TaihuLight)」、美国的「山脊(Sierra)」、大陆的「天河二号(Tianhe-2A)」;它们的Rmax分别为每秒12.23、9.30、7.16、6.14亿亿次浮点运算(10PFlop/s),任何相邻两名的差距不大。第五名是日本的「人工智慧桥接云基础设施(AI Bridging Cloud Infrastructure, ABCI)」,其Rmax为每秒1.99亿亿次,和第四名的差别就扩大了。第六到第十名分别是瑞士「代思特峰(Piz Daint)」、美国「泰坦(Titan)」、美国「红杉(Sequoia)」、美国「三一(Trinity)」、美国「科里(Cori)」。第十名「科里」的Rmax还有每秒1.40亿亿次,和第五名「ABCI」差不多。所以,前四名超算是一个「梯队」,第五名和之后的若干部超算是下一「梯队」。

   能挤进前100名的国家还有:韩国第11;义大利第13;法国第14;英国第20;西班牙第22;德国第23;沙乌地阿拉伯第29;印度第39;加拿大第53;俄罗斯第72;瑞典第92。很明显,拥有前100名超算的国家和「工业发达国家」高度重合,这说明超算在国家工业发展中的重要性。

   比较前四名超算的架构,美国「顶点」和「山脊」的架构极相似。大陆的「神威?太湖之光」和「天河二号」则挺不一样的,其间有许多值得国人骄傲的故事。

  

大陆超级计算机简介


大陆「天河一号(Tianhe-1A)」于2010年11月成为「超算500强」的第一名,是大陆首部取得世界第一的超算。这个成果当然是奠基于过去许多超算系统的科研成果,比如「银河」、「曙光」、「神威」等系列超算。「天河一号」之后,(点击此处阅读下一页)

    进入专题: 超级计算机  

本文责编:limei
发信站:爱思想(http://www.aisixiang.com),栏目:天益综合 > 学界动态
本文链接:http://www.aisixiang.com/data/113793.html
文章来源:《远望》(2018年09月号;总360期)

2 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网