空手一方客

收获了一种恬静的生活, 像一条波澜不惊的小河, 流过春夏 流过秋冬
个人资料
  • 博客访问:
正文

再从“天河二号”五连冠说起

(2015-07-15 00:22:11) 下一个
每半年,业界都会回顾一下超算的发展现状。 过去两年半,建立高性能超算机的趋势,不是看谁用的CPU/GPU多,而是看谁的连接性能/能耗比优。因此,312万个核心的天河就没人去比。而实际使用层次是什么,就不用多说。
 
说“高性能的超级计算机HPC是一个国家综合科技实力的体现”,实在有点过。因为目前的HPC都是超联分布集群,就是用高性能刀片互联在一起。完全体现了年代的特征:有钱就任性,和国家综合"科技"实力可以说毫无关系。

最新的沙特的Shaheen II,其性能/能耗比目前应该是最好的 --- 沙特有什么“综合科技"实力可体现?很快这些都会被IBM的新型号比下 ---正在进行式 --那才是等级的飞跃。

Titan的性能/能耗比也较优:NVIDIA的Tesla K20/AMD-Opteron-76xx。Tesla K20加速卡比Intel-Phi 31好,甚至好过Intel-51。AMD-16核的能耗也好于Intel 2692-V1。 但这个结构目前没有进一步更新的可能:因为过去两年AMD没有新的CPU出现,只有nVidia有Tesla K40/K80提速。

天河使用的是Intel-Xeon/Intel-GPU结构,因为Intel被要求“大批量”禁运给天河,天河2的升级被截断了。

天河2的Intel-Xeon是E5-2692-V1, 现在有更优的E5-2697-V3,E5-2698-V3,但天河拿不到;
天河2的Intel-GPU是31, 现在51都被Intel当白菜,更优的71大批在市,但天河拿不到;

天河2不能升级到天河3,天河4,显然就是核心产品问题。不管你认为是什么,但你一定承认:不是钱的问题。--- 常言说,钱能解决的问题就不是问题。--- 虽说这核心产品是钱完全能解决的问题,但偏偏目前就是问题。

就目前的状况,那天河的出路在哪里?

目前只能是:减少节点数。不必追求最高浮点,而是要追求性能/能耗比。这样就可以用:
AMD-Opteron(用最高级型号)/NVidia-K40/K80结构  或者 Intel-Xeon(次一级型号)/NVidia-K40/K80结构

过去我们说韬光养晦,忍辱负重;现在可以绕道迂回,曲线救已。

同比,清华花大钱指望买下Micron,其含意就重大了。


这个图是一个基本的超算1U,两路Xeon V3 结构;使用DDR4-ER,可达1TB; 可以装三个GPU: Intel Phi-31/51/71; Tesla-K10/K20/K40/K80。带有两个10GB-LAN口,可以加装两个40GB-IB超导口。你只要
加上10G-Switch 或 40GB的InfiniBand-Switch, 就可以连接非常实用、非常高效的超算集群了。
 
超算1U的配置价位:基本配置的话1万美元,顶级满载配置要6万多美元。所以建超算,就是垒钱。谁的钱多就累得高,和技术的关系不大。我见过的最高垒是512个节点,和人家天河比,就个婴儿科。这里所谓的顶级,就是按沙特Shaheen II的目前配置。
 
天河的配置,非常浪费。其性能/能耗比,放在目前,只能打分65分 ---及格而已。钱多,烧的。其正面意义:提升士气;帮助GDP。



--------- 附录:  超级计算机天河二号五连冠超级计算机500强超级计算机排名2015

第45届全球超级计算机500强排行榜今天正式公布,中国“天河二号”连续第五届拔得头筹,进一步刷新了自己创造的历史记录。

天河二号已经进入稳定应用期,正为我国各行各业的计算提供超高加速能力,系统本身已经不再有什么变化,性能方面还是最大33.83PFlops(千万亿次 浮点计算)。它使用了Intel至强E5-2692 12核处理器及Xeon Phi 31S1P加速卡,总计拥有312万个核心,整机功率也达到了17808千瓦。

就整体而言,天河二号继续夺冠并不见得就是好事儿,因为由于经济、技术等各方面的原因,如今的顶级超算已经进入了停滞期,这一次前六名都没有任何变化,而半年前的第44届更是前九名都岿然不动。

      全球超算排行榜每半年发布一次,两年来,天河二号超级计算机实现“五连冠”。不过这次的500强排行榜上,中国的超级计算机入围数量从上一次的61台下降到了37台,而收购IBM服务器业务的联想公司成为黑马,已经成为第三大超算供应商,总计有23套超算入围500强。

美国入围500强的超级计算机从上次的231台微增到233台,欧洲地区从130台增加到了141台,亚洲地区的超算数量从120降低到了108台,日本从则上次的32台增加到了39台。

如果说天河二号是五次冠军,那么“泰坦”计算机就是5年老二了,它使用的是NVIDIA的Tesla K20加速卡及AMD 16核处理器,浮点性能17.59PFLOPS。

本次前10强中只有一套新系统,那就是位列第七的“Shaheen II”(沙欣II),位于沙特阿拉伯的阿卜杜拉国王科技大学,基于Cray 公司XC40超算系统,采用了12288颗Intel Haswell Xeon E5-2698 v3 2.3GHz 16核心处理器,最大性能5.53699PFlops,相当于天河二号的六分之一。这也是超算500强名单22年来首次有中东地区的计算机进入前十名。

他们的上一代超算Shaheen基于经典的IBM蓝色基因/P,65536个核心,最大性能才190.9TFlops,第二代一下子提升了29倍。

前十名中,美国有五套,中国、日本、瑞士、沙特阿拉伯、德国各一套。使用Intel Xeon Phi加速方案的两套(1/7),使用NVIDIA GPU加速方案的两套(2/6)。

详细名单将在德国法兰克福国际超级计算机会议上公布。

第45届全球超级计算机500强排行榜前10名

国家数量、性能份额

国家排序:中国目前数量第四,但性能可以排第二

 

中国超算历史趋势

本届排行榜其他亮点:

1、500强总性能361PFlops,比半年前提升16.8%,比一年前提升31.8%,比以往明显放缓。

2、性能超过1PFlops的系统有68套,比半年前增加了18套。

3、使用加速方案的有88套,比半年前增加13套。其中,52套使用NVIDIA,33套使用Intel,4套使用AMD,4套混合了Intel、NVIDIA。

4、97%的系统处理器核心数量达到或超过6个,87.8%的达到或超过8个。

5、惠普拥有最多的178套,比半年前少了1套;IBM 111套次之,比半年前多了42套。另外,Cray仍然是71套。

6、中国入围37套,而半年前有61套,一年前更是创纪录的76套,不过整体性能变化不大,说明淘汰的都是一些小型超算。或许也是因为,中国的超算建设更加理智了,不再盲目上马新项目。

延伸阅读:

“中国十亿亿次”超级计算机曙光7000开始研发

曙光公司总裁历军近日在接受记者采访时表示,继千万亿次超级计算机曙光“星云”之后,“十亿亿次”超级计算机曙光7000已开始研发。

历军介绍说,曙光7000是曙光公司为适应未来市场需求设计的新一代超级计算机系统,从处理器、高速通信网络、大规模存储系统、系统软件到应用软件全面采用自主技术,安全可控。

“曙光7000不是通用机,它是为某种应用而量身定制的大型机,要想‘吃透’应用,难度很大,周期会很长。”历军说。

历军同时表示,作为国内高性能计算机领军企业,近年来,曙光公司一直注重高性能计算的应用,并正在逐步向云计算服务提供商迈进。转型后,曙光将成为“信息+数据管理”服务供应商,并通过合作伙伴形成应用生态系统,构建覆盖全国的信息化、大数据管理服务网络。

“截至目前,曙光已经在无锡、深圳、重庆等全国10个城市建设了云计算中心试点。从试点的效果来看,确实给城市的管理能力带来了大幅度提升,发挥了重要作用。”历军说。

以中国科学院计算所等机构为技术依托的曙光公司,成立于1996年,实现了国产高性能计算机的产业化生产,构建起集研发、设计、制造于一体的服务器产业链。2008年,该公司推出了我国首款百万亿次超级计算机。

[ 打印 ]
阅读 ()评论 (0)
评论
目前还没有任何评论
登录后才可评论.