空手一方客

收获了一种恬静的生活, 像一条波澜不惊的小河, 流过春夏 流过秋冬
个人资料
  • 博客访问:
正文

对Intel Xeon --〉美国商业部 --〉 中国超级计算的初步看法

(2015-04-21 00:36:27) 下一个
这只是个人思考的几个问题,不构成文章, 只是记录下来,供自己参考。因为没有实地看过天河的系统大结构,只是凭感觉,所以可能有错。

1。天河二号, TH-IVB-FEP型

目前广州中心的TH2配置是:共170个机柜,每个机柜4个框,每个框装16块主板。每个主板有两个计算节点。
由于一些框位用于交换机/备用电源/线组,还有4096个前端节点,所以,留下的空间给16,000个计算节点。

每个计算节点:用双路主板,装两颗Xeon E5 12core CPU,外加三个Xeon Phi 57核的GPU运算加速卡(俗称协处理器)。

16,000个计算节点用了32,000颗Xeon E5 CPU和48,000个Xeon Phi协处理器,达到312万个计算核。
每个CPU配置16GB RAM,每个节点32G, 再加上每个Phi还有8GB。

每组计算节点(目前TH2应该是4个一组)还有一个前端处理器,用于任务排程管理。现在共有了4096颗国防科大研发的FT1500,1.8ghz, 16核SPARC V9架构,40nm制程,功耗65瓦,峰值144GFLOPS。

2。从时间看,机器是2013年底交付广州中心的,所以,Xeon E5 12core CPU应该是Intel Ivy-Bridge的 E5-2692 V2 ,算很新的了,一般足够用。

目前,北美的用的是更新的Haswell E5-26xx V3,性能/低能耗都比v2好。而Intel马上要发布交付的是 Broadwell E5-2xxx V4,参数不详。

广州中心申请升级的应该是什么,不清楚。美国商业部4月11日拒绝Intel对广州中心的升级申请,说的是什么,也不清楚。一定含有Broadwelld的, 但含不含Haswell 呢?

3。这个升级必要吗?

首先从价格看,从V2 到V3,Intel改了Socket, 就是说要升级的话,其实就是所有的主板要全换,成本之高,可以想见;
从V2 到V3,Intel是从DDR3改到了DDR4。虽说TH2的主板内接留有DDR3/DDR4口,但板面应当没有空间去实现,所以RAM也得换;
这就是说, 除了交换机/线路/备用电源/制冷以外,要全换,这种升级和新作一台,就差一个机框的价格。合算吗?

再从功能看, 所谓比IBM的快,快在哪? 其实就是新了至少一代的CPU/GPU和内联交换口。
IBM出的早,用的类似Intel的V1 CPU,接口20GB/40G,还有GPU 是三年前的 Phi3,或 Kepler系列;
TH2出的晚,用的Intel较新的V2 CPU,接口20GB/40G,还有GPU 是一年前的 Phi5,(或 可以用Tesla系列);

从功效比看, HT2 的CPU/GPU都应该比IBM的更省电,但爆出来的数据不理想,这一点我还没想到问题出在哪里。目前TH2的峰值为55PFLOPS(peta flops的缩写,每秒10的15次方次, 即每秒5.49亿亿次)。
 
即使前台的4096颗FT1500,性能也不错,目前真没必要升级。

可见,从实际出发,目前升级无必要。除了争第一的价值,看不到其他意义。

4。天津飞腾的FT-1500A,和国科大的FT-1500的关系

总经理谷虹说FT-1500是64位通用CPU,兼容ARM V8指令集,28nm制程,包括4核和16核两款,目标在实现对Intel中高端“至强”服务器芯片的替代。

其中4核处理器 面向桌面终端和轻量级服务器,主频2GHz,功耗15W,两个DDR3-1600存储通道,支持电源关断、DVFS等低功耗技术,适用于构建台式终端、一体机、便携笔记本、微服务器等产品;
而16核处理器芯片面向服务器领域,主频2GHz,功耗35W,4个DDR3-1600存储通道,支持虚拟化功能,适用于构建网络前端接入服务器、事务处理服务器、邮件服务器、数据库服务器、存储服务器等产品。

5。苏州盛科网络的“智桥”SDN智能高密度万兆交换芯片CTC8096

总经理“千人计划”专家孙剑勇介绍,是其自主研发的第四代交换芯片,目标是快速响应云计算、大数据、网络功能虚拟化的市场趋势,芯片具有性能优、功能强、功耗低和高可靠、高性价比等特点。该芯片由9.4亿人晶体管构成,具有1.2T的交换容量;配图了96个10G端口,24个40G端口,4个100G端口,支持L2/L3/MPLS/OpenFlow和数据中心功能等特性集合。

这些交换接口的指标不错,未来几年应该都够用。

6。目前,软系统、应用开发,应该比升级更重要。中国超级计算应当下的大功夫,除了计算芯片外,应该就是系统设计和应用开发,都是耗费时日的工作。有时候还出力不讨好。按论文行赏/职称的概念需要改变,否则没有献身的。精神和经济都重要。

目前的TH2只要用好了, 可以再“领先”两年,因为没人喜欢去用几万个CPU/GPU作个大物件放那当摆设。

7。国科大的任务是国防科技,中国应当把民用的发展放在曙光/浪潮,就名正言顺了。当然,地方上的相互不买帐,要先处理好。

8。还有一个描述: 各运算阵列中,每块主板上分为APU和CPM两块,APU部分支撑5个Xeon Phi,CPM支撑1个Xeon Phi 和4颗Xeon E5。 APU和CPM之间以CPU內部提供的PCI-E 3.0 16x介面连接,但实际由于Xeon Phi的限制,仅支援PCI-E 2.0 16x,所以每个通道的数据传输为10Gbps。
 
这说明TH2可以单独升级GPU到目前北美的3.0级接口。每个约$3000以上,可以对付48,000个。

9。从目前Intel Xeon的性能看,TH2从55到100PFLOPS的升级,应该是可以做到的。只要美国政府容许Intel 放行。
Broadwell(还没有发布具体指标),
Haswell E5-2699-V3, 18core, 2.3ghz,45MB,22nm 
对比现在用的E5-2692-V2, 12core, 2.2ghz,30MB,22nm 

10。美国政府不放行,而Intel希望交货,Intel的股东也希望交货, 那是几个亿的买卖。但国家和公司两者矛盾。
 
美国对中国的部分禁运,应当说意义不大。表面的政治作用,大于实际的技术作用。

11. 中国的芯片现状: 根据IC Insights的数据,2013年海思位居世界无晶圆厂IC设计企业第十二位,2014年海思发布的麒麟920芯片性能据测试软件安兔兔的数据超过了联发科和高通的同档次芯片,基带支持LTE CAT6技术是世界第一个支持该技术的基带。在64位处理器成为热点后,海思只是比高通和联发科迟了2~3个月就在12月推出64位的处理器。在采用生产工艺上,海思比高通、联发科更激进,已经采用台积电16nm FINFET工艺生产网通芯片。从技术上看海思无疑是中国的领头羊,只是目前海思的手机芯片还只是供给兄弟企业华为手机。

紫光在并购展讯和RDA后获得了INTEL的投资入股,并获得X86架构的授权。2013年据IC Insights的数据展讯在世界无晶圆厂IC设计企业排名第十四位,而2012年是第18位上升迅猛;另外据Strategy Analytics的数据在2014年第一季度展讯在全球基带芯片市场超过INTEL据世界第三;目前展讯的TD-LTE芯片已经被联想和酷派等采用。RDA在2012年开始推出GSM基带芯片并在当年8月起每月出货量达到1000万片以上,在当时已经形成了对展讯的威胁,这也是紫光将他并购以免它威胁展讯的原因。在整合RDA和展讯后紫光将强化在手机芯片市场的优势。

瑞芯微在平板芯片市场崛起,2014年一季度居中国平板芯片市场份额第一,借助与INTEL的合作获得了通信基带,将能稳固在平板市场的份额,并有机会进军手机市场。INTEL在出售了采用ARM架构的XSCALE业务后,一再努力进军移动市场,但是始终难有起色,于是与瑞芯微合作并将X86架构授权给瑞芯微,希望借助瑞芯微的成本和功耗控制能力帮助INTEL解决挠头的成本和功耗问题,而从首款芯片XMM6321来看看瑞芯微的表现也没有让INTEL失望。2015年瑞芯微将推出整合LTE基带的Sofia芯片,进入目前火热的LTE市场,INTEL的领先工艺、X86架构强大的性能与瑞芯微的成本和功耗控制能力结合或为双方带来希望。

 
 
几万颗芯片对INTC塞牙缝都不够。而其他商用CPU卖中国估计超过1一亿颗都不止!龙芯原来夸海口卖给学校1百万台做低档机后来白... - 寒流 - 给 寒流 发送悄悄话寒流 的博客首页寒流 的个人群组 (359 bytes) (85 reads) 04/21/2015 01:42:50

卖给中国的商用CPU估计超过一亿颗都不止。不错,这才是主流应用。不能本末倒置。 - 杨子 - 给 杨子 发送悄悄话杨子 的博客首页杨子 的个人群组 (0 bytes) (1 reads) 04/21/2015 08:04:04

目前中国对超算依赖不大 - 笨狼 - 给 笨狼 发送悄悄话笨狼 的博客首页笨狼 的个人群组 (120 bytes) (14 reads) 04/21/2015 06:59:45

建的那么多超算中心,使用率不高。不过是练手的好场地,会促进国家高档设备的研发与跟进。 - 杨子 - 给 杨子 发送悄悄话杨子 的博客首页杨子 的个人群组 (0 bytes) (0 reads) 04/21/2015 08:02:05

一个很实在的例子:   4月20日,中国发射首枚使用“龙芯”北斗卫星计算机开机
3月31日,中国北斗卫星导航系统多了一位新成员。作为第17颗北斗卫星,这位新成员接过了“自主可控”的接力棒。据该卫星总设计师、来自上海微小卫星工程中心的林宝军介绍,这颗由中科院负责研制的新一代导航卫星大量使用国产化器部件,并首次使用中国制造的“龙芯”中央处理器(CPU)。

4月20日上午,新一代北斗卫星上装着“中国芯”的计算机正式开机,意味着我国卫星导航系统在自主可控的征程上迈出关键一步。 性能好过“买来的” 据媒体报道,在最近发射的新一代北斗卫星上,部件的国产化率达到95%,而作为最核心的元器件,CPU的自主化也受到较高关注。

“此次搭载的处理器是‘龙芯’的两款芯片——龙芯1E和龙芯1F抗辐照处理器。”中科院国家空间科学中心研究员、中科院复杂航天系统电子信息技术重点实验室副主任安军社在接受《中国科学报》记者采访时说。 安军社表示,新一代北斗卫星上有3个被称为“单机”的黑盒子,每个约有4本400页的32开图书摞起来那么大。

其中两个黑盒子里,每个装了2片龙芯1E芯片和4片龙芯1F芯片。 “这两个黑盒子的主要任务是用于完成星间链路的数据处理,即支持北斗各颗卫星之间的通讯数据处理任务。龙芯1E负责进行常规运算,龙芯1F完成数据采集、开关控制、通讯等处理功能。”安军社说。 “目前,与我们在国际上能买来的芯片相比,龙芯1E和龙芯1F的性能还是要更好一些,处理能力和可靠性也与国际上能买到的持平。”


美国的禁运包括技术, 所有生产该类芯片所用的技术应该都在禁运之列。禁运主要是最前沿的半导体光刻相关设备,那个是美国控制的。X86芯片过去没在禁运范围。“IBM,SUN,SGI,MIPS等很多高端CPU都在禁运的名单上,但这几家芯片现在都基本不在市场上了”。这更说明,美国部分禁运,也是对美国本土公司的不负责任。害人也害己的事,美国天天作。


这个图不应该出现在媒体,因为参与会议的人是签过保密协议的,既然出来了,就借用一下。
我们可以看到,中国天河的差距巨大,核心全是基于Intel/nVidia等级技术的。


Intel的Aurora超级计算机

我们再来详细看下Intel的Aurora超级计算机的架构组成,要想实现高达18-45亿亿次的性能(对比的Mira是目前的HPC),Aurora得 使用新一代硬件,其中Intel已经证实Xeon处理器在其中只起到管理作用,计算主力是新一代的Xeon Phi处理器,代号为Knights Hill,详情不多,但今年的Knights Landing已经使用了14nm工艺,这个Knights Hill加速卡不出意外将使用2018年的10nm工艺,单卡性能估计在4-4.5TFLOPS之间,目前Knights Landing加速卡的性能约为3TFLOPS。


Aurora超级计算机将使用新一代Xeon Phi加速卡 ---这个资料也应该被保密在一范围内的。

整套HPC将有超过5万个节点,基于Cray公司的Shasta新一代HPC平台设计,板载内存容量超过7000TB,内存带宽高于30PB/s,每个节点的带宽超过2.5PB/s,带宽超过500TB/s。存储系统则会使用Intel第一、第二代Omni-Path架构,容量不低于150PB,文件吞吐 量1TB/s。

整套系统功耗为13兆瓦,比目前的Mira计算机的4.8兆瓦高了1.7倍,但其性能是后者的18倍还多,因此整体的每瓦性能比实际上从2GFLOPS/W提升到了13GFLOPS了,能效比提升了5倍多。

 

[ 打印 ]
阅读 ()评论 (1)
评论
笨狼 回复 悄悄话 杨兄,

对此也关心。论坛上大家吆喝的多,有热情,但思考的人不多。高人不少,但具体谈的不多。

我其实是外行,搜了一番,对此的结论是美国禁运是大有道理的,用张云泉的话,就是掐了中国的软肋。

我说中国目前对此依赖不高,基于不但自发芯片落后,而且软件更落后,基本上没法将超型计算中心的任何技术有效地应用在开发上。所现在虚的多。

另一方面,中国企业在硬碰硬的竞争上,还是不行,大家嚷的凶,做的少,政府导引、强迫目前还是主导,故此悲观。

不过,中国要发奋,在这方面也不晚,问题是是不是真的发奋。

搜集了一大堆报道,读了结论较清楚。接链:

http://blog.wenxuecity.com/myblog/66653/201504/19582.html

你要是有感想,分享分享。
登录后才可评论.