空手一方客

收获了一种恬静的生活, 像一条波澜不惊的小河, 流过春夏 流过秋冬
个人资料
杨子 (热门博主)
  • 博客访问:
正文

大数据云时代(8):支付宝大面积瘫痪给时代的启示

(2015-05-27 21:21:07) 下一个

5月27日下午5点半左右,支付宝出现网络故障,账号无法登录、支付。故障是由于杭州市萧山区某地的光纤被挖断,经紧急将用户切换至其他数据机房,故障便逐步恢复。到晚上7点20分,支付宝宣布用户服务已经恢复正常,全程历时2个多小时。

支付宝CTO程立说,支付宝在系统上采用了“异地双活”架构,即杭州和外地两处机房同时为用户提供服务,系统会自动将全国所有用户的需求分流到两处机房。而在光纤被挖断的意外发生后,支付宝立即将用户发往杭州机房的需求引流至异地的机房,所以在受损光纤并未接通的情况下,支付宝服务已经可以恢复正常。支付宝同时强调:用户的资金安全不会受到任何影响,大家不用担心钱丢了,余额显示为零只是暂时的问题,而如果有头像、交易信息不同步等情况,也会恢复同步。

虽然异地双活架构在这次意外中发挥了巨大作用,但处理结果仍然不能让支付宝内部满意,因为支付宝的“理想目标是要做到让用户无感知”。为此,支付宝将继续升级系统和服务,将来再出现类似故障的时候,希望做到让用户基本没有感觉。

支付宝是全球最大的第三方支付机构,2013年实名用户已超过3亿人。阿里招股书透露,2014财年(截至3月31日),支付宝的总支付金额达到38720亿元,日均支付量已超过百亿,占到中国的第三方支付市场份额70%以上。

2011年6月14号,马云对话胡舒立时说:“若支付宝瘫痪,我会被丢进监狱”。---其实,要是三亿人的资料泄露了,马云真的会进监狱。

从支付宝出现大面积网络瘫痪,告诉我们一个残酷的现实:强大的阿里云,也抵不过一条光缆。这次支付宝瘫痪,只是通讯问题,数据一般不会丢失;但有不同步的存取延迟,有造成超支的危险。若果下次是支付宝的存储库出现问题,那数据可能就会丢失;异地双活就是避免这类灾难发生的基本建设。

这就告诉我们:在大数据云时代,可靠性、安全性,是首要的问题。每个财经机构,都必须建立异地双活的同构中心,这是保证可靠性、安全性的基本举措。决策人不能掉以轻心,不能有侥幸心理,立于防患于未然,是为客人负责,也是为自己负责。

可见,未来的信息战,对手只要切断你的通讯“渠道”或“数据”所在中心,你的经济/军事会立即瘫痪。这次的事故为我们的设计思维敲响了一记警钟。

-----------
支付宝声明全文:

  因杭州市政道路建设导致网络光缆被挖断,从而使部分用户今日下午短时间出现了无法正常使用支付宝的情况,对此我们深表歉意。也非常感谢大家对我们的理解!给大家添麻烦了,大家可能关心的问题,我们在此回复如下:

  Q:5月27日傍晚,支付宝为什么出现故障?

  A:5月27日傍晚,因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户无法使用支付宝。事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。到晚上19时左右,支付宝服务恢复正常。

  Q:这次故障影响了多少用户?

  A:在故障时间段内使用支付宝的用户具体数量无法精确统计,但可以肯定的是,流量通过其他机房的用户是不受影响的。

  Q:为什么杭州的机房光缆中断影响到全国其他地区部分用户?

  A:因为这次受影响的是支付宝部署在杭州的一个主要机房,服务的并不只是杭州地区的用户,因此网络中断导致该机房服务器无法为受影响的用户提供服务,这些用户也会包括其他地区。

  Q:故障会不会影响到用户的资金安全?

  A:支付宝有完善的技术和措施保护用户的资金安全,用户的资金安全不会受到任何影响。支付宝中的任何一个交易,同时都会有多份记录,数据可靠性极高。如果有用户出现交易不同步的情况,后续都会得到妥善解决。

  Q:为什么要这么久才恢复?

A:事实上,在当晚支付宝服务恢复时,被挖断的光缆还没有修复。支付宝的异地多活的系统架构在此次意外中发挥了巨大作用。一方面,没有因光缆被挖断而影响全部用户;另一方面,紧急将故障机房的流量切换至了其他机房。我们作为一个金融系统,对切换中数据与资金安全性的要求极高,因此切换速度上没有做到更快。后面我们会不断提升切换速度。但是,这并不代表我们对这次恢复时间是满意的,我们希望未来这样的切换能让用户无感知或者最小化感知。

  Q:恢复使用之后,有些用户发现余额宝信息显示不全,支付宝头像也没有了。这是为什么?

  A:支付宝将流量切换至其他机房,数据的核对需要一定时间。相关的功能显示,会有一点延时,但数据并不会丢失,这一点,请大家放一万个心。

   Q:有什么预防机制,防止类似的情况发生?

  A:光缆被挖断可能并不能完全杜绝,但对于支付宝而言,会继续推进技术的升级改造,继续完善异地多活的系统架构。未来,即使再次出现光缆被挖断等意外情况,我们进行异地切换时,也尽量做到让用户最小感知甚至无感知。

[ 打印 ]
阅读 ()评论 (0)
评论
目前还没有任何评论
登录后才可评论.