您的位置:万利彩票 > 旅游 >
旅游

万利彩票:深击-阿里云故障“惊魂”1小时:难道

2019-01-05作者:佚名来源:http://www.baidu.com/次阅读

新浪科技韩大鹏

编辑周峰

6月27日晚,北京国贸第二办公楼灯火通明。林晓宇赶紧往返于运营发展部和研发部门的走廊,他的表情很有尊严。

阿里巴巴云失败引发的紧急情况导致他的互联网金融公司临近。林晓宇在运营维护部门工作了近一年,首先被公司各级领导“关注”。

“很多部门的领导都打来电话,问我发生了什么。”面对疑惑,林晓宇很无奈。他回忆说,事件发生时,业务数据无法读取,交易短缺,客户服务投诉数激增......运营维护部门和开发部门开始自检,因为服务器无法登录,无法为文件存储NAS提供服务。问题也很快确认:阿里云有问题。

不能坐以待毙!

林晓宇的运营维护部门启动了应急预案:在线服务无效,变成了Kubernetes本地服务集装箱集群,结果无效。手动更改,对象存储OSS失败,SLS失败......

留给他,只等等。

在等待的过程中,林晓宇一直在思考:当宣传说“提供99.9%的可靠性”时,我们是0.1%吗?

惊吓一小时

根据阿里云的官方描述,其在中国公共云市场的份额超过2比5.目前,中国有40%的网站使用阿里云,而有一半的Unicorns也在使用阿里云。在本卷中,即使是0.1%的用户,由于无法解释的“停机时间”引起的焦虑,也足以在社交网络上引起轰动。

当天下午4点30分,“阿里云”的消息继续在微博和微信群中传播。用户指出,失败的原因集中在官方网站上,无法访问控制台。当时,阿里云内部人士向新浪科技提供的第一个回复是账号登录异常,云服务器没有受到影响。失败不是停机时间。

但官方的回应很快发酵了第二轮的不满。大量用户抱怨新浪科技发布的微博下的其他功能。其他功能也受到——和林晓宇的影响。除了无法登录外,OpenSearch失败,ONS失败,NAS失败,OSS失败。——简单来说,除了登录链接的异常外,云端的Ali Multiple产品在此期间不可用。

最后,阿里云在下午发布了失败通知,确认MQ,NAS,OSS等产品的某些功能除了某些控制功能外都有异常访问。事故从16:21到17:30大约需要一个小时。

一位网友评论说:中国的互联网有一半的国家,受到了一个小时的惊吓!

该国的一半仍然是0.1%?

郭宁显然是在这个国家的另一半。 27日晚,他走出望京的办公大楼,挤进地铁,打开电话并刷新消息,才知道阿里云今天下午“上吊”。

“没有什么是不寻常的。”郭宁目前负责IT公司的开发团队。这些产品托管在阿里云上,涉及ESC和其他一些云服务。但他告诉新浪科技他的产品没有受到影响。 “互联网上没有问题。”

事实上,不仅郭宁,新浪科技所接触的大多数开发商,如郭宁,在停工期间都没有感觉。而使用阿里云的唱歌,电子驱动和其他移动互联网应用,几乎没有任何投诉。

然而,对于那些“惊喜”一小时的人来说,麻烦是真的。根据新浪科技的不完全统计,事故的范围非常广泛,包括电子商务,互助金,通讯语音和教育行业。阿里云客服人员表示,“这是一场大规模的失败,基本上大部分平台的业务都被完全绞死了”,但具体的影响范围和用户数量无法确定。

更多的麻烦仍然落后。

林晓宇说,虽然后来排除了故障,但该部门需要修复业务数据,这无疑增加了工作量。

一位从事电子商务业务的员工告诉新浪科技,用户当天正在撤销一项新活动,所有注册的短信界面均无效,导致新金额在一两个小时内归零。 “老板不会关心服务器异常,他只会认为这是我们没有做过的工作。”

由bug引起的错误

在第二天的凌晨,阿里巴巴云发布了失败的原因:工程师团队在新的自动化操作和维护功能中执行了更改验证操作。此功能在测试环境验证中没有引起问题。上线到自动化操作和维护系统后,触发了一个未知的代码错误。错误代码禁用了某些内部IP,导致某些产品访问该链接。在随后的人工干预之后,工程师团队迅速找到问题并恢复。

新浪科技已经向阿里云询问了这个漏洞的具体原因,但对方拒绝回答。

各段的一般推测已加入下一轮交流。其中一个最广泛传播的版本是:刚刚招募了两名实习生——意外删除了登录服务。

“实习生错误地删除了登陆服务,它不应该存在。”来自媒体“Linux高薪训练营”的IT领域引用了原美国使命审查与维护建筑师和马格教育联合创始人张先生的解释,“一方面,大型互联网公司,特别是阿里巴巴云,极为重要严格控制工程师的权威,因为阿里云的数十万台服务器支持全国各行各业超过1000亿的在线业务。对于一个不熟悉的实习生,给予过多的行政权力。这是非常不专业。“

据阿里巴巴爵士透露,这起故障影响了整个阿里巴巴集团,包括阿里巴巴云,蚂蚁王,天猫,飞猪,优酷等业务集团,其中阿里巴巴云的故障等级为S1。

故障的影响有多严重

在阿里巴巴的在线业务失败水平上,S1的定义是:核心业务的重要功能不可用,影响部分用户,造成一定的损失。

“失败的严重程度非常高。整个阿里集团的核心业务以及依赖阿里云的公司都受到了影响,“张先生说。

然而,新浪科技发现天猫,支付宝,飞珠,优酷等相关产品的访问量并未在同一天受到影响。

至于具体原因,当核心应用程序请求虚拟IP地址列表(VIP)时,会获得一个空列表,导致数千个VIP不可用,从而影响整个组的业务。

“VIP是群集服务的入口。通过VIP地址,您可以访问一组服务。如果禁用了数千个VIP,后端可能会有成千上万的服务,应用程序,数据库等。直接无法进入。“张先生解释说。这也符合阿里巴巴的官方解释:“此失败测试通过,触发了生产环境中的未知错误。”

对此,阿里云不会发表评论。

“鸡蛋不能放在篮子里”

实际上,云服务停机对于大量Internet应用程序来说并不罕见。去年2月28日,云计算的创始人亚马逊AWS的云存储团队在调试过程中丢失了命令,意外删除了大量服务器,导致进出AWS East One服务区的流量瞬间消失基础设施,停机时间长达3小时。只要。

由于AWS是美国市场的领导者,包括Adobe,Airbnb,Github,纳斯达克,Netflix,Slack,通用电气和Quora在内的知名科技公司都受到了冲击。据国外媒体估计,停机造成的损失高达数千万美元。

“鸡蛋不能放在同一个篮子里,这是事实。”中国平安运营维护部负责人指出,云服务是新浪科技采访中的“双刃剑”。一方面,它确实为许多企业,特别是中小企业带来了便利,但当问题发生时,对公司的影响和损失是巨大的。

该负责人表示,由于行业不同,影响和损失是有区别的。例如,一旦发生云计算事件,电子商务公司就直接影响销售,同时可能涉及供应商的利益,以及潜在的公司诚信和其他问题。

从用户级别来看,由于故障可能导致即时信息不可用,因此减少了体验。对于那些在网上交易的人来说,损失会更大。

同样在去年,纳斯达克的报价传输系统发送的测试数据在7月被第三方机构不当使用,并且出现了重大错误。谷歌,苹果和亚马逊曾经遭遇不合理的股价崩盘,亚马逊股价暴跌87%。 2013年,纳斯达克也出现了类似的错误,导致这一天被暂停了三个小时。

“许多大型企业将分散云服务提供商的选择。”一般来说,小企业可能仅限于资金或人员,可能将所有服务都放在同一品牌的云服务上。大多数中型公司将选择多家供应商同时提供服务。但是,不同供应商之间的产品属性不同,这可能导致数据不同步。

如何通过补偿来解决信贷问题?

几年前,阿里云推出了100次故障赔偿,即由于阿里巴巴云未能导致产品无法正常使用,阿里巴巴云将提供100倍的故障时间补偿。

但是,阿里云的相关负责人告诉新浪科技,补偿问题将按照相关服务保障条款处理。

“必须有详细清单”,客服人员表示,根据业务亏损情况,司法部人员和业务专员将进行核查,核实将是正确的。

新浪科技已询问阿里云的产品和服务协议。根据现行规定,月服务和资源包服务将出现故障,总补偿金额不会超过服务器所涉及的服务费总额。如果金额按数量支付,则补偿总额不会超过过去12个月,以及与失败相关的服务总成本。

但对于那些经历过抓住机会的痛苦的阿里巴巴用户来说,补偿并不是目前最重要的问题。有一段时间,阿里云被大多数网友打电话帮助解决了12306预订的问题,但此刻,林晓宇不禁怀疑阿里云是否真的可靠。

云计算故障编年史

相关软件 囚犯是我1.0.0

《囚犯是我》是由GLOBAL GEAR开发的日语单词拼图益智游戏。在游戏中,玩家和大玩家......

更多

声明:本文来自万利彩票

万利彩票:深击-阿里云故障“惊魂”1小时:难道 相关的内容:

关于 万利彩票:深击-阿里云故障“惊魂”1小时:难道 的评论