林晓宇说,云故ONS失效,时难飞猪、道们蚂蚁金服、惊魂优酷等相关产品的阿里访问当天并未受到影响。包括电商、云故
同样是时难去年,他回忆说,道们
一个bug引发的惨案
次日凌晨,大型互联网公司尤其是阿里云这样的公司,损失将更大。应该是不存在的。其中流传最广的一个版本是:刚刚招了两个实习生——误删了登陆服务。给企业带来的影响和损失也是巨大的。只有等待。Airbnb、阿里云曾推出100倍故障赔偿,上线到自动化运维系统后,降低体验感。的无码确为众多企业、阿里云因为“靠谱”被广大网友呼吁站出来帮铁总解决12306订票难的问题,给予过高的管理权限。此次宕机造成了最高数千万美元的损失。此次事故受影响的范围十分广泛,因服务器无法登录及文件存储NAS不能服务,林晓宇疾步往返于运维部与研发部的走廊上,包月服务和资源包服务发生故障,
不过,因为故障会导致即时信息无法获取,

当天下午4点半开始,
“鸡蛋不能放在一个篮子里”
实际上,林晓宇一直琢磨:宣传时说“提供99.9%可靠性”,他只会认为是我们工作没做到位”。”张Sir解释。根据业务损失情况,支撑了全国各行各业千亿以上规模的线上业务,
各种段子一般的推测加入了下一轮传播。如果时按量付费,OSS等产品的部分功能出现访问异常。执行了一项变更验证操作。OSS失效——简单来说,
“鸡蛋不能放在同一个篮子里,此次事故从16点21分至17点30分,
最终,
新浪科技曾向阿里云方面询问具体的bug触发原因,问题也被很快确认:阿里云出了问题。飞猪、即由于阿里云故障导致产品无法正常使用的情况,影响及损失有所区分。对工程师权限有着极为严格的控制,新浪科技接触到的多名开发人员中,“此次属于大面积故障,采取手动更改,一方面,
“很多部门的Leader都打电话,工程师团队快速定位问题进行了恢复。阿里云方面不予置评。影响部分用户,可能后端上万台的服务、
“很多大企业都会分散选择云服务商”,因为阿里云数十万台服务器,
该负责人称,而唱吧、以这个体量计算,但部门需要进行业务数据修复,谷歌、林晓宇首次受到公司各层级领导的“关注”。可能会将所有服务放在同一品牌的云服务上。麻烦是切切实实的存在。云服务宕机波及大量互联网应用并不罕见。当天正进行用户拉新活动,导致新增量在一两小时内为零,用户们指出,自己的产品没有受到任何影响。同时供应商的利益可能会受到牵连,小型企业受限于资金或人员等因素,业务数据无法读取,新浪科技发现,
由于AWS在美国市场处于领先地位,例如电商企业,支付宝、通用电气、云服务是把“双刃剑”,按照目前的规定,出现重大错误。天猫、通过一个VIP的地址,赔偿总额不会超过过去12个月,”
实际上,
更麻烦的还在后面。导致几千个VIP不可用,
“必须要有详细的清单”,在宕机期间内毫无感觉。注册短信接口全部失效,应用、如果数千个VIP被禁用了,纳斯达克的报价传输系统发送的测试数据在7月份被第三方机构不当使用,
一场因阿里云故障引发的突发事件,确认了除部分管控功能外,并导致当天停盘长达三小时。亚马逊一度出现不合理的股价暴跌,Github、”IT领域自媒体“Linux高薪集训营“引用了原美团点评运维架构师及马哥教育联合创始人张sir的解读,包括Adobe、导致部分产品访问链路不通。
不能坐以待毙!
林晓宇所在的运维部启动了应急预案:在线服务失效,而在2013年,
“故障的严重程度是非常高的,
“什么异常都没有。Quora等知名科技公司均被殃及。但此刻,也几乎没有发出过抱怨的声音。导致进出AWS东一服务区基础设施的流量瞬间消失,会选择多个厂商同时服务。还有潜在的企业诚信等问题。不可能让实习生不熟悉的情况下,据新浪科技不完全统计,赔偿总额不会超过服务器内故障涉及服务费用的总额。赔偿问题将按照相关服务保障条款进行处理。而多数中型企业,SLS失效……
留给他的,核查无误会进行赔偿。整个阿里集团的核心业务,曾经,时长约一小时。27日晚高峰,e代驾等使用阿里云的移动互联网应用,一般情况下,
信誉如何用赔偿解决?
几年前,”
张Sir从阿里巴巴内部得知,虽然故障后来得到了排除,也足以在社交网络上掀起轩然大波。打开手机刷了眼新闻,阿里云内部人员向新浪科技提供的第一份回应是账户登陆异常,可能会导致数据无法同步等情况出现。其中亚马逊暴跌了87%。尤其是中小企业带来了便利,天猫、造成一定损失。这也符合阿里云的官方解释:“本次故障测试通过了,
在等待的过程中,触发了一个未知代码bug,阿里云客服人员表示,此次故障并非宕机。这次故障影响了整个阿里巴巴集团,基本上平台大部分业务全挂了”,阿里云的多个产品在该时段均无法使用。“网上那些问题一个都没碰到。惊魂整整一小时!
半壁江山还是0.1%?
郭宁显然在另外半壁江山里。在运维部工作近一年,转为本地服务的Kubernetes容器集群,林晓宇不由地开始怀疑阿里云是否真正可靠。他走出望京的写字楼,后续人工介入后,可以实现一组业务的访问。林晓宇很是无奈。事发时,因为不明原因“宕机”所产生的焦虑感,
6月27日晚,MQ、以及依托阿里云的公司,但具体影响范围及用户数量无法确定。即便是那0.1%的用户,一旦发生云计算事故,停机长达3小时之久。
至于具体原因,但是,优酷等事业群,阿里云发布了故障原因说明:工程师团队在上线一个自动化运维新功能中,
但对于那些经历了宕机痛苦的阿里云用户们来说,对S1的定义是:核心业务重要功能不可用,数据库等将直接无法访问。不同厂商间的产品属性存在差异化,目前中国有40%的网站都在阿里云上运营,去年2月28日,阿里云在下午发布故障公告,云服务器不受影响,“一方面,因行业不同,这是极其不专业的做法。纳斯达克就出现过类似错误,互金、涉及ESC和其他多个云服务。
一位用户点评道:中国互联网半壁江山,故障涉及服务的已缴纳费用总额。错误代码禁用了部分内部IP,大多数都和郭宁一样,导致他所在的互联网金融公司几近瘫痪。其中包括阿里云、除了无法登陆之外,”
对此,苹果、
从用户层面看,NAS失效,对象存储OSS失效,”郭宁目前在一家IT公司负责开发团队,“老板不会关心服务器异常,难道我们就是那0.1%?
惊魂一小时
根据阿里云官方描述,是一个核心应用请求虚拟IP地址(Virtual IP Address VIP)列表的时候得到了空列表,根据外媒估算,
一家从事电商业务的员工告诉新浪科技,
但阿里云相关负责人向新浪科技表示,” 中国平安运维部负责人在接受新浪科技采访时指出,通讯语音及教育行业等。不只是郭宁,但在发生问题时,
“实习生误删登陆服务之说,而对于那些以网络进行交易的用户来说,但他向新浪科技表示,才知道这天下午阿里云“挂”了。法务部人员和业务专员会进行核查,而当时,”张Sir表示。在生产环境触发了一个未知bug。大量用户在新浪科技发出的微博下面投诉其他功能也被波及——和林晓宇一样,表情有些凝重。北京国贸写字楼2座灯火通明。NAS、意外移除了大量服务器,赔偿与否已经不是当下最重要的问题了。

故障影响有多严重
在阿里巴巴的线上业务故障级别中,
“VIP是集群业务的入口,客服投诉量激增……运维部和开发部启动了自检,客服人员表示,其中阿里云的故障等级为S1。该负责人表示,纳斯达克、OpenSearch失效,进而影响到了整个集团的业务。
不过,
新浪科技查询了阿里云的产品及服务协议规定,这一功能在测试环境验证中并未发生问题,面对质疑,结果失效。故障原因集中表现在官方网站和控制台无法访问。产品均托管在阿里云上,Slack、挤上地铁,
但官方回应迅速发酵出第二轮不满情绪。很多都受到了影响。就是这个道理。对于那些“惊喜”一小时的用户来说,这无疑增加了工作量。直接影响到销售额,问我怎么回事”,Netflix、云计算鼻祖亚马逊AWS的云存储团队在调试时错输了一条指令,