云服务行业故障频发腾讯云回应为何“崩了”

Connor 欧易官方网站 2024-05-06 37 0

2024年4月8日下午，腾讯云出现服务故障，接口响应报错、内部服务错误，网页显示504错误。504错误代表网关超时（Gateway timeout），是指服务器作为网关或代理，但没有及时从上游服务器收到请求。

4月8日傍晚，腾讯云公告，腾讯云官网控制台相关服务出现异常，工程师正在紧急修复中。部分地区已恢复，其他地区也正在继续抢修当中。

4月14日，腾讯云官方对4月8日故障情况进行说明：4月8日15点23分，腾讯云团队收到告警信息，云API服务处于异常状态；随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。

腾讯云表示，经过故障定位发现，客户登录不上控制台正是由云API异常所导致。云API是云上统一的开放接口集合，客户可以通过API以编程方式管理和操控云端资源，云控制台通过组合云API提供交互式的网页功能。而事故根本原因在于腾讯云版本变更过程中，没有有效执行沙箱验证和预案演练，暴露了在变更管理上的不足，最终导致云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。

故障发生后，腾讯云方面表示，依赖云API提供产品能力的部分公有云服务，也因为云API的异常出现了无法使用的情况，比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟，其间共有1957个客户报障。

从客户的视角来看，云服务可以分为数据面和控制面，数据面承载客户自身的业务，控制面负责操作云上不同产品。比如目前使用最广泛的IaaS服务基本上都是以直接面向数据面为主，控制面仅在客户购买或需要对资源层面进行调整操作时会涉及。此次发生故障的控制台和云API是对控制面的影响。通俗来讲，如果把云服务类比为酒店，控制台相当于酒店的前台，是一个统一的服务入口。一旦酒店前台发生故障，会导致入住、续住等管理能力不可用，但已入住的客房不受影响。

腾讯云方面称，这次故障中客户已经配置好的服务器等IaaS资源，包括已经部署运行的业务，没有受到云API异常的影响。其他以非云API方式提供服务的PaaS和SaaS服务，处于正常服务的状态。但用API提供的服务类产品（需要“酒店前台服务”）有不同程度的影响，比如腾讯云存储服务调用当天有明显下滑。其间售后团队协助部分客户做了业务容灾预案的实施，将受影响服务做调度以快速恢复客户的业务服务。

腾讯云方面表示，将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力三方面进行改进。

近年来，因云服务问题导致应用程序“崩了”的现象频繁发生。今年4月9日，支付宝崩了登上热搜，用户反映在使用支付宝APP时出现“已经停止访问”的页面。随后支付宝方面回应称：少量用户访问部分页面时出现了短暂性的访问不畅。这一情况已经快速恢复，用户的资金和信息安全都不受影响，各项功能也都可以正常使用。但具体事故原因并未进一步说明。

2023年12月3日晚，腾讯视频“崩了”登上微博热搜。腾讯视频方面回应称，出现了短暂技术问题，正在加紧修复，各项功能在逐步恢复中。

2023年11月27日晚间，滴滴App系统发生故障，全国大面积崩溃，服务无法正常使用。11月29日，滴滴方面发表声明称，各项服务已经恢复，初步确定，这起事故的起因是底层系统软件发生故障。2023年3月5日20:20左右，在B站用户活跃的高峰期，许多网友发现B站手机和电脑端均无法访问视频详情页，当晚B站团队在出现故障20分钟后解决了问题。多位行业人士倾向于原因是“迭代更新出现代码故障”，这是2021年7月B站大规模服务器崩溃后的官方解释。

万博智云CTO孙琦对第一财经表示，滴滴事件仅是个案，但该事件故障级别较大，确实影响到了一定规模普通群众的生活。实际上，很多用户看不到的软件故障正在每天发生，这在行业内是一个较为常见的问题。

此次腾讯云发生大范围故障，有行业人士将其与2023年11月阿里云史诗级故障并称。2023年11月12日晚间，阿里云发生故障，“阿里云盘崩了” “淘宝又崩了” “闲鱼崩了” “钉钉崩了” 等话题相继登上热搜，阿里系诸多产品受到影响。阿里云对此公告称，2023年11月12日17:44起，阿里云监控发现云产品控制台访问及API调用出现异常，阿里云工程师正在紧急介入排查。18:54阿里云再度公告称，经过工程师处理，杭州、北京等地域控制台已恢复，其他地域控制台服务逐步恢复中。

近期国内云平台密集降价，阿里云甚至直接将云产品以折扣形式搬进罗永浩淘宝直播间，传统IaaS产品逐渐同质化，云厂商竞争逐渐转为价格竞争。但在追求销量与市场规模的同时，客户的基础运维与数据安全工作，不应因“降本增效”而被忽视。