我也来吐槽一下腾讯云本次的故障,我们做为创业公司,这次也是损失惨重,老板是好人,没想过去向腾讯云索赔的问题。
腾讯云此次故障来势非常突然,大约是在7月20号晚上21点左右出现险情,服务器卡克,由于是周五,这个时间段正是我们业务繁忙的时间(我们是做快递代收系统的,平时业务高峰在晚上19点左右,周五一般在21点左右),群里突然炸了,被老板紧急召唤,查询问题,无法登陆服务器,服务器重启失败,强制重启失败,紧接着显示故障。由于此设备为我们公司主站系统,用户取快递的验证码,代收点PC端取件,商家提现均需要访问此站,业务自此就算瘫痪了,群里质疑声一片,以为我们公司突然倒闭了呢。
紧急求助的工单
在无法重启后,紧接着向腾讯云发出紧急求助,技术支持反应速度倒还算快,告知北京三区硬盘出现故障,正在紧急恢复。业务不能等啊,老板手机都被打爆了,平时和蔼可亲的老板,电话中语气明显带着火药味了,随后召集公司技术开发人员上线加班,由于主站暂时无法恢复,是否有备用站点,妈妈的,我们13台服务器,竟然有9台在北京三区里,除了主站服务器外,其他的任意8台都有可能会随时出故障,先做其他8台设备的备份吧,可是,但可是,每一台都很卡,最后历时很久(具体多久不记得了),总算备份下来了。万幸的是主站系统的测试站点在北京一区,在备份的同时切换到测试站点临时应急,可惜版本往前多了10天的差距。做为创业公司,平时不注意版本控制,临时抱佛脚,开发人员到凌晨1点总算把备用站点启用,业务群里早已经安静了,估计用户骂累了都睡觉去了。
跟老板电话汇报结果,和蔼可亲的老板说了句,这是我们一个坎,恢复不过来公司有倒闭的可能。一句话说的我满心愧疚,当初是我力主用的云服务。
我们等到凌晨3点也没等到故障恢复,凌晨5点起来看到系统已恢复(心里有事睡不踏实),心中暗喜,果然是云服务,系统配置啥的都一样。再仔细一看,少了一个盘符,D盘没了。天,不是吧,最最最重要的文件都在数据盘上。C是系统盘,D是数据盘,F是备份盘。看F盘还在,对比了备份文件往后少了10天。妈妈的,我对你腾讯云多有信心啊,备份都是15天备份一次,现在竟然全部给丢了。继续求助腾讯云吧。最后确认丢了,没办法恢复,永久性的没办法恢复。
我是凌晨5点提交的恢复申请,7点半回复咨询情况,大家都很辛苦。
做为一个从业20年的资深运维人员,曾搭建自有环境时做过raid,做过主备,做过集群,就是为了防止数据丢失,也从未丢过数据,怎么就想不通云服务上还能丢数据,丢了还找不回来。该怎么向同事,向老板交差呢。感谢技术同事的理解,虽然差了10天的版本,经过开发同事4天加班加点的努力,总算恢复到故障以前的状态。
老板说,系统恢复过来了,业务丢了近一半,以前平均一天16万个包裹量,四天后一天9万多包裹量。
从腾讯云系统恢复的次日客服就打电话谈赔偿问题,当时由于全力在恢复系统,没时间谈赔偿,也跟老板说了,腾讯云说要赔偿,怎么赔。我们老板这个大好人,说了一句别人怎么赔就怎么赔就行了,别难为人家。最后按照损失硬盘的价格给赔付,丢失的D盘是10G的云硬盘,购买了3年。按照这个标准赔了300多块。
给老板汇报,老板说:可以的。