数据中心失火,360 万个网站被迫下线,一些企业甚至还没有灾难恢复计划,这是被一锅端了?
欧洲云计算巨头 OVH 位于法国斯特拉斯堡的机房近日发生严重火灾,该区域总共有 4 个数据中心 (Strasbourg Data Center),发生起火的 SBG2 数据中心被完全烧毁,另有一个数据中心 SBG1 的建筑物部分受损。出于安全起见,OVH 位于斯特拉斯堡的全部数据中心暂时关闭了服务。
OVH 公司目前在欧洲、北美及亚洲拥有 27 处数据中心,除 AWS、微软 Azure 以及 Google Cloud 之外,OVH 堪称全球体量最大的 Web 托管服务商之一,甚至被不少人视为欧洲托管服务业的希望。毕竟与其把数据交给美国人,还不如由本地运营商打理。
火灾之前的数据中心大楼
这场大火彻底摧毁了五层高、占地 500 平方米的 SBG2 数据中心,并导致相邻 SBG1 服务器发生损坏。但消防人员及时赶到,保护 SBG3 与 SBG4 免遭冲击。OVH 公司目前在欧洲运营有 15 处数据中心,其中有 4 处位于斯特拉斯堡园区。园区内另有 1 处新数据中心在建。
在消防员们成功平息火势之后,OVH 立即介入并对斯特拉斯堡园区的数据中心设施进行盘点。该公司发现,SBG2 的某一房间在当天 00:47 发生大火,主体建筑在 04:09 被完全摧毁。位于莱茵河毗杜港莱茵工业区的 SBG1 数据中心同样受到影响。目前,全部 4 处数据中心均已离线。
Klaba 在最新发布的推文中提到,“SBG1 已经遭到部分破坏。”他还建议客户立即启动灾难应对计划,并补充称“整个站点均已被隔离,并影响到 SBG1 至 SBG4 承载的所有服务。”
OVHcloud 在服务状态页(截至本文发稿时)表达了深切歉意,并恳请客户不要“申请重置”。作为三大云巨头(AWS、微软 Azure、Google Cloud)之外欧洲最大的网络托管服务商,OVH 公司董事长 Klaba 表示恢复计划将“为 SBG3 数据中心重建 2 万伏供电设备”;“为 SBG1/SBG4 重建 240 伏供电设备”;验证网络机房内的路由器 / 交换机;并在各处数据中心内兴建额外的冗余网络机房。他还在另一条推文中提到,“SBG1 中的网络机房并未受到影响。”
引发火灾的原因尚不清楚,但当地报纸称 115 位消防员投入 6 个小时才将其扑灭。经过长达 6 个小时的持续燃烧,SBG2 内的数据恐怕已经彻底丢失。
“不!我没有任何灾难恢复计划!”
这场大火对欧洲范围内的众多网站造成严重影响。据 Netcraft 称,目前跨 464000 个域的多达 360 万个网站皆已下线。
受到此次大火影响的客户包括欧洲航天局的数据与信息访问服务 ONDA 项目,此项目负责为用户托管地理空间数据并在云端构建应用程序。ONDA 项目负责方为 Serco 意大利分部,OVH 则参与提供云基础设施,将来自哥白尼地球观测项目的 10 PB 非预结构化数据通过公有云交付至开发者手中。项目管理方表示,所有服务“在……今天上午斯特拉斯堡 OVH Cloud 基础设施发生重大火灾之后,均被暂时禁用。”
Rust 旗下的游戏工作室 Facepunch Studios 证实,有 25 台服务器被烧毁,他们的数据已在这场大火中全部丢失。即使数据中心重新上线后,也无法恢复任何数据。
其他客户还包括法国政府,其 data.gouv.Fr 网站之前被迫下线,但目前已经恢复运行。另外还有加密货币交易所 Deribit,以及负责跟踪 DDoS 僵尸网络与其他网络滥用问题的信息安全威胁情报厂商 Bad Packets。Bad Packets 公司首席研究官 Troy Mursch 在之前的推文中提到,“可能会有部分数据丢失”,但其随后在采访中澄清称这里指的并不是该公司自己的数据。
无论如何,这场大火还是跟信息安全行业搭上了关系。卡巴斯基研究总监兼全球分析团队负责人 Costin Raiu 今天早上宣布,此次火灾还烧掉了不少防止发布恶意软件的服务器。“我们在 OVH 当中已经发现 140 台被 APT 及其他网络犯罪集团利用的已知 C2 服务器,其中约 64% 目前仍然在线。受到影响的 36% 服务器与多个 APT 团伙有关,包括:Charming Kitten、APT39、Bahamut 以及 OceanLotus。”
在一份采访声明中,Raiu 解释道:“根据我们的跟踪数据,OVH 在全部托管有恶意命令与控制基础设施的互联网服务供应商中排名第九。但总体而言,OVH 托管的 APT 与网络犯罪集团 C2 设备在总量中的占比不到 2%,远远低于 CHOOPA 等其他托管服务商。”
他还提到,“我认为这次意外事件对恶意团伙的影响很小;更重要的是,大部分复杂恶意软件都配置有多台 C2,用以缓解入侵及其他风险。很高兴看到此次火灾没有造成人员伤亡,也希望 OVH 及其客户能够从灾难当中尽快恢复。”
受到火灾影响的其他 OVH 客户还包括欧洲人民大学、斯特拉斯堡机场、瑟堡市政府、标致 - 索绍工厂委员会、浏览啤酒厂、克莱蒙费朗橄榄球俱乐部、以及西班牙职业足球俱乐部维拉里尔。市场营销平台 Paper.li 同样受到影响,并在用户通告中表示“我们服务供应商的数据中心出现重大问题,导致服务中断”,并决定“以承担部分后果的方式……支持这家托管服务商。”
专门销售苹果配件的供应商 CoverStyle 以及免费国际象棋平台 Lichess 网站也受到了影响,但后者明显灾备措施更到位,短短 24 小时之后即重新上线。此外,加密货币交易所 Deribit、电信公司 AFR-IX、加密货币实用程序 VeraCrypt(包括其 git 与站点)都受到影响。为了解决问题,VeraCrypt 决定将用户引导至 SourceForge 与 GitHub,“在服务中断期间继续下载及访问源代码。”绘图板平台 pr0gramm 则立刻将火灾事件发布给访问用户,并承诺最后一轮备份已经于 2 小时前完成。
但也有人没那么走运:
“不!!!我靠!!!我就是个普通客户,没有任何灾难恢复计划……我的服务器在机架 70C09 上,它现在还好吗?”
不同寻常的火灾
这场火灾强烈地提醒着我们,云服务与所有技术一样,有利也有弊。
云服务最大的优势在于,让人们不必担心硬件问题,具有非常好的可扩展性和灵活性:它可以对需求变化快速地做出反应,并且用户可以按需付费,从任何地方进行访问。但是,即使在云中,用户的数据也始终位于某个地方。这个地方仍然需要安全性、数据保护、备份和灾难恢复。
让很多人疑惑的是,作为一家有名的云服务提供商,技术应该很成熟,也应该有软件对此类事件进行预警,并自动启动灭火系统。但这些系统都没有起到作用,消防员到来后根本就压制不住熊熊的火势。
从历史看,这次火灾也许跟 OVH 公司的电网建设有关。三年前 OVH 公司曾经启动一项“400 万至 500 万欧元的投资计划”,希望杜绝 2017 年 11 月 SBG1、SBG2 与 SBG4 三处数据中心因重大停电事故而导致离线 3.5 小时这类事件的再次发生。Klaba 本人在评论 2017 年断电事件时曾表示,部分原因是“SBG 直接接入当地电网系统,但当地电网在建设之初并没有考虑到大规模基础设施带来的用电负载。”
“SBG2 的电网建立在 SBG1 的电网之上,而非两处数据中心彼此独立。”在被问及此次升级的更多细节时,OVH 方面表示计划“拆除部分货运集装箱(用于放置设备)”以及主体电气工程。
Gartner 公司高级分析师 Tiny Haynes 在谈到这场大火时评论道,“此次火灾不同寻常。我能想到的上一次同类事件发生于 2012 年 7 月,当时毁于大火的是卡尔加里的 Shaw 通信数据中心,一场大火摧毁了整座数据中心,部署于其中的火情监测与抵制系统并没能发挥应有的作用。在没有得到官方信息的情况下,我猜测问题很可能源自 UPS 故障。”
“这是我在职业生涯中亲眼见证的又一次数据中心燃烧事件,好在当时那处设施还没有全面运行。以模块化或者园区形式建设数据中心,就是会带来这样的风险。”
“在初步设计数据中心时,往往设想不到园区的总体电力与制冷能力需求。随着园区规模的发展,对电力及制冷能力的需求也会越来越大。我们已经在伦敦港区的 Harbour Exchange 遇到过类似的情况。对于这类最初设计并非作为数据中心的建筑,总会留下各种各样的疑难杂症。”
在谈到客户面对此类事件该如何保护自己时,Haynes 认为“最重要的是,企业必须在保证数据中心基础设施符合 TIA 942 Iter II 标准的审计之外,还同时具备完善且明确记录在案的变更管理、事件响应以及风险管理方法。”
OVH 公司创始人兼董事长 Octave Klaba 也于昨天简要介绍了恢复计划,表示各处数据中心对应的电力基础设施同样受到影响,预计至少需要七天才能重新运转。Klaba 提到,该公司拥有“随时可以交付给所有受影响客户的免费”新服务器、pcc 与 pci,同时计划“在未来三到四周之内增加 10000 台服务器。”
四天之前,OVH 公司宣布有意竞购法国流媒体初创企业 Shadow(也称 Blade)。本周一,这家云服务商还谈到上市计划。一位发言人在采访中表示,OVH“已经开始在巴黎筹划上市工作。”
火灾发生后,竞争对手 Equinix 给予了出色的回应:
参考链接:
theregister/2021/03/10/ovh/
datacenterdynamics/en/news/ovh-fire-destroys-rust-game-data-takes-other-sites-offline/