17611538698
webmaster@21cto.com

X一周年:马斯克“下云”节省60%成本,狂砍90%代码行

架构 0 1462 2023-11-03 12:33:25

图片

导读:在X空间,马斯克又开始下云的运动。我们来看它的工程团队如何做到的。

10月底,X的工程团队(Engineering @XEng)在平台上发帖介绍 X 平台的工程改进与“下云(CloudExit)(或称云退出)实践。

图片


其中下云措施使 X 平台的云成本每月节约 60%,此项惊人成效将“上云是否有必要”的讨论再次拉回人们的视野。

而这距离埃隆 · 马斯克以440亿美元收购Twitter(后被其更名为 X)时间已经过去了一年这一年中,马斯克接连推出多项改革:放宽内容审核、限制用户看帖数量、推出付费会员特权、执行“硬核软件工程”大幅削减工作岗位。

身处改革的狂风暴雨中,X 平台的运行却似乎未受影响,不仅推出多项新功能,被用户诟病多年的系统中断问题也有所改善。这一切是怎么做到的?或许我们能在X工程团队的帖子里找到答案。

X被收购的这一年

去年11月,马斯克向员工提出延长工作时间、停止远程办公的要求,以便实现他的“硬核软件工程(hardcore software engineering)”。他于凌晨向全体员工发送邮件,要求员工在第二天下午五点前做出决定,如果不接受高强度的工作要求,就必须只能领取3个月薪资的遣散费离开公司。

截至今年6月,X 的员工数量从约8000人削减至1500人左右。详细可查看相关文章链接:亚马逊规定技术部人员必须在办公室工作 3 天,否则解雇

根据 Apptopia 从2022年10月到2023年9月统计的数据,X平台的日常用户流失了约13%。同时,该平台的主要收入来源——广告费用大幅下滑,由于对内容审核的不甚重视和错误信息激增,金主可口可乐、联合利华、福特等广告商已从X平台撤消广告投放跑路了。

另据最新披露的内部文件显示,周一一名 X 的入职员工获得了该公司的股权,标明估值仅为 190 亿美元,即每股 45 美元,远低于收购时的440亿美元。文件还显示,该价格比马斯克的原始购买价格有 55% 的折扣,其中指出“每股公平市场价值由董事会根据多种因素以符合适用税收规则的方式确定。”

从云端到下云:一切为了成本

Twitter 与 AWS 的合同为期五年半、金额达 5.1 亿美元,平均每月在云的支出约 773 万美元。

马斯克直言要求 Twitter 工程团队削减 10 亿美元的云基础设施成本。

图片

于是,无论是缩减代码、减少数据中心部署、将云服务转为本地运行,还是其它优化措施,X 工程团队的“卓越工程”实践都已经指向同一个目标——削减成本。

以下,我们总结其工程团队列出去年取得的成就与手段:

“优化了我们对云服务提供商的使用,并开始在本地环境运行更多的工作。这种转变使我们每月的云成本降低了 60%。我们做了诸多改变,其中之一是将所有媒体/ blob工件移出云环境,这使我们的整体云数据存储大小减小了 60%;另外,我们将云数据处理成本成功地降低了 75%。”

除了应用程序上用户可见的变化外,X平台实施了以下技术改进:

  1. 围绕统一产品框架,整合"For You(推荐)"、"Following(关注)"、"Search(搜索)"、"Profiles(个人主页)"、"Lists(分组)"、"Communities(社区)"和"Explore(探索)"的技术堆栈。

  2. 重建“For you(推荐)”服务和排名系统,将代码行从70万行减少至7万行,整体代码行数减少了90%,计算占有减少一半,导致代码行从700K减少到70K减少了90%,我们的计算足迹减少了50%,每次请求的帖子吞吐量增加80%。

  3. 统一了“For you(推荐)”、视频个性化和排名模型,显著提升了视频推荐质量。

  4. 重构我们技术栈的API中间件层,删除超过10万行代码和数千个未使用的内部端点,并消除未采用的客户端服务,进而简化架构。

  5. 帖子元数据延迟减少50%,全球API超时错误降低90%。

  6. 阻止机器人和内容抓取器的速度较2022年增长37%。平均每天阻止机器人注册攻击100多万次,减少95%的私信垃圾邮件。

  7. 关闭萨克拉门托数据中心,重新配置5200个机架和148,000台服务器,每年节省超过1亿美元。总体释放了48兆瓦的容量,减少了6万磅网络梯架,并将其重新配置到其他数据中心。

  8. 优化与云服务提供商的合作策略,转而在本地环境中运行更多工作。这种转变使我们每月的云成本降低了60%。改变之一是将所有媒体/数据块工件移出云服务,此项举措将整体云数据存储大小减少了60%。除此之外,云数据处理成本也成功降低了75%。

  9. 构建本地GPU超级计算集群,设计、开发并交付43.2Tbps的新网络结构架构以支持集群。

  10. 扩大网络骨干容量和冗余,每年可节省1390万元。

  11. 启动自动化高峰流量故障转移测试,持续验证整个平台的可扩展性和可用性。


综合起来,每月云成本降低了 60%,主要原因是从云端环境中删除了媒体/blob 工件。仅此一项就将云存储量减少了 60%。数据处理成本进一步大幅降低,此项节省了 75%。

为了让“下云”成功,X平台还优化了自己的硬件堆栈。团队关闭了萨克拉门托数据中心,并重新分配了内部的 5,200 个机架和 148,000 台服务器,此举又节省了 1 亿美元,并为流程中的其它任务提供了 48W 的电力。X 构建了专有的本地 GPU 超级计算集群,依托于 43.2Tbps 的网络结构架构。该团队又对网络骨干容量进行优化,每年可节省 1,390 万美元。其自动峰值流量故障转移、测试持续监控系统的可扩展性和可用性为x团队提供了一份改进和节省成本的清单。

依据 X 平台工程团队公布的“节约60%的月度云成本”推算,X 平台有望在当前的下云措施中每年节省6000万美元以上。

今年6月,Ruby on Rails 框架创始人 David Heinemeier Hansson 宣布其创始公司 37Signals 时隔6个月完成“下云”,将所有应用迁移至本地硬件。即使预留50万美元用于意外开支,5年内也可节约700万美元的云成本。

图片


David对 X 平台的“下云”措施反应非常迅速,在其个人博客中发布文章《X 庆祝下云后节约了 60%的支出(X celebrates 60% savings from cloud exit)》。

“下云(CloudExit)很可能即将成为主流。”David如此评价道。

Twitter 过去有大约 8000 名员工,而据称 X 现在的员工不到 2000 人。

“首席财务官和投资者不会视而不见。如果有可能,用四分之一的员工支撑像X平台这样大的业务,还能从下云措施中获取巨额利润,那么多数大型企业在一般情况下都能从下云节省相当可观的资金。”

比能够如此迅速地大幅削减云成本更令人印象深刻的是,他们是在团队规模只有原来四分之一的情况下完成这个壮举的。

获得真正“独立”

从前面的内容看来,X不仅获得了更多的独立性,而且通过利用自己的硬件大大降低了成本。

Veeam 产品与战略高级总监 Rick Vanover 分享了云如何给公司带来不可预见的成本。

“我们经常听到有关每月的服务账单比预算高出 25% 至 50% 的事情,”虽然这些偶尔的低效率会导致成本飙升,从本质上来说,云费用并不像本地解决方案那样易于管理和可预测。

X 的平台规模在构建和使用本地解决方案时,对平台自己是有利的。

但是,Nvidia 首席执行官黄仁勋作为世界上最大 GPU 供应商的领导者,在他的企业中云和本地部署都在起了很重要的作用,他几年前表示“购买的云越多,节省的就越多。” 因此也要因地制宜,每个人选择本地而不是云,要经过理性评比。

Vanover 也强调了云退出策略的重要性,这要求企业不断研究可以节省哪些成本。如果迁移到另一个云提供商或部署到本地数据中心更好怎么办?即使在选择云服务之前,也应该保证退出所选云厂商的灵活性。“这就像当你是一名消防员或警察时:进入潜在危险情况时,你首先想到的是如何在必要时逃脱出来。”

X 从这种“下云”中已经受益,但对于其他企业来说,前景可能有所不同。那些购买硬件的人需要确保它能带来投资回报。此外,硬件升级成本可能也高得离谱,特别是某个硬件突然大肆炒作,就像前不久看到的GPU或内存那样。因此,本地化部署也无法免受供需链的影响。

尽管如此,马斯克的 X 平台向我们表明,作为一家公司,无论你的规模大小,你都需要保持足够的灵活性,在特殊情况或这样做有益时,能够方便将 IT 基础设施从云中转移出去。


作者:场长

参考链接:

https://twitter.com/XEng/status/1717754398410240018

https://www.theinformation.com/articles/musk-delayed-paying-twitters-amazon-cloud-bill-sparking-ad-threat

https://www.theregister.com/2023/02/22/cloud_repatration_savings_calculated_basecamp/

评论