作为全球首富,埃隆·马斯克(Elon Musk)在极短的时间内,摒弃了企业构建数据中心的传统方式,为他旗下人工智能新兴企业xAI部署了当前世界上规模最大、速度更快的超级计算机。此举不仅令业界竞争对手深感震撼,同时也加剧了OpenAI、微软、谷歌等公司在超大规模数据中心领域的竞争态势。
1 “巨像”在两个方面惊呆对手
今年10月份一个阳光明媚的日子,一架螺旋桨飞机在美国田纳西州孟菲斯市中心附近一座被翠绿草坪环绕的宏伟工业建筑上空盘旋,机上的乘客纷纷记录下该设施的影像资料。
此次飞行实则是一次秘密侦察行动。马斯克近期将这栋原本是家用电器制造工厂改造成了数据中心,内部有世界上规模最大的服务器集群,专门用于人工智能模型的训练。马斯克为xAI打造的人工智能超级计算机,其建设速度之快,在OpenAI等竞争对手的高层中引发了广泛的忧虑与不解。
据看过这些照片的知情人士透露,机上乘客来自一家与马斯克数据中心构成竞争关系的企业,他们试图深入了解这个被严密防护的数据中心的运营细节。这些知情者还观察到,马斯克利用卡车运送了多台燃气涡轮机至现场,为设施提供电力支持,并努力探寻xAI如何高效管理建筑内服务器散热的解决方案。
孟菲斯上空的侦察飞行,凸显了科技领域最烧钱竞赛中的一场高风险较量。微软、Meta、谷歌和亚马逊等科技巨头都在竞相投资新建数据中心,以支持ChatGPT等人工智能技术。
这是一个冒险的豪赌,它基于一个简单的信念:服务器集群的规模越大,其训练出来的人工智能表现就越出色。2022年末,OpenAI推出的聊天机器人ChatGPT风靡全球,不仅在科技行业掀起轩然大波,也加剧了各方对超大规模服务器集群的激烈争夺。
作为OpenAI的联合创始人及早期资助者(尽管后来分道扬镳),马斯克在数据中心竞赛的序幕刚刚拉开之时便已加入战局。凭借非凡的雄心壮志、不懈的努力以及对传统数据中心建设常规的挑战,他成功地在业界掀起了轩然大波。
马斯克的超级计算机“巨像”(Colossus)在两个方面令竞争对手瞠目结舌:其庞大的规模以及xAI惊人的建造速度。这台超级计算机配备了10万颗GPU,它是训练和运行人工智能软件的理想选择,其规模远超Meta等科技巨头以往打造的类似超级计算机。
2 四年建设周期缩短至122天
将如此庞大的GPU集群整合到一台超级计算机中绝非易事,因为服务器需要消耗巨额的电力,且连接芯片的网络设备也面临着严重的带宽瓶颈。xAI如此迅速地完成这一项目,实属前所未闻。
马斯克与为“巨像”提供GPU的人工智能芯片领军企业英伟达共同宣布,该数据中心与超级计算机仅耗时122天便宣告竣工。在最近的播客访谈中,英伟达首席执行官黄仁勋坦言,如此规模的GPU集群往往需要三年的规划与设计周期,再加上一年的建设时间方能投入使用。
谈及“巨像”项目时,黄仁勋在播客中感慨道:“毋庸置疑,现在大家都辗转难眠了!据我所知,全球唯有马斯克一人具备这样的能力,他对工程、建筑、大型系统构建以及资源调配的独到见解,堪称举世无双。”
马斯克之所以能在孟菲斯迅速建成数据中心,部分归因于他省略了几个关键步骤。例如,他在尚未从电网获取足够电力以运行“巨像”的情况下便启动了建设。然而,这种打破常规的做法正是马斯克在多家公司屡试不爽的策略之一。
例如,在特斯拉,马斯克曾在一个停车场为Model 3汽车搭建了一条生产线,从而绕过了在加州扩建汽车厂所需的繁琐许可流程。在SpaceX,他不断催促工程师精简火箭上他认为不必要的部件,或采用非太空专用设计的更廉价部件。
尽管xAI的人工智能工具目前仍显著落后于OpenAI,但马斯克建造超级计算机的速度已引起了OpenAI首席执行官山姆·奥特曼(Sam Altman)的高度警觉。据内部消息透露,在马斯克于X平台发帖后,奥特曼与微软的基础设施高层发生了争执,他表达了对xAI发展速度可能超越微软的担忧。
奥特曼还忧虑xAI可能会迅速拥有比OpenAI更强大的超级计算机。这一担忧促使OpenAI首次考虑寻求微软以外的合作方案。目前,一个备选方案正在得克萨斯州阿比林(Abilene)的一片荒芜平地上紧锣密鼓地建设中,有些公司正为即将落成的数据中心做前期准备,该中心预计明年将为OpenAI部署10万颗芯片。
得克萨斯州阿比林的一处数据中心建设现场,预计明年将部署拥有10万个芯片的OpenAI超级计算机
现场施工进展异常迅速。在最近的一次现场探访中,一位项目承包商透露,多数建筑尚未砌墙。承包商正在场外预制该设施的大部分组件,以便到场后迅速组装。
或许不久的将来,即便是阿比林和孟菲斯的超级计算机也会显得相对渺小。包括微软在内的一些科技巨头已着手讨论建设规模更为庞大的数据中心项目,这些项目将包含数百万个GPU,每个项目的成本预计超过1000亿美元。
这一趋势极可能持续发酵,因为数据中心行业的几乎所有参与者都在密切关注竞争对手的每一步动向。
“数据中心市场相对狭小,每个人都紧盯着行业内的一举一动”,DPR Construction高级数据中心团队的负责人约翰·阿塞洛(John Arcello)表示。DPR Construction曾为Meta等大型企业建造数据中心,目前正参与阿比林的项目建设。
3 建设“计算超级工厂”
今年早些时候,马斯克开始着手整合创建xAI所需的庞大算力。xAI是他在2023年创立的一家公司,迅速成为人工智能领域的强劲对手。当时,马斯克已向甲骨文租用GPU,用于训练xAI的大语言模型Grok的初始版本。
为了进一步提升Grok的性能,马斯克亟需扩充算力资源。今年5月,他通过视频连线与潜在的xAI投资者进行了交流,作为筹集数十亿美元资金的前期铺垫。据一位参会投资者透露,马斯克在会上描绘了一幅打造全球最大超级计算机的愿景,他将其命名为“计算超级工厂”,就像特斯拉在全球布局的庞大生产基地一样。
马斯克与xAI不足12人的团队围坐一桌,详细阐述了他的计划:将10万颗英伟达H100(当时市场上最尖端的GPU)集成至一个超级计算机集群中。屏幕上展示的一张图表清晰地显示,xAI建造超级计算机的速度将是大多数企业的五倍之快。该公司正以“令人难以置信的速度”全速前进,并郑重承诺:“马斯克将亲自监督数据中心的如期交付。”
马斯克向投资者透露,他尚未就是否与云计算服务提供商合作,还是独立推进该项目做出最终决定。
数周后,甲骨文的多位高层管理人员与马斯克举行了视频会议,共同探讨第一种合作方案。据知情人士透露,马斯克向甲骨文提议,由甲骨文为xAI打造超级计算机,此举将使这家人工智能初创企业一跃成为甲骨文的重要客户之一。
孟菲斯电器设备制造商Electrolux的工厂如今成为xAI超级计算机的所在地
马斯克原本寄望于将xAI数据中心落户于孟菲斯的Electrolux前工厂遗址,并期待在2024年秋季顺利竣工。然而,据与会者透露,在一次电话会议中,甲骨文的高管向马斯克坦言,他们难以按照马斯克所期望的速度完成建设任务。
据知情人士透露,甲骨文高管指出,马斯克所选中的大楼电力供应不足,无法满足他计划安装的芯片数量所需的能源。马斯克很快就对甲骨文高管的反对意见感到失望与沮丧。最终,他决定让xAI抛开甲骨文,独立开发孟菲斯数据中心。
马斯克在社交媒体上写道:“甲骨文无疑是一家伟大的公司……但是,当我们的命运取决于成为迄今为止最快的公司时,我们必须亲自掌舵,而非仅仅作为乘客坐在后座!”
4 打破常规,采用临时供电计划
为了能在预期时间内完工,马斯克催促孟菲斯当地官员以前所未有的速度批准这个建设项目。而孟菲斯方面也表现得颇为急切,渴望满足马斯克的需求,以便能吸引他的业务,为这座城市带来发展机遇。
大孟菲斯商会主席泰德·汤森(Ted Townsend)在接受访问时表示:“我们不分昼夜加班加点地工作,随时都在接收短信和电话,力求展现出与xAI及其期望相匹配的干劲和效率。”
今年6月初,汤森公开宣布,马斯克已经选定了孟菲斯作为xAI超级计算机的落户地。紧接着的几个星期里,马斯克和他xAI的团队迅速拆除了孟菲斯的旧工厂,为放置英伟达GPU的机架腾出了大片空间,并开始安装各种电气、机械和管道设备,并为服务器部署了先进的水冷系统。
然而,在这种飞快的施工进度中,电力供应却成为了一个不小的障碍。起初,孟菲斯的这座工厂所提供的电力根本无法满足xAI所有高能耗GPU的需求。通常情况下,这类问题很可能会让数据中心项目的进度脱轨或是延期。
但马斯克总能想出巧妙的应对之策:在等待地方当局批准他提出的在现场增加100兆瓦电力的请求期间,他引入了移动天然气涡轮机来作为临时的电力补充。而田纳西河谷管理局也在上周通过了他的这一请求。
但马斯克的这一举动很快就引发了当地环保组织的强烈反对。他们向当地的卫生部门致信,指责xAI在未经许可的情况下擅自运行天然气涡轮机,对空气造成了严重的污染。一位在微软数据中心工作的高管也表示,考虑到微软在气候方面所设定的目标和倡议,该公司绝不可能做出类似的事情来。
南方环境法中心的高级律师阿曼达·加西亚(Amanda Garcia)对田纳西河谷管理局的决定表示反对,她表示:“使用天然气涡轮机,就像是在未获得批准的情况下偷偷建造违规发电厂,这着实令人震惊。毕竟,空气污染已经是孟菲斯西南部面临的一个巨大挑战。”
然而,马斯克能够迅速完成这个项目,背后或许还有其他一些助力因素。数据中心业务的高管们透露,在xAI开始使用这一超级计算机集群之前,“巨像”超算很可能无需经过任何合规性测试。这主要是因为xAI计划将这台超级计算机专用于自身需求,而非出租给其他客户。
相比之下,微软在将服务器移交给OpenAI或其他Azure云客户之前,必须经过多次数据安全测试。这些客户通常希望服务器能达到一定的正常运行时间或隐私标准。
数据中心运营商DataBank的首席执行官劳尔·马丁内克(Raul Martynek)表示:“我们必须通过所有这些不同的行业认证。我可以肯定地说,xAI数据中心目前还无法通过这些认证。”
马斯克打造“巨像”超算的努力确实遭到了不少质疑。多位数据中心高管认为,将制造工厂等建筑改造为适用于GPU服务器和液体冷却系统的设施极其困难。据两名与xAI员工交谈过的人士透露,在过去几个月里,该设施的改造多次中断。
但这些问题似乎并未拖慢xAI的脚步。马斯克和英伟达表示,在首个服务器机架进入数据中心仅仅19天后,他们就已经开始了下一代Grok模型的首次训练。
在最近的一次访谈中,马斯克的密友、他旗下多家公司的长期投资者安东尼奥·格拉西斯(Antonio Gracias)透露,xAI正在重新思考构建数据中心的整个流程,“我们从最基本的原则出发,努力使其更经济、更高效、更快捷。”
格拉西斯继续说道:“我在特斯拉、SpaceX等公司都看到过这种情况。在这些公司里,马斯克是领航者,同时也有几十名工程师在他的带领下,共同致力于创造出尽可能最优、最有效的系统。”
5 其他科技巨头紧紧追赶
今年夏天,随着马斯克在超级计算机领域取得显著进展的消息逐渐传开,亚马逊、微软和谷歌这些巨头的数据中心高管们纷纷致电英伟达,询问同一个问题:马斯克是如何在超级计算机项目上取得如此神速进展的?
据与这些公司有过交流的人士透露,不仅如此,包括Meta在内的其他一些公司的高管们还联系了一家小型云提供商,探询这些公司是否能以比他们自己建设数据中心更快的速度为他们提供所需的容量。
随着有关孟菲斯数据中心的信息不断被披露,这些公司对于揭开该项目成功奥秘的渴望愈发强烈。数据中心和云计算业务的管理人员们对该设施的图像进行了仔细研究,试图从中收集到关于其设计的任何信息。
马斯克在社交媒体平台X上发布了几张数据中心内部的照片,进一步满足了公众的好奇心。上个月,一位行业分析师在参观了“巨像”所在设施后,还在YouTube上发布了一段视频。
xAI孟菲斯数据中心内部
与此同时,在与xAI的谈判于今年夏天破裂之后,甲骨文迅速与OpenAI达成了提供计算能力的协议。据悉,新的OpenAI数据中心将落户阿比林,为此,甲骨文已经与创业公司Crusoe和Lancium共同签署了一项开发协议。
上个月,Crusoe成功筹集了超过30亿美元的资金,用于推进数据中心的初期建设。这个数据中心将配备10万颗英伟达即将推出的新型GPU,即GB 200。
与马斯克在孟菲斯的项目一样,Crusoe也在全力推动项目的快速完成。DPR公司的阿塞洛承担了该项目的建设工作,并表示这是他参与过的建设速度最快的项目之一。两家公司从3月份开始讨论数据中心的设计方案,到了6月份就已经破土动工。
几个星期前,阿比林的工地上,建筑工人们正紧锣密鼓地砍伐树木,为新电站腾出空间,并且每天都在尽可能地加快混凝土浇筑工作。据三名知情人士透露,为了确保能够按时向现场供电,OpenAI已经要求项目合作伙伴考虑使用天然气涡轮机作为备用方案。
在最近的一次现场参观中,当被问及为何数据中心的快速建设会引起如此大的关注时,一位承包商回答道:“谁能更快地制造出自己的超级计算机,谁就几乎可以统治世界!”
本文来自微信公众号“腾讯科技”,编译:金鹿。