全球五大巨头GPU总量曝光!2025年等效H100或超1240万块

2024-12-04 04:49:09 577阅读

编者按:本文来自微信公众号 新智元,作者:新智元,创业邦经授权转载。

今年,马斯克用全球最大AI超算Colossus轰动了整个世界。

这台超算配备了10万张英伟达H100/H200显卡,并预计未来即将扩展到20万张。

自此,AI巨头们倍感压力,数据中心大战火上浇油。巨头们纷纷酝酿着各自的建造计划。

最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计,并展望了芯片的未来。

全球五大巨头GPU总量曝光!2025年等效H100或超1240万块

Semianalysis在2023年底一篇报道中指出,谷歌是唯一一家拥有出色自研芯片的公司。

谷歌在低成本、高性能且可靠的大规模AI部署方面的能力几乎无人能及,是全球算力最丰富的企业。

而且,谷歌在基础设施上的投入,只会越来越多。2024年第三季度财报估计,AI支出为130亿美元,「大部分」用在搭建技术基础设施,其中其中60%是服务器(GPU/TPU)。

大部分或许意味着70-110亿美元,其中在TPU/GPU服务器上预估耗资45-70亿美元。

按照TPU对GPU支出2:1的估算,并保守假设TPU的每美元性能与微软的GPU支出相当,预计到2024年底谷歌将拥有相当于100万到150万块等效H100算力。

相比之下,亚马逊内部AI工作负载规模很可能小得多。

他们持有相当数量的英伟达芯片,主要是为了满足通过其云平台提供的外部GPU需求,尤其是为Anthropic提供算力需求。

毕竟,亚马逊和微软一样,都是金主爸爸,负责为OpenAI劲敌提供充足算力。

另一方面,亚马逊虽也有自研的Trainium和Inferentia芯片,但他们在这方面的起步比谷歌的TPU晚得多。

这些芯片似乎远落后于业界最先进水平,他们甚至提供高达1.1亿美元的免费额度来吸引用户尝试,这表明目前的市场接受度并不理想。

不过,今年年中,亚马逊定制芯片似乎出现了的转机。

在2024年第三季度财报电话会议上,CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,我们已多次与制造合作伙伴协商,大幅提高原定的生产计划。

Semianalysis报道指出,「根据我们已知数据,微软和谷歌于2024年在AI基础设施上的投资计划,大幅领先亚马逊部署的算力」。

这些芯片换算成等效H100并不明确,关于Trainium/Trainium2芯片的具体数量也难以获得,仅知道在上述免费额度计划中提供了4万块。

xAI

今年,xAI在基础设施搭建中,最为标志性事件便是——122天建成了10万块H100组成的世界最大超算。

而且,这一规模还在不断扩展中。马斯克预告了未来将扩展到20万块由H100/H200组成的超算。

据称,xAI超算目前似乎在站点供电方面遇到了一些问题。

2025年Blackwell芯片预测

最新2024 AI现状报告对Blackwell采购量进行了估算:

大型云计算公司正在大规模采购GB200系统:微软介于70万到140万块之间,谷歌40万块,AWS 36万块。据传OpenAI独自拥有至少40万块GB200。

如果将微软GB200预估值设为100万块,那么谷歌、AWS这些数字与它们在英伟达采购中,相对于微软的比例是相符的。

这也使得微软占英伟达总收入的12%,与2024年其在英伟达收入份额的小幅下降趋势一致。

该报告虽然没有给出Meta的具体估计数字,但Meta预计明年人工智能相关基础设施支出将显著加速,这表明其在英伟达支出中将继续保持高份额。

lesswrong预计在2025年,Meta的支出规模将维持在微软支出的约80%水平。

虽然没有提及xAI,但马斯克宣称,将在2025年夏天部署一个有30万块Blackwell芯片的运算集群。

虑到马斯克一贯的夸张风格,更为合理的一个估计是,到2025年底他们可能实际拥有20万—40万块芯片。

那么,一块B200相当于多少块H100?这个问题对于评估算力增长至关重要。

就训练而言,性能预计飙升(截至2024年11月)2.2倍。英伟达发布当天,给出的数据称,两个B200组成的GB200,其性能是H100的7倍,训练速度是H100的4倍。

对于谷歌,假设英伟达芯片继续占其总边际计算能力的三分之一。对于亚马逊,这一比例假定为75%。

值得注意的是,仍有大量H100和GB200芯片未被计入上述统计中。

有些是未达到英伟达收入报告阈值的机构,还有些是像甲骨文这样的云服务提供商和其他中小型云服务提供商可能持有相当数量的芯片。

此外,也包括一些英伟达重要的非美国客户。

在全面了解各家手握多少GPU/TPU算力之后,下一个问题是,这些算力将用在哪?

巨头们训练模型用了多少算力?

以上都讨论的是关于各个AI巨头总计算能力的推测,但许多人可能更关心最新前沿模型的训练使用了多少计算资源。

以下将讨论OpenAI、谷歌、Anthropic、Meta和xAI的情况。

但由于这些公司要么是非上市企业,要么规模巨大无需披露具体成本明细(比如谷歌,AI训练成本目前只是其庞大业务的一小部分),因此以下分析带有一定的推测性。

OpenAI和Anthropic

2024年OpenAI的训练成本预计达30亿美元,推理成本为40亿美元。

据称,微软向OpenAI提供了40万块GB200 GPU,用于支持其训练。这超越了AWS整体的GB200容量,使OpenAI的训练能力远超Anthropic。

另一方面,Anthropic 2024年预计亏损约20亿美元,而收入仅为几亿美元。

考虑到Anthropic的收入主要来自API服务且应该带来正毛利,且推理成本应该相对较低,这意味着20亿美元中,大部分都用于模型训练。

保守估计其训练成本为15亿美元,这大约是OpenAI的一半,但并不妨碍其在前沿模型上的竞争力。

这种差异也是可以理解的。Anthropic的主要云提供商是资源相对有限的AWS,AWS的资源通常少于为OpenAI提供算力支持的微软。这可能限制了Anthropic的能力。

谷歌和Meta

谷歌的Gemini Ultra 1.0模型使用了约为GPT-4的2.5倍的计算资源,发布时间却晚了9个月。其所用的计算资源比Meta的最新Llama模型高25%。

尽管谷歌可能拥有比其他公司更多的计算能力,但作为云服务巨头,它面临着更多样的算力需求。与专注于模型训练的Anthropic或OpenAI不同,谷歌和Meta都需要支持大量其他内部工作负载,如社交媒体产品的推荐算法等。

Llama 3所用计算资源比Gemini少,且发布时间晚8个月,这表明Meta分配给前沿模型的资源相较OpenAI和谷歌更少。

xAI

据报道,xAI使用了2万块H100训练Grok 2,并计划用10万块H100训练Grok 3。

作为参考,GPT-4据称使用2.5万块A100进行了90-100天的训练。

考虑到H100的性能约为A100的2.25倍,Grok 2的训练计算量约为GPT-4的两倍,而Grok 3则预计达到其5倍,处于计算资源利用的前沿水平。

此外,xAI并非完全依赖于自有芯片资源,部分资源来源于租赁——据估算,他们从Oracle云平台租用了1.6万块H100。

如果xAI分配给训练的计算资源比例接近OpenAI或Anthropic,推测其训练规模可能与Anthropic相当,但低于OpenAI和谷歌的水平。

参考资料:

https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

文章版权声明:除非注明,否则均为mk体育-在线官网直播平台原创文章,转载或复制请以超链接形式并注明出处。

目录[+]