当前位置:首页 > 热点

ElonMusk用20万个GPU打造Grok3,目标是100万GPU

2025-02-19 18:27 来源:证券之星 阅读量:14240   

如果您希望可以时常见面,欢迎标星收藏哦~

伊隆·马斯克和三位 xAI 高级员工介绍了他的 AI 聊天机器人Grok 3的最新版本,该公司称其为“地球上最聪明的 AI”。在 X上的一个直播视频中,马斯克强调了 Grok 3 是如何迅速超越其前身的:

“我们非常高兴能够推出 Grok 3,它在很短的时间内比 Grok 2 强大了一个数量级,”马斯克说。“我们的团队在过去几个月里一直在努力改进 Grok,以便让所有人都能使用它。”

马斯克与 xAI 首席工程师伊戈尔·巴布施金以及联合创始人吴宇怀 (前谷歌和斯坦福大学研究科学家) 和吉米·巴 (多伦多大学助理教授) 一起吹捧 Grok 3 的解决问题能力,称它可以解决“复杂的物理、高等数学和编码任务,而这些任务通常需要人们花费数小时才能完成”。他补充说,该模型“每天都在不断改进”,马斯克将此归功于 xAI 新的超大型数据中心。

独立基准测试显示,Grok 3 在 AIME、GPQA 和 LCB 等测试中的表现优于 Google Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 和 GPT-4。

与 OpenAI 的o3 mini和DeepSeek R1一样,Grok-3 具有高级推理能力。xAI 代表表示,通过采用最佳的预训练模型,并继续使用强化学习进行训练,该模型将开发出额外的推理能力,从而显著提高训练和测试性能。

推理模型可通过 Grok 应用程序获得,用户可以提示 Grok 3“思考”,或者对于更复杂的查询,激活“大脑”模式,该模式利用额外的计算能力进行更深入的推理。据 xAI 称,这些模型对于解决数学、科学和编程问题特别有效。

该模型击败了 OpenAI o3 mini 、DeepSeek-R1 和 Google Gemini 2 Flash Thinking 模型。不过,一些业内人士认为,这并不是什么突破。

HubSpot 创始人兼首席技术官 Dharmesh Shah指出,它更像是 DeepSeek,但计算能力更强。他表示,他期待着试用该 API,该 API 将在接下来的几周内推出。

与此同时,前 OpenAI 研究员、Eureka Labs 创始人 Andrej Karpathy 曾提前接触过 Grok 3,他对其进行了测试并分享了自己的见解。据他介绍,该模型的功能与 OpenAI 最强大的模型的先进水平相当,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

他进一步补充说,考虑到该团队大约一年前才从零开始,这是一个相当不可思议的壮举。“达到最先进水平的时间表是前所未有的,”Karpathy 在X 上的 一篇文章中说道。

咨询公司 Semianalysis报告称,DeepSeek 可以使用大约 50,000 个 NVIDIA GPU,包括 10,000 个 H800 GPU、10,000 个 H100 GPU 和大量 H20 GPU。如果 DeepSeek 可以扩展到 200,000 个 GPU,那么看看它们能取得什么成就将会很有趣。

能获得这样的成绩,Elon Musk打造的200K GPU超算集群功不可没。

Grok 成功背后的真相

xAI 增加了计算能力,以提高 Grok 3 的性能。该模型分两个阶段开发:最初在 100,000 个 GPU 上进行了 122 天的同步训练,随后在 92 天内扩展到 200,000 个 GPU。

xAI 联合创始人 Igor Babuschkin 表示:“我们花了 122 天的时间才让第一批 100K GPU 投入运行,这是一项艰巨的任务。我们认为这是同类中最大的全连接 H100 集群。但我们并没有止步于此。我们决定将集群规模增加一倍,达到200K 。”

Colossus 与其他超级计算机的不同之处不仅在于其底层计算能力,还在于其量身定制的人工智能基础设施。

从一开始,xAI 就在田纳西州孟菲斯市一家改建的伊莱克斯工厂内建立了自己的数据中心,绰号为“Colossus”。该团队利用临时发电机、Tesla MegaPacks 来缓冲电涌,以及为 100,000 到 200,000 个 GPU 设计的新型液冷装置,迅速增加了电力容量。在此过程中,他们遇到了频繁的调试需求,例如 BIOS 固件不匹配、电缆问题以及宇宙射线偶尔导致的晶体管翻转,但他们还是以创纪录的速度将设施投入使用。

该系统旨在满足人工智能训练的特殊需求——处理大量数据并运行必须并行化的高度先进的算法。

据广泛报道,戴尔科技和超微都与 xAI 合作打造了这台超级计算机。

Nvidia 的 H100 和 H200 GPU 的组合将使 Colossus 在速度和效率方面具有明显优势。这些 GPU 还具有专用的张量核心,有助于加速深度学习算法。

此外,这些 GPU 的内存带宽足够强大,可以有效处理训练最新 AI 模型所需的大数据集。

Colossus 的主要组成部分是 Supermicro 4U 通用 GPU 液冷系统。

每台4U服务器配备八块NVIDIA H100 Tensor Core GPU,为AI训练任务提供强大的算力。

服务器被组织到机架中,每个机架包含八台 4U 服务器,每个机架总共有 64 个 GPU。

每个 4U 服务器之间都有一个用于液体冷却的歧管,占用 1U 的机架空间,每个机架的底座包含一个 4U CDU 泵送系统,提供冗余冷却和管理单元。

这些服务器使用 NVIDIA 的 Spectrum-X 以太网网络平台进行互连,实现了 AI 训练所必需的高带宽、低延迟通信。

每台服务器都配备了多个 400GbE 连接,运行在 800 GBE 电缆上,而不是Nvidia 也支持的用于大规模部署的Infiniband 选项。

在当前架构中,集群中的每个 GPU 都配备一个专用的 400 GB 网络接口卡,另外还有一个专用于服务器的 400 GBE NIC,每个服务器的潜在总带宽为 3.6 TB。

每个阵列有 512 个 GPU,总共有近 200 个阵列。

10 月份,NVIDIA 负责人黄仁勋宣布,最初的 100,000 个 GPU 超级计算机仅用 19 天就搭建完成,而他所说的普通数据中心的正常建设过程则需要四年时间。

Colossus 还采用了所谓的“尖端冷却系统”,确保 GPU 以最稳定、最佳的温度运行,以实现稳定性和性能。

这尤其重要,因为如此大量的快速 GPU 会产生大量热量。

对于这种类型的机架密度,最佳冷却是绝对关键的,并且使 Blackwell 服务器基础设施因过热而导致的潜在延迟变得更容易理解。

由于像 Colossus 这样的客户正等待着立即大量推出下一代设计,因此冷却系统必须从一开始就正常工作。

正如之前报道的那样,许多供应商正在与 Nvidia 合作,专门为 Nvidia GPU 服务器开发冷却系统。

过去几年,创建最有效的人工智能系统的竞争愈演愈烈,谷歌、微软和 OpenAI 大力投资超级计算机和人工智能研究。

通过对 Colossus 的投资,xAI 具有潜在的竞争优势,使其能够快速训练其 AI 模型,并可能比竞争对手更快地取得突破。

大规模模型训练不仅可以缩短构建新 AI 技术所需的时间,还可以帮助 xAI 深入研究由于计算限制而无法实现的全新 AI 研究领域。

通过筹集资金来扩大 Colossus 的规模,xAI 为未来做好了准备。新增的 100,000 个 GPU 将使系统的物理容量几乎翻倍,这将使 xAI 能够应对更大的挑战。

与此同时,Nvidia 声称 GB200 GPU 的性能比现有的 H100 部件更高,这不仅仅意味着性能在数学上有所提升。这可能会对 AI 社区产生深远影响,xAI 的发展为重新定义 AI 技术的应用提供了机会。

Colossus 并非一帆风顺的项目。冷却和为 200,000 个 GPU 供电的成本非常高,尤其是在可持续性成为首要关注点的时代。

此外,马斯克还表示,他预计 Colossus 扩张所需的资金将依赖于主权财富基金,尤其是来自中东的基金。

该计划受到了一些方面的批评,有人认为,外国拥有新的人工智能技术可能会产生地缘政治影响,特别是如果它在研究角色之外被用于实际用途的话。

计划扩展到 100 万个 GPU

据The Information报道,马斯克计划建立一个新的数据中心,以进一步提升 xAI 的 GPU 集群。据彭博社报道,马斯克与戴尔科技达成的一项交易价值可能超过 50 亿美元,将提供包含 Nvidia Blackwell GB200 GPU 的 AI 优化服务器。预计今年交付,以 xAI 的孟菲斯超级计算机项目为基础,该项目已经采用了戴尔和超微服务器的组合。

在同一讨论中,马斯克透露,xAI 的下一个数据中心的耗电量预计将增加大约五倍,从 0.25 千兆瓦增加到约 1.2 千兆瓦。该计划包括未来的 Nvidia Blackwell GB200GPU,表明 xAI 打算继续将其大规模计算基础设施扩展到目前的规模之外。

埃隆·马斯克也不满足于仅有 200,000 个 GPU,他还计划扩展其 位于田纳西州孟菲斯的Colossus 超级计算机,有朝一日能够容纳至少 100 万个 GPU。

这一消息是在大孟菲斯商会主办的午餐会上宣布的,该商会协助建设了 xAI 设施。

“该公司正在为孟菲斯成为全球人工智能中心奠定基础,”该商会表示。“扩建工程已在进行中,将至少包含一百万个图形处理单元 ,这是该地区历史上最大的资本投资。”

商会没有提供时间表,但 xAI 可能会从 Nvidia 购买 GPU,后者今年夏天已经为 Colossus 的第一阶段提供了100,000 块 H100 卡。通常,公司需要数年时间才能建造一台超级计算机,但马斯克的团队在大约四个月内就将 GPU 组装成一台可运行的超级计算机。

该公司已将Colossus扩展到 20 万块 Nvidia H100 和 H200 GPU,目标是到明年夏天达到 30 万块 GPU。这一声明凸显了马斯克为创建尖端 AI 程序以击败包括 OpenAI 在内的竞争对手所付出的努力。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第4040期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。

热门推荐

  • 年度家庭电动车!BYDATTO3首获比利时汽车大奖
    年度家庭电动车!BYDATTO3首获比利

    当地时间12月9日,比利时知名汽车杂志《VAB》宣布比亚迪ATTO3为“比利时2022年家庭电动车”,这也是比亚迪ATTO3进入欧洲市场仅两个月后首次获得欧洲汽车大奖。Byatto3获得比利时“年度家用电动汽车”奖。比利时第三大杂志《VAB...

  • “中国元素”闪耀世界杯卡塔尔亮起“奇瑞红”
    “中国元素”闪耀世界杯卡塔尔亮起“奇瑞红

    2022FIFA世界杯卡塔尔2022锦标赛正在如火如荼的进行中,赛事内外的“中国元素”也成为世界杯的重要组成部分。作为连续19年位居中国品牌乘用车出口第一的“中国名片”,奇瑞集团旗下各品牌也以自己的方式在卡塔尔大放异彩,赢得了全球用户和车迷...

  • 一马当先东风1000km长续航固态电池有望2024年上半年量产
    一马当先东风1000km长续航固态电池有

    随着新能源汽车产业的快速发展,销量连年增长,但安全性、续航里程、动力电池回收等问题仍是行业面临的痛点。近年来,固态电池作为锂离子电池的终极技术路线之一,逐渐成为全球各大车企及相关产业链争夺的焦点。作为国内最早自主研发固态电池领域的车企,经过...

  • 连续六次携手世界杯北京现代用绿茵情结诠释进取和突破
    连续六次携手世界杯北京现代用绿茵情结诠释

    初冬如夏,2022年卡塔尔2022年国际足联世界杯正在阿拉伯半岛如火如荼地进行。来自亚洲的球队昂首上阵,浴血奋战,现场有无数高光时刻:沙特击败梅西领衔的阿根廷,日本击败世界冠军西班牙、德国,韩国击败c罗领衔的葡萄牙...这些辉煌的成绩足以让...

  • 中国品牌乘用车表现亮眼智能化或将是“下半场”竞争关键
    中国品牌乘用车表现亮眼智能化或将是“下半

    目前汽车行业批发增速放缓,市场整体压力明显。中汽协副秘书长陈世华在9日的月度新闻发布会上表示,“11月汽车产销略显疲软,环比、同比均有所下降,下滑趋势明显,整体表现不及预期。”不过,中国品牌乘用车的表现依然亮眼。陈世华表示,“11月份,中国...