AI 推论效能能否提升,关键在于如何将复杂模型拆分成不同运算阶段。以大型模型的推论流程而言,大致可分为负责处理输入的预填(prefill),以及产生最终输出的解码(decode)两个阶段。

传统做法将两个阶段绑在同一组 GPU 上,往往导致效能受限,难以发挥硬体最大效益。NVIDIA 近年提出的「解构式服务」(disaggregated serving)则改变了这种分配方式,将不同的运算需求分派到最合适的 GPU 上,不仅提升效率,也让模型得以扩展至更大规模。

Signal65 首席分析师 Russ Fellows 于技术报告中指出,这种架构搭配 72 颗 NVIDIA Blackwell Ultra GPU,首次创下每秒 110 万个词元(token)的聚合输送量纪录,证明解构式推论在大规模模型下的效能优势。

NVIDIA 表示,Dynamo 的核心价值在于把这些原本只存在于实验与基准测试环境的能力,真正扩展到 GPU 丛集规模,并让企业能轻松部署到云端服务上。这项技术已在商业应用中展现显著成效,例如云端 AI 服务供应商 Baseten 便透过 Dynamo 提升长脉络程式码生成的推论服务效率,在完全不增加额外硬体的前提下,推论速度提升两倍,输送量也提高至 1.6 倍,使 AI 服务成本大幅下降。

多节点推论之所以重要,除了模型规模扩大,还因云端部署正走向更高的弹性与分散式架构。NVIDIA 已将 Dynamo 整合进所有主要云端业者的托管式 Kubernetes 服务,使企业能在主流云端平台上,直接把解构式推论扩展到数十甚至数百个节点。

Amazon Web Services(AWS)透过 Amazon EKS 搭配 Dynamo 加速生成式 AI 推论;Google Cloud 则在 AI Hypercomputer 架构上推出 Dynamo 配方,协助企业最佳化大型语言模型效能;Microsoft Azure 已采用 Azure Kubernetes Service 搭配 Dynamo 与 ND GB200-v6 GPU 推动多节点推论;Oracle Cloud Infrastructure(OCI)也整合 OCI Superclusters 与 Dynamo,让大型语言模型推论扩展更为顺畅。

除了成熟的超大型 CSP,新兴云端业者 Nebius 也以 NVIDIA 加速运算基础建设打造平台,并采用 Dynamo 支撑其推论服务。

在多节点推论中,真正的难题并非单纯扩大节点数,而是如何在 Kubernetes 上协调预填、解码、路由等多个功能模组,使其既能保持效能又不互相阻碍。NVIDIA 推出的 Grove API,已与 Dynamo 深度整合,可让使用者以单一高层级规格描述整个推论架构。

企业只需宣告所需节点数与部署要求,例如预填需要三个 GPU 节点、解码需要六个 GPU 节点,且各节点需部署于同一高速互连网路之下,Grove 即会自动完成协调、配置、启动顺序与比例维持等复杂工作,使推论系统像是一个整合良好的大型应用,而非多个零碎模组的组合。

NVIDIA 指出,随著 AI 推论走向更大规模的分散式运算,企业对效能、可靠性与扩展性的要求将更高。Dynamo 与 Grove 的出现,使企业能以更少的成本、更高的效率部署大型 AI 应用,而不必暴增硬体投资。NVIDIA 也提供 AI-at-scale 模拟工具,让企业能在部署前即预估不同硬体与丛集配置对效能的影响,找出最佳推论策略。

随著模型体量不断上升、长脉络推论需求快速增加,NVIDIA 认为企业级 AI 推论将全面迈向丛集化与多节点化,而 Dynamo 结合 Grove 与 Kubernetes,将成为推动下一阶段 AI 工程效能革命的核心基础。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
美政府重启有利债券布局!国泰00933B配息0.072元 明最后买进日