Blackwell Ultra 架构延续前代基础,提供 1.5 倍 NVFP4 AI 运算效能与 2 倍 attention-layer 加速,每颗 GPU 可搭载最高 288GB HBM3e 记忆体。NVIDIA 在 MLPerf Inference v5.1 全数据中心基准上均创新高,包括 DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B 与 Whisper,同时保持每颗 GPU 的领先效能。
这次成绩的关键在于全端共同设计。Blackwell 与 Blackwell Ultra 导入 NVFP4 资料格式硬体加速,NVFP4 是 NVIDIA 设计的 4 位元浮点格式,具备更佳准确度。TensorRT Model Optimizer 将多种大型语言模型量化为 NVFP4,结合 TensorRT-LLM 程式库,使效能与准确度兼得。
推论由「情境」与「生成」两种工作负载构成。NVIDIA 采用「分离式服务(disaggregated serving)」将两者拆分独立最佳化,在 Llama 3.1 405B Interactive 基准上表现尤佳,GB200 NVL72 系统的每颗 GPU 效能较传统 DGX B200 架构提升近 50%。本轮测试亦首次采用 NVIDIA Dynamo 推论框架提交成绩。
Azure、Broadcom、Cisco、CoreWeave、Dell、技钢科技、HPE、Lambda、Lenovo、Nebius、Oracle、云达科技、Supermicro 与 University of Florida 等合作伙伴,也提交了基于 Blackwell 与 Hopper 平台的优异表现。领先的推论效能已透过主要云端服务供应商与伺服器制造商提供,让企业在部署进阶 AI 应用时能同时享有更低的 TCO 与更高的投资报酬。
