Nvidia公布Blackwell平台AI推论Llama 2运行性能，为前代GPU 4倍-灰度官网

Nvidia公布Blackwell平台AI推论Llama 2运行性能，为前代GPU 4倍

支付動態 · 2024-08-29

Nvidia公布下一代GPU架构Blackwell的运行性能，宣称运行Llama 2模型的性能是前代产品的4倍

Nvidia

Nvidia昨（28）日公布财报，并公布下一代GPU架构Blackwell的运行性能，宣称运行Llama 2的性能是前代产品的4倍。

Nvidia希望趁财报，为其预计第4季上市的Blackwell平台芯片包括B100、B200暖场，但报导指出，新芯片因设瑕疵，推出时程可能会延迟到2025年第2季。

Nvidia宣称，在最新的MLPerf Inference 4.1标竿测试中，Nvidia平台做过所有数据中心的测试，其中Blackwell平台产品运行MLPerf最大的LLM工作负载Llama 2 70B的测试性能，比前一代Nvidia H100 Tensor Core GPU快高达4倍，这要拜第二代Transformer人工智能引擎和FP4精度的Tensor Core内核所赐。

最新的MLPerf标竿测试加入新的测试项目。其中包含专家混合（Mixture of Experts，MoE）模型，特别是Mixtral 8x7B模型。MoE模型之所以大行其道，是因为可支持多种任务、回答多种问题的企业开发需求，而且由于每次推论只需启动几个专家（而非整个模型），性能也更高。另一方面，LLM的推论应用持续增长，也推升对运算的需求，使多GPU（multi-GPU）运算成为必要。

有鉴于此，Nvidia指出，前代Hopper架构为基础的Nvidia NVLink互连技术和NV Switch芯片已经支持大型模型的即时推论。而新一代的Blackwell平台将进一步以72颗GPU及更大的NVLink网域扩展NV Switch芯片的能力。

除了新Blackwell架构，Nvidia并宣称其H200 GPU搭载推论软件Triton Inference Server在最近一次MLPerf测试表现，比前一次提升27%。而在边缘运算平台上，NVIDIA Jetson AGX Orin SOM（system-on-modules）在运行GPT-J LLM模型的测试中，传输量提升6.2倍，而延迟性则改善2.4倍。Nvidia表示，这性能表现让Jetson平台很适合于本地运行LLM、视觉transformer模型及Stable Diffusion模型等任务。

热门文章

哈萨克斯坦计划对在线赌场促销活动进行处罚

游戏风向