Hugging Face推出依用量计价的Nvidia NIM推论即服务-灰度官网

Hugging Face推出依用量计价的Nvidia NIM推论即服务

支付動態 · 2024-07-30

Hugging Face企业平台推出云端推论即服务（inference-as-a-service），以Nvidia DGX Cloud以及容器化推论微服务NIM为技术内核

Hugging Face

AI开发资源平台Hugging Face昨（29）日宣布使用Nvidia NIM技术的云端推论即服务（inference-as-a-service）上线，支持企业生成式AI应用。

这项名为Hugging Face Inference-as-a-Service powered by NVIDIA NIM的服务，是以Nvidia NIM为底层内核，现在已加入Hugging Face Enterprise Hub服务。这新服务让企业用户可以无服务器方式，在Hugging Face Hub中，通过API和写几行代码使用最新Meta Llama和Mistral模型运行推论。Inference-as-service也可搭配Hugging Face的AI训练服务Train on DGX Cloud使用。

NIM是Nvidia于今年3月公布的容器化推论微服务，它内含预建的容器、预训练的AI模型、标准API、Nvidia的软件与推论引擎等，目的是让企业在容器中运行模型推论，且可将其部署到想要的环境，包括云端、数据中心或工作站上。NIM的设计是结合Nvidia GPU加速的基础架构，来加快模型部署和推论，支持企业开发的助理服务（copilot）、聊天机器人等生成式AI应用程序。今年6月Nvidia提供40多个NIM微服务，供企业试用包括Meta Llama 3、Microsoft Phi-3、Mistral Large、Google Gemma等开源模型，而在Hugging Face上，也已可试用支持Meta Llama 3的NIM服务。

Hugging Face Inference-as-a-Service则是双方合作的最新结果，为运行在DGX Cloud的NIM服务，全部使用Nvidia H100 Tensor Core GPU。这服务采用依使用量计价（pay-as-you-go），提供API供企业用户使用生成式AI模型进行推论，Hugging Face强调灵活计价模型使其适合各种规模的企业。模型方面则支持Llama及Mistral AI主要模型，包括Llama 3、3.1版8B、70B，以及Mistral 7B和Mixtral-8x22B模型。

Hugging Face Inference-as-a-Service已成为Hugging Face企业平台Enterprise Hub的最新服务。费用依企业使用的模型而定。例如使用Llama-3-8B-Instruct时，一般回应时间（输入500 token、输出100 token）下费用为1秒0.0023美元。若使用Meta-Llama-3-70B-Instruct，费用为2秒0.0184美元。

热门文章

超级PAC筹资4800万美元：体育博彩势力加码

游戏风向