

Cerebras強調自家AI推論解決方案執行Llama 3.1模型的效能,比基於Nvidia GPU的大型雲端解決方案快上20倍,但價格只需1/5

目前Cerebras已被視為少數能與Nvidia匹敵的競爭對手,並已計畫於今年下半年首次公開發行股票。
剛上線的Cerebras Inference有免費版、開發者版及企業版,目前其免費版很慷慨地提供了每日10萬次的免費推論;開發者版在Llama 3.1 8B與Llama 3.1 70B模型上每生成100萬個Token的價格分別是0.1美元與0.6美元;而提供微調、客製化服務及專門支援的企業版則可直接聯繫Cerebras以議價。
Cerebras還比較了Cerebras Inference以及各大主要AI雲端服務在基於Llama 3.1 8B模型的性能表現,發現它以每秒生成1,800個Token的速度,遠遠領先Groq的750個、Fireworks AI的257個、together.ai的225個、perplexity的165個、OctoAI的164個、AWS的93個,以及Azure的79個。

提供獨立AI基準測試的Artificial Analysis執行長Micah Hill-Smith指出,Cerebras在AI推論基準測試上領先群倫,它與GPU解決方案根本是不同等級,此外,Cerebras Inference上的Llama 3.1 8B/70B達到與Meta官方一樣的16bit精度成果,對於有即時及高容量要求的AI應用開發者而言特別有吸引力。
此外,推論是AI運算中成長最快的領域,約占整體AI硬體市場的70%。Cerebras形容,每秒可生成上千Token的高速推論,堪比寬頻網路的問世,預告了AI應用的新時代,讓開發人員能夠建置需要複雜、多步驟並即時執行任務的新一代AI應用。/Cerebras Systems