

就如外界預期,Google 盡全力推出的 Gemini 是「原生」多模態 AI 模型,可以同時無縫理解、操作包括文字、程式碼、聲音、圖片、影片等多元形式的內容。
原本 Google 傳出會延期到明年才發表的全新大型語言模型「Gemini」如期在 12 月初面世!
就如外界預期,Google 嘔心瀝血推出的 Gemini 是「原生」多模態 AI 模型,可以同時無縫理解、操作包括文字、程式碼、聲音、圖片、影片等多元形式的內容,像是理解圖片方面,Google 宣稱 Gemini Ultra 可以直接跳過從圖片中使用 OCR 理解文字的步驟,就能直接圖片內容。
理解能力到底有強?Google 就用了一個圖中很簡單的例子, 拿了兩張非常簡單的手繪汽車圖問 Gemini 哪台比較快,Gemini 回「右邊比較快,因為它比較符合空氣力學」。
Google 強調,Gemini 最大型的版本 Gemini Ultra 在 32 項 AI 測試中,有 30 項的評分超越了 OpenAI 的 GPT-4V,同時也是在所謂 MMLU(大規模多任務語言理解,包括數學、物理、歷史、法律、醫學和倫理學等 57 項科目)測試中,第一個達到 90% 水準並超越人類專家的大型自然語言模型。
Google 也表示 Gemini 可以理解、產生 Python、Java、C++ 和 Go 等廣受使用的程式語言,同時 Google 也使用 Gemini 推出新一代的 AI 生成程式碼系統 AlphaCode 2,解決問題數量幾乎是一代的兩倍。
為了滿足從資料中心等級到行動裝置等不同使用環境需求,Gemini 一共推出 Ultra、Pro、Nano 大中小三個版本。最大型的 Ultra 正在進行一系列的安全性測試,將會釋出少量試用版給企業客戶與開發者,估計明年推出正式版。
Pro 則是即日起就提供給英文版的聊天機器人 Bard 使用,另外將會在 12 月 13 日在 Google Cloud 的 Vertex AI、AI Studio 上提供 API 供人使用;最小的 Nano 則是準備直接給 Pixel 8 Pro 使用。
Bard 接下來在 170 多個國家和地區提供英語版本,將逐漸擴展給不同地區以及支援不同語系,並且預告還會有使用 Ultra 的 Bard Advanced。同時像是 Google 廣告、Chrome 和 Duet AI 等產品也會陸續引入 Gemini。而最重要的本家產品搜尋引擎則是已經開跑,導入搜尋生成體驗(SGE)延遲少了 40%。
Google 說明 Gemini 使用自家所設計晶片 TPU v4 和 v5e 訓練,且反過來 Gemini 在 TPU 上也比之前的 AI 模型表現更佳;Google 也同時發表了新的晶片 TPU v5p 供雲端使用。
:Sisley
快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!