OpenAI新AI多模模型GPT-4o提供所有ChatGPT用戶,速度更快,價格減半
· 2024-05-14

OpenAI宣布新一代多模態AI模型GPT-4o,將逐步提供給所有ChatGPT服務用戶,強調GPT-4o對聲音輸入產生回應的速度與人類對話反應時間一樣快

/OpenAI

OpenAI解釋新模型的語音模式效能提升的原因。過去GPT-3.5及GPT-4下的語音模式運作是以三個模型接續運作而成:第一個模型將聲音轉錄成文字,由GPT-3.5或GPT-4產出文字對話內容,再由第三個模型將文字轉回聲音。不但增長延遲性,且因過程中GPT-3.5或GPT-4模型喪失大量資訊,使其無法觀察出聲調、多名說話者、背景噪音,也無法產出笑聲、不會唱歌或表達情緒。但GPT-4o是能具備文字、視覺和聲音理解能力的單一模型,輸出輸入都在同一神經網路中處理而成,使互動能力速度和表現豐富度大增。

OpenAI並提供多段影片展示新模型的能力,包括二個GPT-4o為基礎的聊天機器人扮演手機業者客服中心人員和客戶交談;一個聊天機器人問問題,另一個則描述它「看」到的OpenAI員工影像描述,前者還能根據其描述即興創作歌唱;以及聊天機器人可和OpenAI員工流暢對談,其間還能發出笑聲,或是在人類插嘴打斷時自動停下來。

影片中的聊天機器人聲音自然生動,媒體形容很像Altman最喜歡的電影《雲端情人》(Her)女主角Scarlett Johansson的聲音。

不過,在說明GPT-4o強大能力後,OpenAI強調它的安全性。根據其整備度框架(Preparedness Framework)及人類評估,新模型在網路安全、CBRN(化學、生物、放射及核能)威脅、誘騙(persuasion)能力及模型自主能力都在中度以下。該公司也強調GPT-4o經過外部團隊及70多名外部跨領域專家評估,協助減低可能的社會心理、偏見及假訊息風險。

OpenAI今天起將GPT-4o的文字及圖像輸入、以及文字輸出能力逐步部署到所有ChatGPT,包括免費版,但付費的Plus版,訊息輸入上限為5倍之多。為了因應ChatGPT語音模式(voice mode)可能的語音deepfake風險,聲音輸出僅侷限數種限定的聲音,也說都會遵循現有安全政策。GPT-4o為基礎的語音模式alpha版,未來幾個星期內只會提供給ChatGPT Plus。

針對開發人員,現在可以API存取GPT-4o文字和視覺模型。相較GPT-4 Turbo,新模型速度快2倍,限制頻寬提高5倍,價格僅一半。OpenAI計畫幾周內,會對少數用戶及信任夥伴提供聲音和影片功能。

熱門文章
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
首頁
遊戲
合作
發現
我的