ChatGPT現在能接受語音、圖片輸入提示,還會說話
· 2023-09-26

OpenAI宣布將讓使用者能與ChatGPT交談,輸入提示也會支援圖像上傳,新功能會優先部署給ChatGPT Plus及Enterprise用戶

OpenAI

OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片,而且終於能開口說話。

語音、圖像辨識新功能將在2周內部署給ChatGPT Plus及Enterprise用戶,不過OpenAI表示「很快」也會推向開發人員及免費版用戶。

支援語音互動和圖片辨識讓ChatGPT有更多元應用。用戶可以直接說出想要ChatGPT執行的任務、聽它的答案,再和這個聊天機器人來回對話。像是要求它為家人說一個床邊故事,或是設定晚餐桌上的辯論。加上圖片辨識能力則讓使用場景更為靈活,像是在旅行途中拍下知名建物詢問有趣故事,或是拍攝冰箱照片,讓ChatGPT建議菜單,並在邊做菜時邊向它討教作法。用戶也可以拍攝數學習題上傳ChatGPT,請它分享解題技巧給大人和小孩。

OpenAI表示,最新的語音能力是在新的語音合成(text-to-speech)模型上開發,它能以數秒鐘的語音樣本及文字生成逼真的人聲。目前OpenAI提供5種人聲,每種聲音都是OpenAI和專業聲優合作開發出來。OpenAI並使用開源語音辨識系統Whisper將語音轉錄為文字。

而圖片辨識則是以多模GPT-3.5和GPT-4為底層。這些模型將語言理解能力應用在包含文字和圖片的段落、螢幕擷圖及文件上。最新功能允許用戶上傳多幀圖片,或使用其繪圖工具引導ChatGPT畫一張圖。

OpenAI強調,基於技術風險,該公司選擇逐步釋出這些進階功能,例如語音合成可能給了歹徒詐騙或Deepfake名人的機會,而視覺模型目前仍有對人臉幻覺,以及在重要領域仍仰賴模型解釋圖片的問題。為此,在語音合成上,目前OpenAI僅發展語音對話,但是該公司也在實現其他應用,例如Spotify以OpenAI技術測試podcast的語音翻譯功能。至於圖片辨識,在大規模推廣前,OpenAI已展開模型偏激性及科學能力的測試,以探詢負責任的用途。

新的視覺辨識功能提供給所有平臺,包括Windows及行動版App。語音輸入功能則只部署到iOS和Android版。要使用圖片辨識功能,需以App上的相片鍵拍攝或選擇圖片。iOS或Android手機版App上則需要先按「+」號。語音輸入功能方面,需用戶從App的「設定」區>「新功能」下加入(opt-in)啟動語音對話。之後使用者可按下ChatGPT主頁右上方的耳機按鍵,選擇喜歡的聲音完成設定。

熱門文章
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
首頁
遊戲
合作
發現
我的