ChatGPT現在能接受語音、圖片輸入提示,還會說話
· 2023-09-26

OpenAI宣布將讓使用者能與ChatGPT交談,輸入提示也會支援圖像上傳,新功能會優先部署給ChatGPT Plus及Enterprise用戶

OpenAI

OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片,而且終於能開口說話。

語音、圖像辨識新功能將在2周內部署給ChatGPT Plus及Enterprise用戶,不過OpenAI表示「很快」也會推向開發人員及免費版用戶。

支援語音互動和圖片辨識讓ChatGPT有更多元應用。用戶可以直接說出想要ChatGPT執行的任務、聽它的答案,再和這個聊天機器人來回對話。像是要求它為家人說一個床邊故事,或是設定晚餐桌上的辯論。加上圖片辨識能力則讓使用場景更為靈活,像是在旅行途中拍下知名建物詢問有趣故事,或是拍攝冰箱照片,讓ChatGPT建議菜單,並在邊做菜時邊向它討教作法。用戶也可以拍攝數學習題上傳ChatGPT,請它分享解題技巧給大人和小孩。

OpenAI表示,最新的語音能力是在新的語音合成(text-to-speech)模型上開發,它能以數秒鐘的語音樣本及文字生成逼真的人聲。目前OpenAI提供5種人聲,每種聲音都是OpenAI和專業聲優合作開發出來。OpenAI並使用開源語音辨識系統Whisper將語音轉錄為文字。

而圖片辨識則是以多模GPT-3.5和GPT-4為底層。這些模型將語言理解能力應用在包含文字和圖片的段落、螢幕擷圖及文件上。最新功能允許用戶上傳多幀圖片,或使用其繪圖工具引導ChatGPT畫一張圖。

OpenAI強調,基於技術風險,該公司選擇逐步釋出這些進階功能,例如語音合成可能給了歹徒詐騙或Deepfake名人的機會,而視覺模型目前仍有對人臉幻覺,以及在重要領域仍仰賴模型解釋圖片的問題。為此,在語音合成上,目前OpenAI僅發展語音對話,但是該公司也在實現其他應用,例如Spotify以OpenAI技術測試podcast的語音翻譯功能。至於圖片辨識,在大規模推廣前,OpenAI已展開模型偏激性及科學能力的測試,以探詢負責任的用途。

新的視覺辨識功能提供給所有平臺,包括Windows及行動版App。語音輸入功能則只部署到iOS和Android版。要使用圖片辨識功能,需以App上的相片鍵拍攝或選擇圖片。iOS或Android手機版App上則需要先按「+」號。語音輸入功能方面,需用戶從App的「設定」區>「新功能」下加入(opt-in)啟動語音對話。之後使用者可按下ChatGPT主頁右上方的耳機按鍵,選擇喜歡的聲音完成設定。

热门文章
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
BETFAIR 网络攻击80万用户资料泄露
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
首页
游戏
合作
发现
我的