ChatGPT現在能接受語音、圖片輸入提示，還會說話-灰度官网

ChatGPT現在能接受語音、圖片輸入提示，還會說話

· 2023-09-26

OpenAI宣布將讓使用者能與ChatGPT交談，輸入提示也會支援圖像上傳，新功能會優先部署給ChatGPT Plus及Enterprise用戶

OpenAI

OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片，而且終於能開口說話。

語音、圖像辨識新功能將在2周內部署給ChatGPT Plus及Enterprise用戶，不過OpenAI表示「很快」也會推向開發人員及免費版用戶。

支援語音互動和圖片辨識讓ChatGPT有更多元應用。用戶可以直接說出想要ChatGPT執行的任務、聽它的答案，再和這個聊天機器人來回對話。像是要求它為家人說一個床邊故事，或是設定晚餐桌上的辯論。加上圖片辨識能力則讓使用場景更為靈活，像是在旅行途中拍下知名建物詢問有趣故事，或是拍攝冰箱照片，讓ChatGPT建議菜單，並在邊做菜時邊向它討教作法。用戶也可以拍攝數學習題上傳ChatGPT，請它分享解題技巧給大人和小孩。

OpenAI表示，最新的語音能力是在新的語音合成（text-to-speech）模型上開發，它能以數秒鐘的語音樣本及文字生成逼真的人聲。目前OpenAI提供5種人聲，每種聲音都是OpenAI和專業聲優合作開發出來。OpenAI並使用開源語音辨識系統Whisper將語音轉錄為文字。

而圖片辨識則是以多模GPT-3.5和GPT-4為底層。這些模型將語言理解能力應用在包含文字和圖片的段落、螢幕擷圖及文件上。最新功能允許用戶上傳多幀圖片，或使用其繪圖工具引導ChatGPT畫一張圖。

OpenAI強調，基於技術風險，該公司選擇逐步釋出這些進階功能，例如語音合成可能給了歹徒詐騙或Deepfake名人的機會，而視覺模型目前仍有對人臉幻覺，以及在重要領域仍仰賴模型解釋圖片的問題。為此，在語音合成上，目前OpenAI僅發展語音對話，但是該公司也在實現其他應用，例如Spotify以OpenAI技術測試podcast的語音翻譯功能。至於圖片辨識，在大規模推廣前，OpenAI已展開模型偏激性及科學能力的測試，以探詢負責任的用途。

新的視覺辨識功能提供給所有平臺，包括Windows及行動版App。語音輸入功能則只部署到iOS和Android版。要使用圖片辨識功能，需以App上的相片鍵拍攝或選擇圖片。iOS或Android手機版App上則需要先按「+」號。語音輸入功能方面，需用戶從App的「設定」區>「新功能」下加入（opt-in）啟動語音對話。之後使用者可按下ChatGPT主頁右上方的耳機按鍵，選擇喜歡的聲音完成設定。

热门文章

巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域

游戏风向