OpenAI擴大測試語音合成AI模型,用15秒樣本即可模擬真人聲音
· 2024-04-01

OpenAI正式公布支持該公司語音合成API的Voice Engine模型,強調只要輸入15秒的聲音範例,就能生成和說話者極相似的自然語音

OpenAI

OpenAI上周公布語音生成AI模型Voice Engine初步成果,號稱只要上傳15秒的人聲樣本,及輸入文字稿,就能產生極似原說話者聲音的自然語音。

OpenAI於2022年開始開發Voice Engine模型。這個模型已用於其OpenAI的語音合成(TTS)API及ChatGPT去年秋天上線的Voice及Read Aloud功能。但OpenAI並未大加宣傳,僅低調表示Spotify使用該模型支援語音翻譯功能。

OpenAI強調,Voice Engine模型為一個小模型,但只要提供它15秒的聲音範例,它就能生成和說話者極相似的流暢話語。

去年OpenAI也讓一些非營利組織、醫療、教學單位使用Voice Engine試用並建立使用場景。上周OpenAI也公布部分應用場景。包括一家教學軟體公司以AI語音生成技術製成學童的有聲教材,另一家說故事平臺用它將一段文本翻譯成多國語言,且保留道地腔調。一個非洲非營利組織以Voice Engine製作AI互動工具教授當地婦女哺乳知識,一家語音通訊App開發商開發出可協助語言障礙人士溝通的說話App。此外,這個AI模型還能為因病說話不清的使用者重建其聲音。

為了防止這類功能被濫用,測試單位必須遵循OpenAI的使用政策,不得未經同意或違法模仿個人或組織的聲音,也要求原說話者需被告知且提供明顯同意。他們也不允許開發人員讓個人用戶建立模仿自己的AI人聲。合作夥伴也須清楚告知受眾,這些聲音是AI生成的。最後,OpenAI也會實作安全措施,包括為這些聲音加入浮水印以便能判別並追蹤Voice Engine生成的聲音、或監控其使用。

藉由擴大測試Voice Engine,OpenAI除了希望帶動AI語音應用開發,提升大眾對AI語音詐騙的警覺心、推進安全政策外,也鼓勵銀行等組織淘汰以語音為基礎的身分驗證方式。

OpenAI這項新技術可能會讓另一些工作者,如配音員擔心失業。今年2月OpenAI公開的影片生成AI模型Sora生成極高品質、具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片,已震撼影像工作者。

在OpenAI之前,其他大廠也公布了類似的AI研發成果。微軟去年9月開源超強語音合成模型VALL-E X,只要輸入3到10秒個人講話的錄音,模型就能逼真合成該聲音,用另一個語言說話。

Amazon 2月宣布該公司歷來最大、高達10億參數的語音合成(text-to-speech,TTS)模型BASE TTS,號稱生成的語音自然度超過現有語音合成系統。

熱門文章
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
首頁
遊戲
合作
發現
我的