OpenAI擴大測試語音合成AI模型,用15秒樣本即可模擬真人聲音
· 2024-04-01

OpenAI正式公布支持該公司語音合成API的Voice Engine模型,強調只要輸入15秒的聲音範例,就能生成和說話者極相似的自然語音

OpenAI

OpenAI上周公布語音生成AI模型Voice Engine初步成果,號稱只要上傳15秒的人聲樣本,及輸入文字稿,就能產生極似原說話者聲音的自然語音。

OpenAI於2022年開始開發Voice Engine模型。這個模型已用於其OpenAI的語音合成(TTS)API及ChatGPT去年秋天上線的Voice及Read Aloud功能。但OpenAI並未大加宣傳,僅低調表示Spotify使用該模型支援語音翻譯功能。

OpenAI強調,Voice Engine模型為一個小模型,但只要提供它15秒的聲音範例,它就能生成和說話者極相似的流暢話語。

去年OpenAI也讓一些非營利組織、醫療、教學單位使用Voice Engine試用並建立使用場景。上周OpenAI也公布部分應用場景。包括一家教學軟體公司以AI語音生成技術製成學童的有聲教材,另一家說故事平臺用它將一段文本翻譯成多國語言,且保留道地腔調。一個非洲非營利組織以Voice Engine製作AI互動工具教授當地婦女哺乳知識,一家語音通訊App開發商開發出可協助語言障礙人士溝通的說話App。此外,這個AI模型還能為因病說話不清的使用者重建其聲音。

為了防止這類功能被濫用,測試單位必須遵循OpenAI的使用政策,不得未經同意或違法模仿個人或組織的聲音,也要求原說話者需被告知且提供明顯同意。他們也不允許開發人員讓個人用戶建立模仿自己的AI人聲。合作夥伴也須清楚告知受眾,這些聲音是AI生成的。最後,OpenAI也會實作安全措施,包括為這些聲音加入浮水印以便能判別並追蹤Voice Engine生成的聲音、或監控其使用。

藉由擴大測試Voice Engine,OpenAI除了希望帶動AI語音應用開發,提升大眾對AI語音詐騙的警覺心、推進安全政策外,也鼓勵銀行等組織淘汰以語音為基礎的身分驗證方式。

OpenAI這項新技術可能會讓另一些工作者,如配音員擔心失業。今年2月OpenAI公開的影片生成AI模型Sora生成極高品質、具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片,已震撼影像工作者。

在OpenAI之前,其他大廠也公布了類似的AI研發成果。微軟去年9月開源超強語音合成模型VALL-E X,只要輸入3到10秒個人講話的錄音,模型就能逼真合成該聲音,用另一個語言說話。

Amazon 2月宣布該公司歷來最大、高達10億參數的語音合成(text-to-speech,TTS)模型BASE TTS,號稱生成的語音自然度超過現有語音合成系統。

热门文章
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
BETFAIR 网络攻击80万用户资料泄露
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
首页
游戏
合作
发现
我的