OpenAI擴大測試語音合成AI模型，用15秒樣本即可模擬真人聲音-灰度官网

OpenAI擴大測試語音合成AI模型，用15秒樣本即可模擬真人聲音

· 2024-04-01

OpenAI正式公布支持該公司語音合成API的Voice Engine模型，強調只要輸入15秒的聲音範例，就能生成和說話者極相似的自然語音

OpenAI

OpenAI上周公布語音生成AI模型Voice Engine初步成果，號稱只要上傳15秒的人聲樣本，及輸入文字稿，就能產生極似原說話者聲音的自然語音。

OpenAI於2022年開始開發Voice Engine模型。這個模型已用於其OpenAI的語音合成（TTS）API及ChatGPT去年秋天上線的Voice及Read Aloud功能。但OpenAI並未大加宣傳，僅低調表示Spotify使用該模型支援語音翻譯功能。

OpenAI強調，Voice Engine模型為一個小模型，但只要提供它15秒的聲音範例，它就能生成和說話者極相似的流暢話語。

去年OpenAI也讓一些非營利組織、醫療、教學單位使用Voice Engine試用並建立使用場景。上周OpenAI也公布部分應用場景。包括一家教學軟體公司以AI語音生成技術製成學童的有聲教材，另一家說故事平臺用它將一段文本翻譯成多國語言，且保留道地腔調。一個非洲非營利組織以Voice Engine製作AI互動工具教授當地婦女哺乳知識，一家語音通訊App開發商開發出可協助語言障礙人士溝通的說話App。此外，這個AI模型還能為因病說話不清的使用者重建其聲音。

為了防止這類功能被濫用，測試單位必須遵循OpenAI的使用政策，不得未經同意或違法模仿個人或組織的聲音，也要求原說話者需被告知且提供明顯同意。他們也不允許開發人員讓個人用戶建立模仿自己的AI人聲。合作夥伴也須清楚告知受眾，這些聲音是AI生成的。最後，OpenAI也會實作安全措施，包括為這些聲音加入浮水印以便能判別並追蹤Voice Engine生成的聲音、或監控其使用。

藉由擴大測試Voice Engine，OpenAI除了希望帶動AI語音應用開發，提升大眾對AI語音詐騙的警覺心、推進安全政策外，也鼓勵銀行等組織淘汰以語音為基礎的身分驗證方式。

OpenAI這項新技術可能會讓另一些工作者，如配音員擔心失業。今年2月OpenAI公開的影片生成AI模型Sora生成極高品質、具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片，已震撼影像工作者。

在OpenAI之前，其他大廠也公布了類似的AI研發成果。微軟去年9月開源超強語音合成模型VALL-E X，只要輸入3到10秒個人講話的錄音，模型就能逼真合成該聲音，用另一個語言說話。

Amazon 2月宣布該公司歷來最大、高達10億參數的語音合成（text-to-speech，TTS）模型BASE TTS，號稱生成的語音自然度超過現有語音合成系統。

熱門文章

巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域

合規與政策