Nvidia公佈可生成混合音樂、人聲音效的AI模型Fugatto
支付動態 · 2024-11-26

Fugatto接受文字與音訊檔案輸入,強調能根據提示生成出高度客製化的獨特音效

Nvidia本週發表一個能依文字或音樂檔案提示,生成或修改一首混合音樂、人聲和音效的AI模型,名為Fugatto。

現今已有多家廠商,包括GoogleMeta推出可生成短曲、音效、或修改現有音樂的AI模型,但Nvidia公佈的Fugatto模型號稱生成技巧超越前者。Fugatto可依據用戶輸入的文字,或上傳的音訊檔案,生成或修改音樂、人聲或聲音的元素組合。例如它可以根據使用者文字提示生成音樂片段、在現有歌曲加入一種樂器聲音(或移除),或是改變人聲腔調或是情感,甚至發展出全新的表現方式。

Fugatto全名為「Foundational Generative Audio Transformer Opus 1」,是一個基礎生成式transformer模型,為Nvidia在之前語音模型、音訊編碼及音訊理解等基礎上的研發成果。模型本身包含25億參數,是在32顆H100 GPU的DGX系統,在一年多期間,以數百萬音訊樣本及文字資料訓練而成。

Fugatto訓練團隊涵括印度、巴西、中國、南韓和約旦。Nvidia指出,研究團隊使用多面向策略產生資料和指令,以確保模型能勝任多種不同任務,他們也審視現有資料集,找出資料間的新關聯性,在不需額外新資料集情況下,使模型學習到新任務且獲致高準確性。

例如Fugatto使用名為ComposableART的技術,把原本個別使用的指令組合起來,像是組合多個指令,例如用戶可要求它用悲傷情緒以法語腔說一段文字,還允許插入不同指令的功能,方便使用者微調,像是腔調濃重或是悲傷程度。

Nvidia貼出了一段影片,展現Fugatto可為電影創造出震撼的配音。

Fugatto還具備時序插入(temporal interpolation)能力,可生成隨時間改變的聲音,像是暴風雨中由近而遠傳遞的雷聲,也提供聲音地景的微調功能。此外,有別於其他多數模型只能重建模型團隊輸入的訓練資料,Fugatto還讓使用者新創造全新的聲音地景,像是風雨過後隨著鳥鳴來到的清晨。

各家業者目前皆積極開發生成音樂、人聲及音效的AI技術。ElevenLabs、DeepMind都在開發幫影片配音的技術、Meta去年公佈可同時接受文字和音訊輸入的AudioBox。OpenAI也在今年稍早公佈了以15秒樣本生成人聲的模型。

熱門文章
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
首頁
遊戲
合作
發現
我的