Stability AI釋出文字生成聲音模型開源版本Stable Audio Open
支付動態 · 2024-06-06

相較於Stable Audio模型可生成3分鐘的連貫音樂結構,開源版Stable Audio Open模型則能生成47秒的樣本與聲音效果

Stability AI週三(6/5)釋出了文字生成聲音模型的開源版本Stable Audio Open,在使用者輸入文字描述後,它便能生成長達47秒的樣本與聲音效果。

Stability AI以超過48萬個聲音紀錄來訓練Stable Audio Open模型,其中超過9成的紀錄來自Freesound,另有少數來自「免費音樂檔案」(Free Music Archive ,FMA),所有的音訊檔都取得了免費的共享許可,並使用預訓練的T5(Text-to-Text Transfer Transformer)文字模型來處理與生成文字。

Stable Audio Open讓使用者輸入簡單的文字提示,即可生成最多長達47秒的高品質聲音,Stability AI宣稱它很適合用來建立鼓點、音樂即興片段、環境音效、模擬錄音,或是其它與音樂及聲音有關的樣本。開源版本的好處之一還包括使用者可以利用自己的聲音資料來調整模型,例如鼓手可以加入自己的錄音樣本來生成新的節奏。

其實該公司在去年9月便先推出了商業版的Stable Audio,同時提供免費與付費方案。Stability AI解釋,Stable Audio可生成高品質、完整且長達3分鐘的連貫音樂結構,而Stable Audio Open則專注於聲音樣本、音效與製作元素,儘管Stable Audio Open能夠生成簡短的音樂,但並未針對完成的歌曲、旋律或人聲進行優化。

使用者也可逕自利用Stable Audio免費版來測試與Stable Audio Open的差異,Stable Audio Open 1.0現階段則可透過Hugging Face取得。

熱門文章
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
首頁
遊戲
合作
發現
我的