Meta釋出audio2photoreal技術框架,可依對話語音合成逼真虛擬人物動作
· 2024-01-09

Meta的audio2photoreal技術結合向量量化技術以及擴散演算法,根據雙人對話語音生成真實虛擬人物的臉部、身體和手勢動作

Meta新的人工智慧研究audio2photoreal技術框架,能夠根據對話語音,生成相對應逼真的臉部、身體和手勢。研究人員開發audio2photoreal框架的目的,是用於創建真實的虛擬人物,並讓這些虛擬人物能夠根據人們說話的內容和方式,做出各種自然的手勢和表情。

Audio2photoreal研究的主要貢獻,在於結合向量量化(Vector Quantization)技術以及擴散(Diffusion)演算法,生成動態和更具表現力的動作。向量量化在這個研究扮演的角色,是提供手勢動作的樣本多樣性,簡單來說,向量量化是一種將大量資料壓縮成較少量代表性資料的技術,而用在audio2photoreal上,則可以有效地從大量手勢動作中,選出具代表性的樣本。

而擴散技術的作用,則是能夠提供高頻率細節和改善手勢動作品質。擴散技術通常用於生成和改善圖像與影片,特別是需要恢復細節,或是增加視覺真實感的場景中,當應用在虛擬人物手勢生成的過程,擴散技術可以讓手勢更自然流暢,使其更接近真實人類的動作。

研究人員還在這個研究創建了一個多視角雙人對話資料集,裡面收錄從不同角度拍攝的對話場景,讓audio2photoreal能夠更好地製作虛擬人物。

而經過實驗驗證,audio2photoreal在生成合適且多樣化的手勢上,明顯比僅仰賴擴散或是向量量化的方法還要好,此外,相較於傳統網格模型,audio2photoreal生成高度真實的虛擬人物,在準確捕捉對話手勢動作的細節上,像是模擬用手指點、手腕快速轉動或是聳肩等都動作,表現得更加自然真實。研究團隊現在公開相關程式碼和資料集,以促進相關研究領域發展。

熱門文章
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
首頁
遊戲
合作
發現
我的