Meta釋出audio2photoreal技術框架,可依對話語音合成逼真虛擬人物動作
· 2024-01-09

Meta的audio2photoreal技術結合向量量化技術以及擴散演算法,根據雙人對話語音生成真實虛擬人物的臉部、身體和手勢動作

Meta新的人工智慧研究audio2photoreal技術框架,能夠根據對話語音,生成相對應逼真的臉部、身體和手勢。研究人員開發audio2photoreal框架的目的,是用於創建真實的虛擬人物,並讓這些虛擬人物能夠根據人們說話的內容和方式,做出各種自然的手勢和表情。

Audio2photoreal研究的主要貢獻,在於結合向量量化(Vector Quantization)技術以及擴散(Diffusion)演算法,生成動態和更具表現力的動作。向量量化在這個研究扮演的角色,是提供手勢動作的樣本多樣性,簡單來說,向量量化是一種將大量資料壓縮成較少量代表性資料的技術,而用在audio2photoreal上,則可以有效地從大量手勢動作中,選出具代表性的樣本。

而擴散技術的作用,則是能夠提供高頻率細節和改善手勢動作品質。擴散技術通常用於生成和改善圖像與影片,特別是需要恢復細節,或是增加視覺真實感的場景中,當應用在虛擬人物手勢生成的過程,擴散技術可以讓手勢更自然流暢,使其更接近真實人類的動作。

研究人員還在這個研究創建了一個多視角雙人對話資料集,裡面收錄從不同角度拍攝的對話場景,讓audio2photoreal能夠更好地製作虛擬人物。

而經過實驗驗證,audio2photoreal在生成合適且多樣化的手勢上,明顯比僅仰賴擴散或是向量量化的方法還要好,此外,相較於傳統網格模型,audio2photoreal生成高度真實的虛擬人物,在準確捕捉對話手勢動作的細節上,像是模擬用手指點、手腕快速轉動或是聳肩等都動作,表現得更加自然真實。研究團隊現在公開相關程式碼和資料集,以促進相關研究領域發展。

热门文章
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
Zenith携手HUIDU,冠名赞助2026年世界杯嘉年华官方巡回活动
线上游戏
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
BETFAIR 网络攻击80万用户资料泄露
游戏风向
超级PAC筹资4800万美元:体育博彩势力加码
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
灰度世界杯嘉年华狂欢派对吉隆坡站即将开启,业务拓展人脉社交从马来西亚开始
灰度头条
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
首页
游戏
合作
发现
我的