微軟發表VASA-1 AI框架,可即時生成逼真且生動的虛擬對嘴人像
· 2024-04-19

微軟VASA-1框架透過單張照片和語音,便可即時生成逼真且表情豐富的虛擬人像,用於提升數位通訊的互動體驗

/微軟

以人工智慧生成能夠說話的臉孔,可使人工智慧技術更具互動性,豐富數位通訊體驗,也能強化溝通的無障礙性,在教育、醫療和社交都有許多用處。但過去的技術,距離產生真實且自然的說話臉孔還有一大段距離,不少研究聚焦在對嘴上,臉部動態行為通常被忽視,因此生成的臉部也會顯得僵硬且缺乏說服力。

除了表情之外,頭部運動在增強虛擬人像的真實感,也發揮極大的作用,但與模擬臉部表情所遭遇的問題相同,目前生成的動畫和人體運動模式之間存在相當大的差距。另外,生成效率也是該項技術的一大重點,唯有足夠低延遲,臉部生成技術才能良好地支援即時通訊等應用。

微軟VASA-1框架克服了以往虛擬人像生成技術的限制。此框架的特別之處在於,研究人員利用擴散Transformer模型,在整體臉部動態和頭部運動潛在空間進行訓練,該模型將所有可能的臉部動態,包括嘴唇動作、表情、眼睛注視和眨眼等行為,視為單一潛在變數,並統一建模其機率分布。

研究人員針對整體臉部動態建模,在加上聯合學習的頭部運動模式,最終產生各種逼真且情感豐富的說話行為。同時,微軟利用3D技術輔助表示臉部特徵,並特別設計損失函式,使得VASA-1不只能夠生成高品質臉部影像,且能有效地捕捉和重現臉部3D結構。

VASA-1不只圖像生成品質自然良好,另一大優點更是能高效運作,即時生成逼真的說話臉部,而這對於通訊的即時互動更是關鍵性的能力。研究人員在Nvidia RTX 4090 GPU桌上型電腦進行評估VASA-1,線上串流模式512×512解析度可達40 FPS,延遲時間僅有170 ms。

熱門文章
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
英國確認各垂直行業的賭博稅稅率
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
首頁
遊戲
合作
發現
我的