繼能以單一圖片生成2D虛擬世界的Genie模型後,Google公布新一代Genie 2,可進一步生成3D虛擬場景,供開發者訓練AI代理
OpenAI 2月公布Sora時稱之為世界模擬器(World simulator),Google則將Genie 2稱為世界模型(world model),意謂著它能模擬虛擬世界,包括任何動作(如跳躍、游泳)的後果。它是以大量影片資料集訓練而成的「自我迴歸(autoregressive)潛在擴散模型(latent diffusion model)」,具備多種新式功能,像是物件互動、複雜人物動畫、物理,以及預測其他代理人的行為等。
Google今年稍早和遊戲開發商合作開發的SIMA代理人。輸入以DeepMind的圖片生成模型Imagen 3所生成的一張圖片,Genie 2即能生成3D場景後和遊戲開發人員互動。
例如,這模型支援不同視角,如第一、第三人視角或等角視角(isometric view),也能靈敏回應以鍵盤下達的動作,像是左轉、右轉、前進、退後或是以空白鍵跳躍。它也能模擬角色動作(如爬樓梯、跳躍)、不同物件可供性(Object affordances)和物理運動,例如爆破的氣球、開門、射擊炸藥桶、煙塵飄動、水花濺射,以及光線明暗變化等。
Google說,利用Genie 2,任何人都可以以文字描述想要的世界、選擇喜好的渲染成形風格,再與之互動。使用者或代理人以鍵盤、滑鼠輸入行為,Genie 2就能模擬下一觀察,它能生成穩定的3D世界,大部份為10到20秒,最長可到1分鐘。