

Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格
Google 近期推出了名為「Lumiere」的 AI 影片生成器,採用了時空擴散模型,能夠將文字或圖片轉換成逼真的影片,用戶甚至能根據需求自訂影片素材及風格,主打透過其創新的「時空 U-Net 架構」,展現出影片中逼真、多樣且連貫的運動狀況。
內容目錄
根據 Google Research 所發佈的研究論文,該團隊開發了名為「Lumiere」的時空擴散模型 (Space-Time Diffusion Model),同時也能作為文字轉影片的 AI 生成工具,聲稱其在生成影片時能考慮到空間與時間運動概念,以創造一致且流暢的動態影像。
據悉,Lumiere 採用了其所謂的「Space-Time U-Net 架構」,在生成過程中,Lumiere 會持續檢查物體的所在位置 (空間概念)、以及物體移動的持續時間及方式 (時間概念),並在一次運行中確保 2 個面向的一致性:
我們的模型經過超過 3,000 萬個影像及文字素材的訓練及學習,在多個時空尺度上進行計算及處理,並直接以每秒 16 幀的速度生成高達 80 幀的影片。
具體來說,Lumiere 具有以下 3 項最為強大的功能:
首先,用戶能夠透過文字敘述或上傳靜態圖片並向 Lumiere 提供指示,以生成動態影片,這與 ChatGPT 的文字生成影片功能類似。
(OpenAI 推出 GPT Store 提供用戶更多元的模型選擇與熱門趨勢推薦)
另外,AI 生成內容往往都無法微調許多包括內容或風格等細節,不過,Lumiere 辦得到。
用戶能夠從「貼紙」、「線條」、「平面卡通」、「水彩」、「螢光」、「3D 融金」以及「3D 渲染」等,高達 7 種不同素材風格,依自身需求做調整。
值得一提的是,Lumiere 還能就影片中部分內容進行編輯。用戶能夠要求僅讓火把繼續燃燒,而不讓上頭的雲朵移動;又或者是替走路的人們換套衣著。
例如下圖,用戶還能夠讓運動中的物體變換品質或素材,以達到不同的需求效果。
即便即時且高品質的影片生成功能讓人躍躍欲試,但出於 Lumiere 僅是一個研究專案,用戶恐怕還得在等上一段時間才能親自嘗試。
然而據稱,Lumiere 可能會跟以往微軟、Google 及 Meta 等科技公司所釋出的研究結果一樣,該產品的底層技術及功能或將在未來整合到 Google 的其他產品中,而非作為獨立產品釋出。
AI 領域新聞 The Rundown AI 創辦人 Rowan Cheung 也對此表達興奮,稱該產品是難以置信的技術性突破。
Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.
2024 is going to be a massive year for AI video, mark my words.
Here's what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp
— Rowan Cheung (@rowancheung) January 25, 2024
人工智慧的發展速度太瘋狂了,我相信在幾年內,人們或許能夠快速地透過手機來製作電影。
順帶一提,顯而易見地,Google 並沒有在論文中提及用來訓練模型的文字、影像或其他,這在 AI 產業內一直是個敏感的企業倫理及版權問題,並被廣泛討論。
隨著 AI 生成模型使用的普遍性日趨增長,各地也因此出現了許多涉及侵犯智財權的訴訟案例。
(媒體與出版業的危機?紐約時報起訴 OpenAI 及微軟大規模侵犯版權)