Google圖片生成模型Imagen 3在美上線
行銷管道 · 2024-08-16

Google DeepMind團隊提升Imagen 3提示理解能力,強調Imagen 3在生成圖片與提示的符合度表現上,優於DALL-E 3以及Stable Diffusion 3 Large

Imagen 3為一潛在擴散模型(latent diffusion model),能根據用戶輸入的文字提示產生高品質圖片。Google說,DeepMind團隊大幅提升Imagen 3提示理解能力,使模型能生成了解並遵循長而高度描述性的提示,並生成細節繁複、色彩鮮豔、以及視覺設計更豐富的圖片。

例如它能理解以下提示,並生成圖片:「一個布偶立體模型場景中,出現僻靜森林中的靜謐畫麵,中間置入一個網版印刷效果呈現的機器人,它有巨大渾圓的身軀,但十分善良。機器人肩上停著一隻貓頭鷹,腳邊有隻狐狸。圖片包含5種柔和顏色,並以光線營造寧靜和諧的感覺,可激發對自然之美的沈思和讚頌。」

Imagen 3預設可生成1024x1024解析度的圖片,用戶可以2倍、4倍、或8倍採樣生成想要的圖片。DeepMind團隊將Imagen 3和Imagen 2與其他知名圖片生成AI模型,如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等進行比較。根據其數據,Imagen 3在生成圖片與提示的符合度,僅次於Midjourney 6,但在詳細提示的符合度(fig 5),及理解數字的能力(fig 6)則是所有模型最佳。團隊也聲稱生成圖片畫質技冠群雄(fig 7),並且是最能在圖片畫質和用戶意圖間取得平衡的模型。

Google也承認,Imagen 3的計數能力有待加強,且牽涉規模(如大小)、行為,以及包含複合詞的提示,對所有模型都有理解難度。

馬斯克的AI公司xAI也在本週公佈了圖片生成模型Grok-2系列。

熱門文章
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
英國確認各垂直行業的賭博稅稅率
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
首頁
遊戲
合作
發現
我的