Google图片生成模型Imagen 3在美上线
行銷管道 · 2024-08-16

Google DeepMind团队提升Imagen 3提示理解能力,强调Imagen 3在生成图片与提示的符合度表现上,优于DALL-E 3以及Stable Diffusion 3 Large

Imagen 3为一潜在扩散模型(latent diffusion model),能根据用户输入的文本提示产生高品质图片。Google说,DeepMind团队大幅提升Imagen 3提示理解能力,使模型能生成了解并遵循长而高度描述性的提示,并生成细节繁复、色彩鲜艳、以及视觉设计更丰富的图片。

例如它能理解以下提示,并生成图片:「一个布偶立体模型场景中,出现僻静森林中的静谧画面,中间置入一个网版印刷效果呈现的机器人,它有巨大浑圆的身躯,但十分善良。机器人肩上停着一只猫头鹰,脚边有只狐狸。图片包含5种柔和颜色,并以光线营造宁静和谐的感觉,可激发对自然之美的沈思和赞颂。」

Imagen 3默认可生成1024x1024分辨率的图片,用户可以2倍、4倍、或8倍采样生成想要的图片。DeepMind团队将Imagen 3和Imagen 2与其他知名图片生成AI模型,如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等进行比较。根据其数据,Imagen 3在生成图片与提示的符合度,仅次于Midjourney 6,但在详细提示的符合度(fig 5),及理解数字的能力(fig 6)则是所有模型最佳。团队也声称生成图片画质技冠群雄(fig 7),并且是最能在图片画质和用户意图间取得平衡的模型。

Google也承认,Imagen 3的计数能力有待加强,且牵涉规模(如大小)、行为,以及包含复合词的提示,对所有模型都有理解难度。

马斯克的AI公司xAI也在本周公布了图片生成模型Grok-2系列。

热门文章
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
新泽西州7月博彩收入创6.06亿美元新高,颁布禁令
游戏风向
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
BETFAIR 网络攻击80万用户资料泄露
游戏风向
2027 Global Game Connect(GGC)斯里兰卡招商全面开启!业务人脉尽在掌握!
灰度头条
英国确认各垂直行业的赌博税税率
游戏风向
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
首页
游戏
合作
发现
我的