Google图片生成模型Imagen 3在美上线
行銷管道 · 2024-08-16

Google DeepMind团队提升Imagen 3提示理解能力,强调Imagen 3在生成图片与提示的符合度表现上,优于DALL-E 3以及Stable Diffusion 3 Large

Imagen 3为一潜在扩散模型(latent diffusion model),能根据用户输入的文本提示产生高品质图片。Google说,DeepMind团队大幅提升Imagen 3提示理解能力,使模型能生成了解并遵循长而高度描述性的提示,并生成细节繁复、色彩鲜艳、以及视觉设计更丰富的图片。

例如它能理解以下提示,并生成图片:「一个布偶立体模型场景中,出现僻静森林中的静谧画面,中间置入一个网版印刷效果呈现的机器人,它有巨大浑圆的身躯,但十分善良。机器人肩上停着一只猫头鹰,脚边有只狐狸。图片包含5种柔和颜色,并以光线营造宁静和谐的感觉,可激发对自然之美的沈思和赞颂。」

Imagen 3默认可生成1024x1024分辨率的图片,用户可以2倍、4倍、或8倍采样生成想要的图片。DeepMind团队将Imagen 3和Imagen 2与其他知名图片生成AI模型,如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等进行比较。根据其数据,Imagen 3在生成图片与提示的符合度,仅次于Midjourney 6,但在详细提示的符合度(fig 5),及理解数字的能力(fig 6)则是所有模型最佳。团队也声称生成图片画质技冠群雄(fig 7),并且是最能在图片画质和用户意图间取得平衡的模型。

Google也承认,Imagen 3的计数能力有待加强,且牵涉规模(如大小)、行为,以及包含复合词的提示,对所有模型都有理解难度。

马斯克的AI公司xAI也在本周公布了图片生成模型Grok-2系列。

热门文章
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
灰度在iGB L!VE 2026展位T70和你相约7月,一起点燃伦敦的热情!
灰度头条
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
亚洲游戏市场观察:15大市场热门游戏与用户趋势
线上游戏
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
GGC Awards 2026 璀璨科伦坡:致敬 iGaming 行业的领航者与创新力量
灰度头条
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
PropellerAds 分享了新的 iGaming 案例研究:在 3 个月实现 97,674 次安装和 12,701 笔存款
广告营销
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
BETFAIR 网络攻击80万用户资料泄露
游戏风向
首页
游戏
合作
发现
我的