

Gem是可客制化版本的Gemini,标榜能让Gemini付费版用户创建一个专家团队协助完成项目等复杂任务
过几天,这项功能会推向有150多国家地区的Gemini Advanced、或是Business及Enterprise版本订阅用户。Gem共支持30多种语言,但Gemini应用程序必须同样支持用户所在的国家/地区和语言,才能在该程序中使用这项功能。
为协助用户入手,Google已预建了一些用于困难任务的Gems。像是引导学习的学习教练、帮忙想点子的脑力激荡者、可制订自我提升计划的生涯规划顾问、改善文法到文章结构的撰文编辑,以及撰写程序的小帮手等。
另外,本月稍早只提供美国市场的图像生成模型Imagen 3,未来几天内将全面部署到Gemini AI助理。
Imagen 3为一潜在扩散模型(latent diffusion model),能根据用户输入的文本提示产生高品质图片。Google说,DeepMind团队大幅提升Imagen 3提示理解能力,使模型能了解并遵循落落长、充满形容词和复杂的提示,并生成细节繁复、色彩鲜艳、以及视觉设计更丰富的图片。

Imagen 3在多项测试中,超越竞争者如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等模型。
由于Imagen刚上线时曾让Gemini闹出生成黑人美国开国元勋、或是女性教宗图片的错误,让Google延后Gemini人物图片生成的服务上线。和Gem一样,这项功能目前仅开放给Gemini Advanced、Business、和Enterprise方案用户,仅提供英文版。Google说会持续改进其技术能力,以及安全与品质监控工具,也会提供清楚的产品原则。
Google说,Imagen 3内置安全护栏并遵循产品设计伦理原则。此外,一如Imagen 2,新版本也使用了Google自有开发的浮水印技术SynthID防范冒充真人创作。用户握有控制权,若生成的图不满意也可令Gemini重新生成图片。/Google