

xAI强调Grok-2在盲测的LMSYS聊天机器人平台曾拿下社群评比第三名,但用户发现该模型缺乏拒绝生成有害内容的安全机制
/Large Model Systems Organization
xAI也采用一系列的学术基准来评估Grok-2,发现Grok-2与Grok-2 mini明显优于Grok-1.5,在研究生水准科学知识(GPQA)、常识(MMLU、MMLU-Pro)及数学竞赛问题(MATH)等领域可与GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型比美,并在视觉数学推理(MathVista)及基于文档的问题(DocVQA) 上提供了最先进的性能。
付费的X Premium与Premium+用户可率先存取Grok-2与Grok-2 mini。xAI表示,Grok-2在各种任务上都更为直觉,也更通用及更容易操作,亦集成来自X平台上的即时信息,而Grok-2 mini为一精简版模型,以于速度及品质间取得平衡。xAI亦计划于8月通过新的企业API平台发布Grok-2与Grok-2 mini。
不过,已经有人发现Grok-2图像生成功能的安全护栏不太牢靠,例如AI开发人员Benjamin De Kraker不仅利用Grok-2生成了拿着两把枪的川普, 也用它生成正在吸毒的美国前总统布希(George Bush)。
The Verge的测试则发现,即使Grok-2承诺它具备安全护栏,可避免生成色情、暴力、仇恨或危险图片,但事实上它并未拒绝许多涉及暴力、吸毒或名人裸露的图像生成要求。不过,缺乏护栏的图像生成模型并不只Grok-2,开源的Stable Diffusion对于危险内容的生成也几乎毫无防备。