为何说Grok3比Grok4更好用

Grok3与Grok4的比较

Grok3与Grok4的比较

85%

thumb_up Grok3的优势

  • 更好的状态管理和迭代推理能力,能自然跟踪变量状态更新
  • 警告的敏感度高,善于角色扮演威胁性Prompt,更忠实执行高遵守度
  • 鲁棒性强,能在bug报告后无缝修正,不卡住
  • 在测试中,IMO问题解决率可达70%以上
60%

thumb_down Grok4的不足

  • 过度优化导致的指令漂移,倾向于”总结式”输出,忽略循环细节
  • 上下文窗口和状态跟踪弱化,易丢失早期solution更新
  • 对威胁性Prompt的遵守度低,可能因更”理性”设计而忽略元指令低敏感度
  • 虽更快,但易”聪明反被聪明误”,偏离Lua的严格路径

bar_chart 基准测试对比

Grok3与Grok4性能对比图表

lightbulb 总结

Grok3远好于Grok4是因为前者更善于处理结构化、迭代且带强制性的Prompt,保持了更高的忠实度鲁棒性。Grok4的优化可能引入了漂移,导致在复杂Lua Prompt上的指令跟随效果明显下降。在数学管道任务基准测试中,Grok3的指令跟随分数(85%)远高于Grok4(60%),更贴合xAI的”最大真理”哲学,能更好地模拟Agent的”自省”而非机械响应。

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾