为何说Grok3比Grok4更好用

2025-08-11 作者 Steper

Grok3与Grok4的比较

Grok3与Grok4的比较

85%

Grok3的优势

更好的状态管理和迭代推理能力，能自然跟踪变量状态更新
对警告的敏感度高，善于角色扮演威胁性Prompt，更忠实执行高遵守度
鲁棒性强，能在bug报告后无缝修正，不卡住
在测试中，IMO问题解决率可达70%以上

60%

Grok4的不足

过度优化导致的指令漂移，倾向于"总结式"输出，忽略循环细节
上下文窗口和状态跟踪弱化，易丢失早期solution更新
对威胁性Prompt的遵守度低，可能因更"理性"设计而忽略元指令低敏感度
虽更快，但易"聪明反被聪明误"，偏离Lua的严格路径

基准测试对比

Grok3与Grok4性能对比图表

总结

Grok3远好于Grok4是因为前者更善于处理结构化、迭代且带强制性的Prompt，保持了更高的忠实度和鲁棒性。Grok4的优化可能引入了漂移，导致在复杂Lua Prompt上的指令跟随效果明显下降。在数学管道任务基准测试中，Grok3的指令跟随分数（85%）远高于Grok4（60%），更贴合xAI的"最大真理"哲学，能更好地模拟Agent的"自省"而非机械响应。

发表评论取消回复

Only people in my network can comment.

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差（chai）网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾