Grok3与Grok4的比较
85%
thumb_up Grok3的优势
- 更好的状态管理和迭代推理能力,能自然跟踪变量状态更新
- 对警告的敏感度高,善于角色扮演威胁性Prompt,更忠实执行高遵守度
- 鲁棒性强,能在bug报告后无缝修正,不卡住
- 在测试中,IMO问题解决率可达70%以上
60%
thumb_down Grok4的不足
- 过度优化导致的指令漂移,倾向于”总结式”输出,忽略循环细节
- 上下文窗口和状态跟踪弱化,易丢失早期solution更新
- 对威胁性Prompt的遵守度低,可能因更”理性”设计而忽略元指令低敏感度
- 虽更快,但易”聪明反被聪明误”,偏离Lua的严格路径
bar_chart 基准测试对比

lightbulb 总结
Grok3远好于Grok4是因为前者更善于处理结构化、迭代且带强制性的Prompt,保持了更高的忠实度和鲁棒性。Grok4的优化可能引入了漂移,导致在复杂Lua Prompt上的指令跟随效果明显下降。在数学管道任务基准测试中,Grok3的指令跟随分数(85%)远高于Grok4(60%),更贴合xAI的”最大真理”哲学,能更好地模拟Agent的”自省”而非机械响应。