codex的陷阱 | 瑰珀 & 休生伤杜

这两天终于碰到一个。

我持续用codex为场景识别并收敛伪冲突。这几天碰到有若干个场景，伪冲突被codex收敛得很快，基本上3分钟内就告诉我，这场景的伪冲突已经清零了。

然后我每天都会让Deepseek + Claude Code帮我检查总冲突数的收敛情况。然后根据剩余的大头再委托codex去处理。

早上DS返回的结果跟昨天返回的结果类似，有些大头完全没有清理。我一开始以为DS搞错了，然后把结果给codex double check，codex一开始还是说它确实清干净了。

随着对质的深入，codex终于发现它的问题，它选了两个错误的数据域作为判断的标准，结果导致这两天的伪清零……

至于它为什么这么选，之前是没有这样做的。大模型毕竟是一种推理机制，如果KPI需要它清零，它会选择一个看上去能达到结果的判断方式，而并非费力地推导出各种机制和规则。简单来说，改测试代码，直接通过。

多模型联合工作，审核，避免偷懒，看来是必须的。