Claude Opus 4.8 正在学习说人工智能最难说的三个字：“我不知道” - block88

即使是最厉害的法学硕士，诚实也是一个关键的难点。倒不是说他们故意对你撒谎；而是他们会自信满满地告诉你一些他们自己都没百分之百（甚至百分之五十）把握的事情。

Anthropic 表示，在其最新款 Claude 型号 Opus 4.8 中，Claude更加诚实地告诉你它不知道什么，或者当它对所提供的信息没有把握时。

周四发布的 Claude Opus 4.8 并不是 Claude Mythos Preview，后者是 Anthropic 新推出的“前沿”模型。该模型功能极其强大，出于安全原因，目前仅允许少数“受信任的合作伙伴”对其进行测试。对于 Claude Mythos，目前仍没有确切的发布日期。

在 Claude Opus 4.7 推出约六周后，Opus 4.8 接棒成为 Anthropic 正式发布的最强大模型。Anthropic 表示，Opus 4.8 在很大程度上只是对其前代产品的一次“适度”升级，而在网络安全任务中，Mythos Preview 的表现则明显优于它。

但根据该公司的基准测试，Opus 4.8 在一个关键类别中名列前茅：诚实，该模型在承认自己不知道编程问题的答案时获得了“近乎完美”的分数。

即使是威力强大的 Mythos Preview 也无法在这项特殊的诚实度测试中胜过 Opus 8.7，仅以微弱劣势屈居第二，而 Opus 4.7 则远远落后，排名第四。