DeepSeek-R1再进化!周鸿祎解读DeepSeek更新(3)

2025-06-09 10:08  头条

为了测试新版 R1-0528 在物理世界的推理能力,有网友拿同一句提示,让它们生成一个页面:R1-0528 一次性输出了 728 行代码,而 Claude 4 Sonnet 只给出了 542 行。

老狐仔细对比后发现,新版 R1-0528 在细节处理上更精致,无论是橙色球表面的光影反射,还是砖块墙被破坏后的不规则倒塌,都稳赢 Claude 4 Sonnet。

而在数学推理方面,不少网友提到,DeepSeek-R1-0528 是目前唯一一个能持续稳定地正确回答" 9.9 - 9.11 等于多少?"的模型。