为了测试新版 R1-0528 在物理世界的推理能力,有网友拿同一句提示,让它们生成一个页面:R1-0528 一次性输出了 728 行代码,而 Claude 4 Sonnet 只给出了 542 行。
老狐仔细对比后发现,新版 R1-0528 在细节处理上更精致,无论是橙色球表面的光影反射,还是砖块墙被破坏后的不规则倒塌,都稳赢 Claude 4 Sonnet。
而在数学推理方面,不少网友提到,DeepSeek-R1-0528 是目前唯一一个能持续稳定地正确回答" 9.9 - 9.11 等于多少?"的模型。