有网友实测,新版 R1-0528 连续思考一个复杂问题能跑上 25 分钟。
似乎为了提升模型的深度思考能力,DeepSeek-R1-0528 有意拉长了大模型的思考时长。
经典物理模拟测试中,DeepSeek-R1 新旧版本的对比
不过到底值不值,还得看你怎么用:
毕竟一个问题花上半小时,即便结果再完美,也难免等得心痒痒。
但相应地,思考更深了,编程和推理能力也就跟上来了。
在 LiveCodeBench 基准测试里,DeepSeek-R1-0528 的成绩已经能和 o3-mini(High)和 o4-mini(Medium)相媲美,甚至在某些场景下超越了 Gemini 2.5 Flash。