DeepSeek-R1再进化!周鸿祎解读DeepSeek更新(2)

2025-06-09 10:08  头条

有网友实测,新版 R1-0528 连续思考一个复杂问题能跑上 25 分钟。

似乎为了提升模型的深度思考能力,DeepSeek-R1-0528 有意拉长了大模型的思考时长。

经典物理模拟测试中,DeepSeek-R1 新旧版本的对比

不过到底值不值,还得看你怎么用:

毕竟一个问题花上半小时,即便结果再完美,也难免等得心痒痒。

但相应地,思考更深了,编程和推理能力也就跟上来了。

在 LiveCodeBench 基准测试里,DeepSeek-R1-0528 的成绩已经能和 o3-mini(High)和 o4-mini(Medium)相媲美,甚至在某些场景下超越了 Gemini 2.5 Flash。