性能评测对比
以下是DeepSeek R1与其他主流模型在多个基准测试中的表现对比:
模型 | AIME 2024 (%) | MATH-500 (%) | Codeforces Elo | MMLU (%) | GPQA Diamond (%) |
---|---|---|---|---|---|
DeepSeek R1 | 79.8 | 97.3 | 2029 | 90.8 | 71.5 |
OpenAI o1-1217 | 78.5 | 96.8 | 2015 | 91.2 | 70.8 |
DeepSeek-V3 | 68.7 | 89.4 | 1950 | 85.6 | 65.3 |
Qwen2.5-32B | 55.5 | 72.6 | 1800 | 78.4 | 60.2 |
Llama3-70B | 58.3 | 75.1 | 1825 | 79.8 | 61.5 |
数据来源:
R1系列模型及其蒸馏版本的性能表现
DeepSeek此次发布了R1-Zero、R1以及多个蒸馏后的小模型,以下是它们的性能对比:
模型 |
AIME 2024 (%) | MATH-500 (%) | LiveCodeBench (%) |
---|---|---|---|
DeepSeek R1-Zero | 71.0 | 89.7 | 55.2 |
DeepSeek R1 | 79.8 | 97.3 | 57.2 |
R1-Distill-Qwen-1.5B | 65.4 | 85.2 | 52.8 |
R1-Distill-Qwen-7B | 68.9 | 88.6 | 54.3 |
R1-Distill-Qwen-8B | 70.2 | 89.1 | 55.0 |
R1-Distill-Qwen-14B | 72.6 | 90.5 | 56.1 |
R1-Distill-Qwen-32B | 72.6 | 94.3 | 57.2 |
R1-Distill-Llama-70B | 70.8 | 93.5 | 56.8 |
Qwen2.5-32B (原始) | 55.5 | 72.6 | 45.0 |
Llama3-70B (原始) | 58.3 | 75.1 | 47.5 |
数据来源:
从表中可以看出,R1蒸馏后的小模型在推理能力上显著超越了原始的Qwen2.5和Llama模型,展现了R1推理模式的高效迁移性。