媒体揭秘国产大模型DeepSeek 国产AI迎来里程碑时刻(2)

2025-01-27 15:18  新浪财经

性能评测对比

以下是DeepSeek R1与其他主流模型在多个基准测试中的表现对比:

模型 AIME 2024 (%) MATH-500 (%) Codeforces Elo MMLU (%) GPQA Diamond (%)
DeepSeek R1 79.8 97.3 2029 90.8 71.5
OpenAI o1-1217 78.5 96.8 2015 91.2 70.8
DeepSeek-V3 68.7 89.4 1950 85.6 65.3
Qwen2.5-32B 55.5 72.6 1800 78.4 60.2
Llama3-70B 58.3 75.1 1825 79.8 61.5

数据来源:

R1系列模型及其蒸馏版本的性能表现

DeepSeek此次发布了R1-Zero、R1以及多个蒸馏后的小模型,以下是它们的性能对比:

模型

AIME 2024 (%) MATH-500 (%) LiveCodeBench (%)
DeepSeek R1-Zero 71.0 89.7 55.2
DeepSeek R1 79.8 97.3 57.2
R1-Distill-Qwen-1.5B 65.4 85.2 52.8
R1-Distill-Qwen-7B 68.9 88.6 54.3
R1-Distill-Qwen-8B 70.2 89.1 55.0
R1-Distill-Qwen-14B 72.6 90.5 56.1
R1-Distill-Qwen-32B 72.6 94.3 57.2
R1-Distill-Llama-70B 70.8 93.5 56.8
Qwen2.5-32B (原始) 55.5 72.6 45.0
Llama3-70B (原始) 58.3 75.1 47.5

数据来源:

从表中可以看出,R1蒸馏后的小模型在推理能力上显著超越了原始的Qwen2.5和Llama模型,展现了R1推理模式的高效迁移性。