发展推理模型成为AI发展的一个重要机会。推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,如强化学习、神经符号推理、元学习等,以增强其推理和问题解决能力。如DeepSeek-R1、GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。
而非推理大模型如OpenAI、Gemini、阿里巴巴的Qwen等适用于大多数任务,主要用于语言生成、语言理解、文本分类、翻译等任务。此类模型通常通过对大量文本数据的训练,一般侧重于语言生成、上下文理解和自然语言处理等,而不强调深度推理能力。
与可能直接生成答案的通用LLM不同,推理模型经过专门训练以展示他们的工作,并遵循更结构化的思维过程。一些模型不显示它们的逻辑推理阶段,而另一些模型则明确显示它们的逻辑推理阶段。推理阶段展示了模型如何将所述问题分解为较小的问题(分解),尝试不同的方法(构思),选择最佳方法(验证),拒绝无效方法(可能回溯),并最终选择最佳答案(执行/求解)。
推理模型与通用模型比较
资料来源:微软
随着核心技术日益商品化和廉价化,推理模型和一般的LLM将变得多样化并专门用于更狭窄的任务。
目前,AI企业推出了各种构建和改进推理模型的技术,也为其他企业提供技术创新的机会。
提高LLM的推理能力的方法在不断发展,如推理时扩展(在推理过程中增加计算资源以提高输出质量)、纯强化学习(RL)、监督微调和强化学习(SFT + RL)等。据介绍,DeepSeek R1采用不同的技术,引入了三个不同的推理模型变体:
DeepSeek-R1-Zero基于2024年12月发布的671B预训练DeepSeek-V3基础模型,使用具有两种奖励的强化学习(RL)对其进行训练,被称为 "冷启动"训练。
DeepSeek-R1是DeepSeek的旗舰推理模型,基于DeepSeek-R1-Zero构建,通过额外的SFT阶段和进一步的RL训练进一步完善,改进了"冷启动"R1-Zero 模型。
DeepSeek-R1-Distill,利用前面步骤生成的SFT数据,DeepSeek团队对开源的Qwen和Llama模型进行了微调,以增强其推理能力。虽然不是传统意义上的蒸馏,但这个过程涉及在更大的DeepSeek-R1 671B模型的输出上训练较小的模型(Llama 8B和70B以及Qwen 1.5B-30B)。
DeepSeek和推理模型的兴起也将对处理器需求产生影响,推动推理芯片市场的增长。推理是指使用和应用AI根据新信息做出预测或决策的行为,而不是构建或训练模型。简而言之,AI训练是构建工具或算法,而推理是实际部署此工具以用于实际应用程序。