DeepSeek也有许多小模型。如DeepSeek-Coder,由一系列代码语言模型组成,从1B到33B版本不等,在2万亿token上训练,数据集含87%代码和13%中英文自然语言。主要用于代码编写等任务,在多种编程语言和基准测试中达开源代码模型先进性能。
DeepSeek-VL则是开源视觉-语言模型,采用混合视觉编码器,能处理高分辨率图像。有1.3B和7B模型,在视觉-语言基准测试中性能出色,可用于视觉问答等多种视觉与语言结合的任务。
DeepSeek衍生和蒸馏的小模型,包括Qwen系列蒸馏模型、Llama系列蒸馏模型、DeepSeek-R1-Distill模型等,如
DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-70B。前者在多个推理基准测试中超越同规模模型,后者推理速度大幅提升,在GSM8K和HumanEval等领域接近顶级闭源模型。它们的参数量在15B到70B范围内,相比大模型计算和内存消耗显著降低。这些小模型继承了大模型的核心推理能力,可在教育领域自动批改数学作业、医疗领域辅助快速诊断等。
DeepSeek衍生和蒸馏的小模型在多个领域具有广泛的应用价值,具有很强的示范价值。未来,AI企业可以通过发展不同的小模型,推动AI的应用。
蒸馏模型通过减少参数量和计算复杂度,显著提升了推理速度。例如,
DeepSeek-R1-Distill-Qwen-7B的推理速度比原始模型提高了约50倍,使其能够在资源受限的设备上高效运行。
小模型的部署成本大幅降低,适合在计算资源有限的场景中使用。DeepSeek的蒸馏模型在保持高性能的同时,训练和推理成本显著降低,推动了AI技术的普及。
多任务适应性。蒸馏模型通过多任务适应性机制,能够根据不同任务优化其性能,适用于自然语言处理、代码生成、数学推理等多种应用场景。如小模型的轻量化设计使其能够在智能手机、智能手表等边缘设备上运行,实现实时决策和低能耗操作,适用于自动驾驶、健康监测等需要快速响应的场景。
将小模型应用等不同的行业。如在教育领域,蒸馏模型可以提供个性化的学习推荐和智能辅导,帮助学生制定个性化的学习路径,提升学习效率。蒸馏模型在医疗影像分析和疾病预测中表现出色,能够提供实时的医疗建议和辅助诊断,提升医疗服务的效率和质量。在金融领域,蒸馏模型可以用于市场趋势分析、风险评估和智能投顾,提供个性化的投资建议和风险管理方案。
目前,市场上已经出现不少创新技术,通过开源模型和创新技术,大幅降低模型训练成本和模型小型化成本。
如来自斯坦福大学和华盛顿大学的联合团队已经训练了一个以数学和编码为重点的大型语言模型,该模型的性能与OpenAI o1 和DeepSeek R1推理模型一样好,构建它只需50美元的云计算积分。
该团队使用了一个现成的基础模型,然后将Google Gemini 2.0 Flash Thinking Experimental模型提炼到其中。提炼AI的过程包括从较大的AI模型中提取相关信息以完成特定任务,并将其传输到较小的AI模型。
又如Hugging Face发布OpenAI Deep Research和Google Gemini Deep Research工具的竞争对手,称为Open Deep Research,利用免费开源LLM,大约需要20美元的云计算积分,并且只需不到30分钟即可完成训练。
Hugging Face的模型随后在通用AI助手(GAIA)基准测试中获得了55%的准确率,该基准测试用于测试代理AI系统的能力。相比之下,OpenAI Deep Research 得分在67- 73%的准确率之间,具体取决于响应方法。
阿里的李飞飞团队基于阿里云通义千问(Qwen)模型进行监督微调,成功开发出s1模型。训练该模型仅花费不到50美元,使用16张英伟达H100 GPU,仅耗时26分钟。DeepSeek通过蒸馏技术将大模型能力传递给小模型,而李飞飞团队则是微调现有大模型,借助高质量数据和测试时拓展技术,实现低成本、高性能的模型训练。
以DeepSeek为代表的开源模型凭借低廉API服务费用,对传统闭源大模型发起挑战,未来可能重塑AI市场格局。
低成本高效能大模型的出现,给AI应用公司、云厂商、用户带来新机遇。AI应用公司可基于新模型开发创新产品,提高资本回报率;云厂商则加速布局开源大模型生态服务,抢占算力需求市场;用户可以基于开源大模型,训练和部署自己专属的大模型。