媒体揭秘国产大模型DeepSeek 国产AI迎来里程碑时刻(3)

2025-01-27 15:18  新浪财经

应用开发者的视角:DeepSeek R1与V3的本地部署与使用

1. DeepSeek R1蒸馏模型的本地部署

DeepSeek R1蒸馏出的1.5B、7B、8B、14B等小模型非常适合在本地部署,尤其适合资源有限的中小企业和开发者。以下是常用的部署工具和方法:

  • 工具推荐:
    • Ollama:一个开源的大型语言模型服务工具,支持多GPU配置、热加载模型和与OpenAI兼容的API接口,适合快速部署和运行大规模预训练语言模型。
    • vLLM:支持FP8和BF16推理模式,适合高吞吐量的推理任务。
    • LMDeploy:支持本地和云部署,提供高效的FP8和BF16推理支持。
    • TensorRT-LLM:支持INT4/8量化,适合需要极致性能的场景。
    • SGLang:完全支持BF16和FP8推理模式,适合多令牌预测任务。
  • 部署步骤:
    1. 从Hugging Face下载模型权重。
    2. 使用DeepSeek-Infer Demo进行权重转换(如将FP8权重转换为BF16)。
    3. 配置推理框架(如vLLM或LMDeploy),加载模型并启动服务。

目前DeepSeek R1蒸馏出来的这6个小体积模型,已经上线到Ollama官网。已经在本机安装Ollama的朋友,可以直接通过命令行工具,用ollama pull或ollama run命令下载和运行这些模型。我个人刚把原始版的Qwen2.5 7B删除,安装经过DeepSeek R1蒸馏过的Qwen 7B模型。我的7800XT显卡有16GB显存,FP8或INT8量化后,跑14B参数的模型应该也不是问题。

2. FP8与INT8量化方式

量化是降低模型显存占用和计算开销的有效方法,以下是FP8和INT8量化的实现方式:

  • FP8量化:
    • E4M3与E5M2格式:FP8支持两种格式,E4M3提供更精确的数值,E5M2提供更大的动态范围。DeepSeek V3在训练中采用了E4M3格式,以保持较高的数值精度。
    • 量化流程:在输入采用BF16,主权重采用FP32,量化到FP8。前向传播时,累加后输出为FP32,再转换为BF16;反向传播时,权重梯度以FP32更新,激活梯度转换为BF16继续传播。
  • INT8量化:
    • 逐张量量化:对整个张量进行量化,使用一个scale表示。
    • 逐行量化:对每一行或列进行量化,每行使用一个scale。
    • 分组量化:将特定数量的元素分为一组,每组使用一个scale。
    • 分块量化:对特定区域进行量化,每块使用一个scale。

3. DeepSeek R1与V3的应用场景对比

  • DeepSeek R1:
    • 适用场景:数学建模、代码生成、复杂逻辑推理。
    • 开发者使用:集成到智能客服、自动化决策系统中,提升复杂任务的解决效率。
    • 内容创作者使用:用于生成逻辑严谨的技术文档或学术论文。
  • DeepSeek V3:
    • 适用场景:自然语言处理、知识问答、内容创作。
    • 开发者使用:用于智能客服、个性化推荐系统。
    • 内容创作者使用:生成创意文案、新闻稿件或小说情节。