华为推出DeepSeek训/推一体机,国产芯片迎来新机遇?

2025-02-17 17:59  观察者网

DeepSeek的热潮,终于带火了AI一体机产品?这种颇具"中国特色"的AI硬件,能否给国产芯片的普及再加一把火?

2月16日,据"华为数据存储"公众号消息,华为DCS AI解决方案针对DeepSeek的本地部署,推出了DS版FusionCube A3000训/推超融合一体机,深度适配DeepSeekV3&R1及蒸馏模型,支持私有化部署。

配置清单显示,DS版的FusionCube A3000训/推超融合一体机有三种型号,分别为Ultra(满血版)、Pro(蒸馏版)和 Lite(蒸馏轻量版)。

其中满血版可以完美适配DeepSeek-R1、V3的671B模型,硬件使用2个华为Atlas800l A2,处理速度达到671B: 1911 token/s 。而蒸馏版则配备1个Atlas800l A2,适配DeepSeek R1-Distill-Qwen-32B、Llama-70B等蒸馏模型,处理速度 70B: 3300 token/s,32B: 4940 token/s。

Atlas800l A2是华为推出的鲲鹏920+昇腾 AI处理器的AI推理服务器,应用于深度学习模型开发和AI推理服务场景,目前面向公有云、互联网、运营商、政府、交通、金融、高校、电力等领域,用于企业机房部署和大规模数据中心集群部署。

软件方面,DS版训/推超融合一体机使用大模型训练、推理和应用开发的华为ModelEngine AI平台,该平台基于昇腾AI芯片,通过推理框架优化和MoE存算协同,提供动态换入换出和全局统一缓存,实现推理高并发和低时延。2月6日,华为对外宣布,ModelEngine平台全面支持DeepSeek大模型R1&V3和蒸馏系列模型的本地部署与优化,开发者可通过该平台实现上述DeepSeek大模型的"一键部署"。

近一段时间以来,DeepSeek线上算力的严重不足,带火了大模型本地部署需求,许多厂商开始营销各类AI一体机产品。

2月5日,联想与国内AI芯片厂商沐曦联合发布基于DeepSeek 大模型的一体机解决方案,采用ThinkStation PX工作站为载体,搭载沐曦曦思N260 GPU。

2月14日,中科曙光也发布了全国产的DeepSeek超融合一体机,该一体机采用全国产技术路线,选用国产X86 CPU和国产GPGPU加速卡,支持全精度、半精度混合训练与推理。

中科曙光的DS超融合一体机

在模型适配方面,中科曙光一体机同样全面适配DeepSeek系列模型,如DeepSeek V3、DeepSeek R1和DeepSeek Janus Pro,还支持全系列量化蒸馏版本。同时,对QWen2.5、LLama3.2、ChatGLM等主流大模型也全面兼容,满足各种业务场景需求。

中科曙光公众号的文章,就毫不吝惜地称呼该一体机为"国货之光",将为政府和企业的数字化、智能化转型按下"加速键"。

实际上,AI一体机并不是最近才出现的新事物。在中国市场上,由于大量企业不愿意为单纯的软件和算力付费,或者处于数据安全等原因倾向于将硬件本地部署,因此把软硬件打包在一起的"一体机"一直拥有独特的生存空间。

作为对比,尽管英伟达也推出了Jetson系列的硬件集成平台,但是主要用于机器人和嵌入式边缘计算等场景,而非去做通用大模型的推理。

不过,随着大模型推理成本的降低,以及C端用户需求的增长,英伟达也将目光投向了个人市场。今年早些时候,英伟达就推出了个人超级计算机"Project DIGITS",该产品搭载英伟达全新GB10超级芯片,最高可提供达1 PFLOPS的AI性能,主要用于AI大模型的原型设计、微调及运行。

Project DIGITS(左下角类纸盒物品)号称全球最小的可运行 200B 参数模型的 AI 超级计算机。英伟达官网

英伟达表示,GB10超级芯片让Project DIGITS只需使用标准电源插座就能提供强大的性能。借助 Project DIGITS,用户则可以使用自己的桌面系统开发和运行模型推理,并在加速的云或数据中心基础设施上无缝部署模型。同时,用户还可以通过英伟达技术将两台Project DIGITS AI超级计算机连接在一起,运行包含高达4050亿参数的模型。

华为DS版FusionCube A3000以及中科曙光的DS超融合一体机价格暂不清楚,而英伟达面向个人的消费级Project DIGITS的具体售价约在3000美元左右,今年晚些时候上市。