讯飞星火之后,蚂蚁用国产芯片训练出2900亿参数大模型

2025-03-24 19:00  观察者网

3月24日,彭博社援引知情人士消息称,蚂蚁集团已成功利用阿里巴巴、华为等国产芯片,结合混合专家(MoE)架构训练出参数规模达2900亿的大模型"Ling-Plus",其性能与英伟达H800芯片训练的同类模型相当,且训练成本降低20%。这一突破是继科大讯飞"星火大模型"之后,中国国产算力生态即将迎来的第二个标志性大模型。

据蚂蚁集团Ling团队发布的论文,其自研的Ling系列模型通使用国产厂商(如壁仞科技、天数智芯、寒武纪等)的产品,训练1万亿Token的成本从635万元降至508万元,降幅达20%,但模型性能仍可对标阿里通义Qwen2.5-72B和DeepSeek-V2.5。

针对外媒(彭博社)关于蚂蚁百灵大模型训练成本的报道,蚂蚁方面回应观察者网称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

除了自研性能领先的大模型以外,该技术论文最大的突破在于提出了一系列创新方法,以提升资源受限环境下AI开发的效率与可及性。实验表明,其3000亿参数的MoE大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。作为国内较早布局AI大模型的厂商,蚂蚁自研的百灵大模型2023年已通过备案,重点布局在生活服务、金融服务、医疗健康等场景的应用。

在此之前,科大讯飞发布了首个基于全国产化算力平台训练的全民开放大模型--讯飞星火V3.5。

本月,科大讯飞与华为联合团队宣布,成功在昇腾国产算力集群上实现MoE模型的大规模跨节点专家并行推理。这是继深度求索(DeepSeek)公开MoE训练方案后,业界首个完全基于国产算力的解决方案。

通过算子融合、混合并行策略和通信计算并行优化等一系列创新,科大讯飞在国产算力上实现了显著性能提升:单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。

基于此次科大讯飞携手华为所做的首个基于国产算力的MoE模型训推方案,科大讯飞称,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek-V3和R1的高效推理。

科大讯飞"星火"验证了国产算力的可行性,蚂蚁"Ling系列"则进一步证明其规模化和经济性。随着阿里、华为等巨头加码,中国AI产业正从"单点突破"转向"生态协同"。这场算力平权运动,或将成为全球AI竞赛的新变量。