AI训练是计算密集型的,但推理可以使用功能较弱的芯片,经过编程可以执行范围更窄的任务。随着客户采用和构建DeepSeek的开源模型,对推理芯片和计算的需求将增加。
DeepSeek的测试表明,华为的HiSilicon Ascend 910C处理器的推理性能超出了预期。此外,通过对CUNN内核的手动优化,可以进一步提高其效率。DeepSeek对Ascend处理器及其 PyTorch存储库的原生支持,允许以最少的工作量实现无缝的CUDA到CUNN转换,从而更轻松地将华为的硬件集成到AI工作流中。
新的 Ascend 910C采用小芯片封装,其主计算SoC拥有约530亿个晶体管,是由中芯国际采用其第二代7nm级工艺技术制造的。
AWS推出的推理芯片主要为Inferentia系列,在提升推理效率与降低成本方面表现出色。AWS 推理芯片有Inferentia和Inferentia2两代。第一代Inferentia为EC2 Inf1实例提供支持,吞吐量提升2.3倍,推理成本降70%,搭载多个NeuronCore,支持多种数据类型。
第二代Inferentia2性能飞跃,吞吐量提高4倍,延迟降低,内存和带宽大幅提升,支持更多数据类型。搭配AWS Neuron SDK可集成热门框架,助力AI应用。
寒武纪在推理芯片领域成果显著,思元370芯片表现亮眼。它基于7nm制程工艺,是首款采用chiplet技术的AI芯片,集成390亿晶体管,最大算力256tops(int8) ,相较思元270算力翻倍,基于mluarch03架构,实测性能出色。它也是国内首款公开发布支持lpddr5内存的云端AI芯片,内存带宽为上一代3倍,访存能效高。
思元370搭载mlu - link多芯互联技术,在分布式任务中为多芯片提供高效协同,每颗芯片有200gb/s额外跨芯片通讯能力。软件平台上,寒武纪基础软件平台升级,新增推理加速引擎MagicMind,实现训推一体,提升开发部署效率,降低成本。MagicMind对标英伟达TensorRT,架构和功能更优,优势是性能极致、精度可靠、编程接口简洁,插件化设计还能满足客户差异化需求。
3.更小的成本也能训练大模型,AI训练芯片走向多样化
DeepSeek最突出的是模型效率、训练精度和软件优先的创新,设计了更快、更精简、更智能的模型。DeepSeek的模型通过证明效率可以与原始计算能力相媲美,挑战了传统的AI基础设施依赖。
DeepSeek也有通用的大模型DeepSeek-V3、DeepSeek-R1等,其中DeepSeek-V3包含670亿参数,在2万亿token的中英文数据集上训练,可用于语义分析、计算推理、问答对话等,在推理、编码、数学和中文理解等方面超越Llama2 70B base,展现出显著的泛化能力。DeepSeek V3的基准测试分数与OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet 相当或击败对手。