苹果为何没相中DeepSeek而选择阿里？一文详谈！

Qwen2.5-Max超越deepSeek V3这个事情背后有个故事，早在春节前夕，DeepSeek火爆全球之后，阿里的算法专家也一直在研究，后来终于找到了关键点，deepSeek的底座用的是Moe模型，阿里的Qwen用的还是Moe模型。甚至Meta的LLaMA的底座也是。

‌MOE模型（混合专家模型）是AI圈热门的大模型架构，这个架构的厉害之处，它只需要激活必要的参数来处理输入的数据，主动减少计算需求，主动计算需求减少，自然节约算力，算力节约了就能节约芯片数量，使得计算成本得以大幅降低，推理性能也有所改善。

因此，阿里工程师醒悟过来，为什么DeepSeek能火爆全网、让整个硅谷科技圈睡不着觉，而Qwen不能? 要知道，在Moe架构领域，Qwen是规模最大的那一个，又有20万亿Tokens(相当于1.5亿本小说)。于是阿里的工程师加班加点，甚至把车票都退了，终于在大年初一，发布了新的模型Qwen2.5-Max。

可能就是阿里的新模型Qwen2.5-Max让苹果开始放弃百度转向了阿里。

因为Qwen2.5-Max这个版本的亮点在于，超大规模的MoE模型，预训练数据超20万亿Tokens，全面超越DeepSeek V3，性能更强，更节约算力。需要注意的是，阿里Qwen 2.5Max超过了DeepSeek-V3，没有超过deepSeek R1。

苹果为何没相中DeepSeek而选择阿里？一文详谈！(3)