MiMo-V2-Flash的推理效率是其突出优势,在全球大致相同水位的顶尖模型速度和成本象限里,MiMo-V2-Flash实现了低成本和高速度优势。

具体来看,小米围绕极致推理效率来设计模型结构,采用了Hybrid SWA架构,固定KV Cache,增强长文推理,此外,团队采用3层MTP推理加速并行Token验证,实现推理速度2-2.6倍的提升。

在全新后训练范式方面,团队采用了Dense&Token-Level的强化学习。

MiMo-V2-Flash的推理效率是其突出优势,在全球大致相同水位的顶尖模型速度和成本象限里,MiMo-V2-Flash实现了低成本和高速度优势。

具体来看,小米围绕极致推理效率来设计模型结构,采用了Hybrid SWA架构,固定KV Cache,增强长文推理,此外,团队采用3层MTP推理加速并行Token验证,实现推理速度2-2.6倍的提升。

在全新后训练范式方面,团队采用了Dense&Token-Level的强化学习。
