公开指控中国三家大模型公司非法蒸馏攻击,Anthropic的指控站得住脚吗?(2)

2026-02-28 13:32  钛媒体APP

什么是模型蒸馏?

要理解整场争议,首先必须厘清"模型蒸馏"这一核心技术概念。

这是一种知识迁移(Knowledge Transfer)的方法。前大厂AI技术人员Frank打了个比方,就像老师读了1000万本书,过滤掉500万本,只留下精华的部分。学生可以直接学习这些精华,"脑容量"可以变小,但能力却能接近老师。其本质是实现模型能力的高效传递与复用。

需要明确区分的是,模型蒸馏与备受质疑的"套壳"有着本质的差别。北京理工大学博士生王明解释,"套壳"是简单地调用第三方模型的API接口或者原封不动移植开源模型,然后包装上自己的产品外壳;而模型蒸馏是一个完整的训练与优化过程,最终生成一个全新、独立的模型。

模型蒸馏最早在2015年被提出,最初主要应用于图像分类和语音识别等场景。随着大模型时代的到来,"模型蒸馏已成为行业常态,即使是海外头部模型厂商也会学习对方模型的优势能力",AI创业者Jojo告诉「AIX财经」。

模型蒸馏之所以在业内被广泛采用,原因在于降本增效。

从零开始训练一个高性能的大模型,需要耗费海量的高质量数据、巨大的算力以及漫长的研发周期,成本极其高昂。

通过蒸馏,AI企业首先降低了数据成本:利用成熟模型的API生成高质量的"问答"作为训练数据,大幅减少人工标注和数据清洗的成本;其次加速了研发进程:快速让自身模型的能力向行业头部模型看齐,缩短技术差距,更快地验证产品和商业模式。

然而,为了防止自身核心能力被轻易"蒸馏",闭源模型厂商也在采取防范措施。王明提到,Anthropic已经声明,一旦识别到用户在进行模型蒸馏,可能会对输出语料进行"投毒",也就是在正常语句中混入错误标点、打乱文字顺序、植入隐性错误等,迫使蒸馏方投入大量人力校对、清洗数据,以此变相提高蒸馏成本。但这同样可能损害自身模型的声誉和用户体验。

模型蒸馏的技术中立性与商业应用的复杂性,自然引出了下一个核心问题:在法律层面,这些行为该如何界定?