斯坦福AI团队被质疑抄袭国产大模型

2024-06-03 19:00  观察者网

一个由斯坦福学生组成的AI团队,近日被曝出了抄袭行为,疑似抄袭了中国的大模型成果。6月3日,团队成员之一在社交媒体发文道歉,但在不久之后又删除了博文。

5月29日,一个研究团队发布了一个名为"Llama3-V"的模型,声称只需要500美元(约合人民币3625元)就能训练出一个SOTA(State of the Art,即最先进的)多模态大模型,效果比肩 GPT4-V、Gemini Ultra 、 Claude Opus ,但模型小100倍。

公开信息显示,Llama3-V团队的其中两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾发表过数篇机器学习相关的论文。名校背景,特斯拉、SpaceX等大厂经历的成员,再加上号称足以"改变现状"的研究成果,Llama3-V受到了相当程度的关注。Llama3-V不仅在社交媒体上迅速蹿红,还一度冲上了HuggingFace趋势榜首页(机器学习领域中较有影响力的平台,其趋势榜一定程度反映出模型的流行度)。

但很快,便出现了对Llama3-V的质疑。有网友爆料Llama3-V套壳国内大模型初创企业"面壁智能"和清华大学自然语言处理实验室联合推出的MiniCPM-Llama3-V 2.5,并在面壁智能GitHub的项目下放出了证据。

这些证据包括:Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同,仅有一些变量名和格式化的差异;Llama3-V使用了MiniCPM-Llama3-V 2.5的分词器(tokenizer),并且连同MiniCPM-Llama3-V 2.5定义的特殊符号也出现在了Llama3-V中;将从HuggingFace下载的Llama3-V模型权重中的变量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代码成功运行。

两个模型的代码对比

网友为什么不直接质疑Llama3-V,而是在面壁智能GitHub的项目下进行爆料?事实上,网友此前于6月2日在Llama3-V页面上提出的质疑,不过很快便被Llama3-V的作者已经删除了。

在MiniCPM-Llama3-V 2.5团队收到提醒后也迅速作出反应,于是一个新的证据出现。Llama3-V模型居然可以识别"清华简"。

公开资料显示,清华简是清华大学于2008年7月收藏的一批战国竹简,为战国中晚期文物。MiniCPM-Llama3-V 2.5团队透露,识别清华简是MiniCPM-Llama3-V 2.5的一项实验功能,训练图像是最近从出土文物中扫描并由MiniCPM-Llama3-V 2.5团队标注,且尚未公开发布。

而两个模型在识别的表现上,正确的结果上基本一致,错误的情况也颇为相似。

识别结果对比

鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示,很难用巧合来解释这种不寻常的相似性,希望Llama3-V的作者能够对这个问题给出官方解释。相信这对开源社区的共同利益很重要。

而在受到质疑后,目前Llama3-V 的 GitHub 项目主页已显示为"404",HuggingFace上Llama3-V项目也已经不可见,在作者社交媒体账号上也找不到此前宣传 Llama3-V 的内容。

6月3日,Llama3-V团队成员Aksh Garg在社交媒体上发文回应了质疑。但随后不久这条回应便被删除。

网友截图,目前这条动态已不可见

另据媒体消息,面壁智能CEO李大海也对此做出回应,他表示,"技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。 我们希望团队的好工作被更多人关注与认可,但不是以这种方式。我们对这件事深表遗憾!一方面感概这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的社区环境。一起加油合作,让世界因AGI的到来变得更好!"

今日关注
更多