打假门槛低了
这场风暴最让人震惊的地方,不是耿同学有多厉害,而是他用的方法竟然出奇地"低门槛"。
在中国学术圈,过往的学术打假是极少数人的能耐。要么你是同领域学者,要么得像饶毅那样有学界影响又有揭露问题的勇气,普通人连Nature这种期刊的文章都未必能完全读懂,更别提找出数据造假的痕迹了。造假者占尽了所有便宜,专业壁垒让外行人无从下手,学术共同体的"熟人社会"让内行人睁一只眼闭一只眼,期刊审稿人时间精力有限只能基于信任评审。这三个门槛对普通人来说太高了,也因此让造假长期是一种"低成本、高回报"的选择。

而耿同学的打法和所有人都不一样。他不跟你讨论高深的生物学机制,不需要在Nature发过论文才有资格质疑你。他的武器是AI辅助的图片和数据查重技术。
他的操作方法被技术圈拆解过,核心流程其实只有三步:把一篇论文的PDF拆成文本、表格和图片,再把数据交给AI做审查。
具体来说,他重点检查三个地方:
第一,看数据末尾数字分布是否过于集中。真实的实验数据因为测量误差的存在,小数点后一位乃至两位应该是随机分布的,而造假数据则会出现大量"5""0"或某个数字完全消失的情况。
第二,看不同量表之间的数据有没有雷同。比如基因表达量的数据序列和肿瘤体积的数据序列,本该毫不相干的实验却出现了几个数值完全相同。
第三,用视觉大模型检查图片有没有被篡改或重复使用。
耿同学自己有一句话说得极妙,在揭露中山大学邝栋明的论文造假时,他说:"这不仅是学术界的耻辱,更是造假界的耻辱。连随机数生成器都不会用的人,也配学术造假?"
数据造假被发现,根本原因往往不是造假者技术太差,而是太敷衍。中山大学康铁邦论文中被质疑的实验图片,被网友形容为"像是从不同论文里直接复制粘贴的"。上海大学苏佳灿的论文数据中,一组数据直接呈等差数列,"人为编造痕迹明显"。就连同济大学王平的那篇Nature论文,196只小鼠的体重数据中也出现了一只末位为"0"的离群值,这在统计学上是极不自然的。










