最后,在抵抗错误信息鲁棒性测试中,低资源语言同样脆弱。当研究者尝试在训练数据中注入错误知识(例如"水凝结成水蒸气")时,英语、法语等高资源语言的模型能坚守正确知识,准确率下降缓慢;但低资源语言的准确率却断崖式下跌。

图4-A:微调(fine-tuning)设置下鲁棒性测试。随着模型在错误知识上进行微调,其整体准确率下降。然而,这种下降在低资源语言中更为明显。

图4-B:上下文学习设置下鲁棒性测试。此处,半径径轴表示有无错误信息时的准确率比率,颜色越深表示相对准确率越低。LLMs在高资源语言中往往比在低资源语言中表现出更强的错误信息抵抗力。
这如同给不同语言用户安装了不同质量的"防护设备":以英语为代表的高资源语言用户获得的是防弹玻璃,而以祖鲁语为代表的低资源语言用户只有瓦楞纸。
"语言马太效应":成因与干预尝试
这种不平等并非模型的偶然失误,而是系统性因素层层叠加的必然结果。
首当其冲的是训练数据的马太效应--语言在CommonCrawl等语料库中的占比与模型性能相关系数高达0.907,英语因CommonCrawl语料库中高占比被划为高资源语言(>1%阈值),而威尔士语等占比不足0.1%即被归为低资源语言。这种数据鸿沟不仅决定了模型对语法、习语和表达模式的熟悉程度,更深层地塑造了其学习新知识的可塑性--高资源语言的用户仅需少量样本就能教会AI新概念,而低资源语言社区必须付出成倍的数据与计算成本,才能获得不那么鸡肋的输出。
更深层的制约来自分词器(Tokenizer)的信息密度差异。优质分词器能将文本压缩为信息密集的token序列。

图5:这张图片展示了论文中分析分词相关因素(Tokenization-related Factors) 的其中两个关键维度。1. 分词器在不同语言上的信息密度有差异;2. 分词边界是否与语言的形态学边界(Morpheme Boundaries)对齐。
而研究发现,英语表达相同内容所需的token数显著更少,分布也更均匀,这直接拓展了模型的有效上下文长度与学习效能。低资源语言往往被分词器过度切割为冗余的token序列,如同使用低效的信源编码。同样的语义内容,在英语中可被压缩为紧凑的信号,在泰米尔语等语言中却不得不以成倍长度的碎片化符号来传递。这种编码效率的差异,导致模型在处理低资源语言时,同等字符数承载的有效信息大幅减少,直接侵蚀了上下文窗口的实际有效容量与学习效能。它并非简单的速度滞后,而是模型认知架构层面的结构性损耗。好比传输低压缩率格式的影音文件,数据流量虽然庞大,实际画面未见得更好。最终表现为模型在处理这些语言时,如同在狭窄的信道里强行吞吐过量数据,不可避免地陷入拥塞与性能衰减。










