
当越来越多的人通过AI获取信息、写作和学习时,一个新的问题开始浮现:如果AI本身在知识获取和传播上存在结构性偏差,人类是否也会在不知不觉中受到影响?
一项于12月18日发布在PNAS的研究聚焦于大型语言模型(LLM)在不同语言环境下学习新知识时的不平等现象。研究团队针对 19 种语言和 4 个主流模型(包括 GPT-4o-Mini、Llama-3.1-8B 等)构建了多语言平行数据集,通过上下文学习和微调两种方式,系统性地观测了基于语言的性能差异。研究发现,LLM 在处理低资源语言时,在新知识学习的效率、跨语言迁移、知识冲突的优先级处理以及鲁棒性四个维度上相较高资源语言均存在显著差距。此外,研究进一步分析了造成这种不平等的底层机制,涉及语言自身属性、预训练数据规模与工程优化、分词器设计,以及模型内部负责跨语言知识流动的"语言神经元"分布特征。
当越来越多的人依赖AI获取知识与做出判断时,这种结构性不平等不仅意味着技术偏差,也可能影响人类自身的认知能力。一些认知科学与教育研究者近期警告:如果人类逐渐把信息检索、推理与学习过程外包给AI,而AI本身又在知识获取上存在系统性偏差,人类整体的知识结构与思考能力可能随之退化。
关键词:大语言模型(LLM),语言不平等 (Linguistic inequality),高/中/低资源语言(
High-/Medium-/Low-resource languages),跨语言知识迁移,知识优先级,语言神经元(Linguistic Neurons),鲁棒性 (Robustness)

论文题目:Uncovering inequalities in new knowledge learning by large language models across different languages
论文链接:https://www.pnas.org/doi/10.1073/pnas.2514626122
发表时间:2025年12月18日
论文来源:PNAS
楔子:AI时代的"语言马太效应",以及潜在的认知退化
想象这样一个场景:2048年,一种全新的健康监测技术"基因分析"问世。当一位英语用户询问AI助手时,它能迅速学习并给出准确答案;但换成一位斯瓦希里语用户,AI却要么回答错误,要么需要更长时间学习才能掌握这一概念。更微妙的是,实验把同一技术同时用斯瓦希里语和英语注入模型,可当第三语言提问时,它仍优先输出英语版本的答案。
简而言之,AI在英语环境中可能表现得像个天才,但在斯瓦希里语环境中却可能像个学渣。这种在获取新知识过程中的不平等,正在数字世界中构建一种隐形的"马太效应"。
这并非科幻想象,而是发生在大语言模型(LLMs)内部的真实困境。随着ChatGPT等工具在全球拥有数亿周活跃用户,越来越多非英语母语者依赖这些系统获取信息、解决问题。传统研究多关注LLMs静态知识库中的语言不平等--比如低资源语言因训练数据少而基础性能差。但PNAS发表的最新研究指出,以往关注的多是模型富集了多少已有知识,却忽视了一个更关键的问题:AI是如何学习新知识的。
这一问题之所以重要,是因为当人类越来越依赖AI来学习和理解世界时,AI学习能力的偏差可能逐渐影响人类自身的认知方式。如果AI系统在某些语言环境中持续提供较低质量的知识,人类用户不仅获得的信息更少,还可能逐渐减少独立思考与学习的机会。这也是近期一些专家担忧AI可能导致"人类智能退步"的原因之一--认知能力可能在长期技术依赖中被弱化。
这种差异具体表现在四个维度:效率差异(能否快速学习新知识)、迁移差异(知识的跨语言流动性)、优先级差异(知识冲突)、鲁棒性差异(能否抵抗错误信息)。研究团队通过19种语言、4个主流模型的系统性实验,首次量化了这种不平等的程度,并揭示了其背后令人不安的机制--AI不仅在复制人类社会的语言不平等,还可能在认知层面放大这种差距。
研究背景:AI如何学习新知识
大语言模型的知识更新依赖两种主要方式:上下文学习(in-context learning)和微调(fine-tuning)。前者通过提示词临时注入新知识,后者则通过持续训练将知识固化到模型参数中。无论哪种方式,理想状态都应是语言中立的--即同样质量的知识,不论用英语、泰语还是威尔士语呈现,AI都应同等对待。
但现实远非如此。传统研究已证实,由于训练数据中斯瓦希里语等语言不足0.1%,导致模型在现存的知识上存在巨大鸿沟。这种静态差距被称为"预训练不平等"。
然而研究团队指出一个被长期忽视的问题:AI是持续进化的系统,当它不断吸收新知识时,这种不平等会自我强化还是自我修正?
答案是令人担忧的。试想当同一议题的"低资源语言答案"与"英语答案"在模型里并存时,只要用任意第三语言提问,模型仍会大概率输出英语知识。
这种动态学习过程中的不平等意味着,低资源语言社区不仅在起跑线上落后,更在比赛进行中不断被拉开距离。
如果考虑到现实中越来越多的人通过AI获取知识,这种结构性偏差还可能带来另一层影响:不同语言用户所接触的知识质量与广度会出现长期分化。在高度依赖AI的社会中,这种差距可能逐渐转化为认知能力与知识结构的差异。
实验设计:19种语言与4个模型
为了捕捉这种微妙的不平等,研究团队设计了一个精妙的实验框架,涵盖19种语言(按照开放网页数据集中占比分为高、中、低资源语言)和4个主流模型(GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B)。
关键在于他们构建了多语言平行数据集--同一组问题被翻译成所有语言,确保知识"质量"完全相同,从而隔离出语言本身的影响。
实验使用四类数据集:
- 虚构新知识:例如设定在2048年的未来场景,包含200个问答对(如"如何用基因分析追踪健康")
- 真实医学知识:从MultiMedQA筛选的专业医学问题,确保对模型是"全新"的
- 通用常识对抗集:人类构造的常识问题,用于测试抗错误信息能力
- 生成的常识对抗集:AI生成的常识问题,用于测试抗错误信息能力
通过这两种知识类型的对比,研究能清晰区分:是新知识本身难学,还是语言导致了学习差异? 实验在两种场景下进行:上下文学习(知识放在提示词中)和微调(知识写入参数),全面覆盖实际应用情况。
正是在考虑控制变量后的观察窗口中,不平等的四重面向逐渐清晰。










