跳到主要内容

跨语言幻觉:为什么你的大模型在它不擅长的语言中更容易撒谎

· 阅读需 11 分钟
Tian Pan
Software Engineer

你的模型在评测集上得分92%,但说法语的用户却不断抱怨它在胡说八道。这两件事可以同时为真——而它们之间的差距,是多语言AI系统在构建和评测方式上的结构性问题。

LLM在非英语语言中的幻觉率比英语高出15–35%。在斯瓦希里语或约鲁巴语等低资源语言中,针对同样的事实类问题,性能差距可扩大至38个百分点。然而,大多数团队在推出多语言AI功能时,只使用英语评测套件,汇报掩盖问题的聚合基准分数,直到巴黎或孟买的用户开始提交工单才发现问题。

跨语言幻觉问题本质上不是模型质量问题,而是一种测量与架构失误——团队将多语言AI视为"英语AI加上翻译模块"而一再延续这一失误。

为什么LLM对你的语言所知甚少

根本原因在于预训练数据的不均衡,且数字触目惊心。Llama 3的训练语料约95%为英语和代码,地球上所有其他语言共分剩余的5%。GPT-4处理德语和意大利语文本的成本比英语高约50%——这不是因为这些语言更难,而是分词器针对英语优化,导致同等语义内容在其他语言中需要更多token。

对于真正的低资源语言,情况更为极端。处理宗喀语或奥里亚语的token消耗比等效英语高12倍。缅甸语和藏语需要字节级表示,比中文长4倍。乌克兰语由于其丰富的词法形态,每词token比率高于任何拉丁字母语言。

这很关键,因为token预算是有限的。一个模型需要12个token来表达英语中1个token所表达的内容,意味着每次推理所处理的语义单元更少。预训练中的样本更少、推理时的语义单元更少——模型对该语言所表达的世界知识确实更匮乏,并用听起来合理的虚构内容来填补空白。

对齐数据的问题进一步加剧了这一状况。安全护栏、指令遵循训练和以事实性为导向的微调,绝大多数以英语为中心。团队精心调入模型的行为——"不确定时说'我不知道'"、"不要捏造统计数据"——都是用英语调的。针对低资源语言安全性的研究一致发现,当输入切换为印地语-英语混合或低资源非洲语言时,护栏会急剧失效。模型学到了某种行为,但没有学会将其跨语言泛化。

基准测试的掩盖效应

团队说服自己没有跨语言幻觉问题的方式是:运行MMLU或类似基准,对所有语言取平均值,然后汇报结果。

MMLU-ProX是2025年发布的涵盖29种语言的MMLU版本,揭示了这个平均值背后隐藏的真相。同样的问题跨语言提问,高资源语言与低资源语言之间存在24.3个百分点的性能差距。仅在西班牙语MMLU中,翻译伪影就占了30–60%的失败率——专有名词处理不当、专业术语误译、文化背景缺失。母语者的人工校正在某些类别中可挽回高达63%的失败项。

Mu-SHROOM基准(SemEval 2025)评估了阿拉伯语、德语、印地语、普通话等10种语言中的幻觉检测。尽管所有语言都"包含"在训练数据中,各语言的结果差异显著。一个在英语和法语中看起来还不错的模型,可能在印地语和阿拉伯语中以聚合分数永远无法揭示的频率制造有害捏造。

这里的失败不仅仅是学术问题。当一家公司宣称"我们的模型在多语言事实问答上达到89%准确率"时,这个数字背后可能是:英语95%、西班牙语88%、印地语74%、斯瓦希里语61%。基于这个标题数字做出产品决策的团队,是在虚假的地基上构建系统。

跨语言幻觉的具体表现形式

并非所有类型的幻觉都均匀分布在各种语言中。了解具体的失败模式有助于优先部署检测和缓解措施。

实体混淆最为常见。一个能在英语中可靠回答"谁发明了电话"的模型,在训练数据中该实体关系示例较少的语言里,可能会给出合理但错误的答案。音译人名尤其脆弱——模型可能在英语中见过"Graham Bell"数千次,但在天城文中只见过其音译形式数十次,形成一个薄弱的知识锚点,在推理压力下会退化。

捏造统计数据在低资源语言生成中出现的比例偏高。当模型需要一个支撑数字但该语言没有充分的知识库可供参考时,它会生成听起来合理的数字。这些数字通常量级正确且语法无误——在没有独立核实的情况下很难被发现。

跨模态复合错误在CCHall基准(ACL 2025)中有记录,该基准在9种语言中测试了视觉-语言模型。模型在英语生成时能正确识别图像中的物体,但在低资源语言中生成同一描述时,会幻觉出属性——颜色、大小、特征。视觉定位保持完好,但特定语言的生成过程引入了捏造细节。一个模型可能用英语正确描述图像为"一把椅子",但在其接触视觉描述约束示例较少的语言中输出"一把红色木椅"。

安全护栏绕过值得单独提及,作为一种有别于事实幻觉的生产风险。在英语中可靠工作的毒性过滤、拒绝行为和有害内容检测,在低资源语言或混合语言输入中可能失效。基于英语调优分类器构建内容审核的团队,面临只需切换语言的攻击风险。

按语言质量审计的实践方法

修复从测量开始。只运行英语评测的团队,无法衡量多语言用户的真实体验。一旦面向非英语市场发布产品,将按语言质量审计纳入评测流程就不再是可选项。

最有效的方法是母语者标注而非机器翻译。BenchMAX基准展示了质量差异:它对16种语言的每个样本采用3位独立母语者标注。工作量更大,但信号真实可信。机器翻译的评测集会引入翻译伪影,污染测量结果——你的分数反映的是模型处理翻译问题的能力,而非处理该语言自然表达问题的能力。

对于负担不起全量标注的生产系统,跨语言一致性检查是一种实用的折中方案。用每种目标语言提出同一个事实性问题,比较输出的逻辑一致性。如果你的模型对同一实体在法语中说一件事,在阿拉伯语中说相反的事,即使没有真实标签,这种不一致也是幻觉信号。AlignX框架将此形式化为跨语言的实体级一致性评分。

自动化多语言幻觉检测工具已足够成熟,可用于生产。LettuceDetect支持7种语言(英语、德语、法语、西班牙语、意大利语、波兰语、中文)的幻觉检测,实现轻量,适合内联推理流水线。HaluAgent采用自主多阶段方法——句子分割、工具验证、借助外部来源的反思推理——可扩展至任何具备验证工具的语言。

减少跨语言幻觉的生产架构模式

语言感知RAG与独立知识库。 最有效的架构缓解措施是将生成过程锚定在检索文档上——但这只有在维护语言匹配的知识库而非单一英语主导索引时才有效。法语查询命中英语知识库,在生成开始之前就已经降质了。MEGA-RAG(多证据引导架构)通过将生成锚定在语言匹配的检索内容中,并增加一个调和冲突证据的精化步骤,实现了40%以上的幻觉减少。

按语言定制指令集。 语言特定的系统提示比大多数团队预期的更重要。用英语调优的"如果不确定,请说明"指令,在对齐训练未强力强化相同行为的语言中可能无法可靠迁移。对于高风险的多语言部署,需要按语言维护独立的系统提示,在每种语言中明确测试不确定性表达,并验证拒绝行为在分布外输入下能正常触发。

语言感知路由。 不同模型在多语言方面有实质性的不同优势。根据请求语言选择模型和配置的路由层——而非将单一前沿模型应用于所有内容——可以在控制成本的同时提升准确率。对于高资源欧洲语言,前沿模型表现良好。对于训练表示有限的低资源语言,专用模型或配合适当路由的英语翻译流水线可能优于直接生成。语义路由结合成本感知回退,在高资源语言查询上可减少30–40%的基础设施成本而不损失准确率。

按语言调整温度参数。 较低的采样温度(0.1–0.3)可降低所有语言的幻觉率,但在低资源场景中效果更显著,因为模型的不确定性更高。对于低资源语言中的事实性、受约束生成任务,贪心或近贪心解码通常是正确的起点。将较高温度留给表示充分的语言中的创意任务,在那里你可以承受一定的方差。

批次级多语言对齐。 对于进行微调的团队,在不降低英语性能的前提下提升非英语准确率的最有效方法是批次级对齐——从跨语言的语义等价示例而非单语言批次中构建微调批次。研究表明,这可以将非英语准确率提升高达23.9%,同时不产生英语回退。

测量差距即是产品差距

跨语言幻觉问题在架构层面是可解决的,但大多数团队从未解决它,因为他们从不测量它。仅有英语评测套件加上聚合多语言基准分数,制造了一种根本不存在的对等假象。

实际起点是选择你使用最多的三到四种非英语语言,为每种语言构建规模小但经母语者标注的评测集,并在聚合分数之外追踪按语言指标。第一次运行时,你会发现自己之前不知道的差距。这些差距,正是你的非英语用户现在正在经历的。

第二步是将语言作为架构变量——路由、知识库、系统提示和温度设置——而非翻译问题。翻译假设模型在所有语言中知道相同的事物,但它并不。能够说明每种语言知识深度差异的架构,才是真正弥合基准测试数据与用户反馈之间差距的方法。


跨语言幻觉不是前沿研究问题。测量它的工具已经存在。减少它的架构模式已有记录。大多数生产系统所缺少的,是将非英语质量作为一等关切而非本地化细节来对待的决策。

Let's stay in touch and Follow me for more thoughts and updates