构建多语言 AI 产品:没人衡量的质量悬崖
你的 AI 产品在评估套件中获得了 82% 的分数。你向 40 个国家发布了产品。三个月后,法国和德国用户报告的质量与英语用户相似。印地语和阿拉伯语用户则悄悄停止了使用该功能。你的综合满意度评分几乎没有波动 —— 因为英语用户主导了指标池。悬崖一直都在。你只是没有测量它。
这是大多数发布多语言 AI 产品的团队都会遇到的典型情况。质量差距并非微乎其微。像 QwQ-32B 这样的最先进模型,在英语推理基准测试中分数为 70.7%,但在斯瓦希里语中则下降到 32.8% —— 这是 2025 年测试的最佳模型在性能上的 54% 相对崩溃。而且这还是 最佳 模型。这种差距并不会随着模型变大而消失。它在高资源语言中会缩小,但在其他语言中依然很大。
根本原因在于训练数据
预训练数据分布是原罪。英语在 Common Crawl(大多数大语言模型的主要数据源)中占据主导地位,约占所有爬取内容的 41%。俄语占 6.5%,德语占 6%,日语占 5.7%,中文占 5%。阿拉伯语低于 1%。印地语低于 0.5%。孟加拉语、斯瓦希里语和世界上大多数其他语言的占比仅为噪点级别。
模型训练直接反映了这种偏差。LLaMA 2 训练了大约 90% 的英语 Token。其他语言仅以微量存在:德语为 0.17%,法语为 0.16%,中文为 0.13%。LLaMA 3 略微改善了这一比例 —— 但 Meta 自己的文档指出,在 30 种语言中,只有 5% 的预训练 Token 是非英语的,并明确警告其性能 “无法与英语匹敌”。BLOOM(BigScience 模型)特意做了多语言设计选择,但即使是其平衡的 ROOTS 语料库,按 Token 计数最终也有 30% 是英语。
下游效应在模型内部层面是可测量的。研究分析了不同语言之间内部层表示的余弦相似度,发现 LLaMA 2 7B 对韩语的表示与英语表示的相似度分数为 0.2–0.5,而拥有 0.17% 训练数据的德语则在 0.58 左右。该指标与训练数据比例直接相关,这种模式在 LLaMA、Qwen、Mistral 和 Gemma 模型家族中都存在。这并非单个厂商的特有现象。这是模型大规模构建方式的结构性特征。
规模化并不能统一解决这个问题。更大的模型可以提高低资源语言的性能,但在某些能力维度上,相对于英语的差距往往会持续存在甚至扩大。
三种不同的失败模式 —— 而非一种
考虑多语言质量的团队通常将其定义为一个单一问题:“模型在其他语言中知道的较少”。这种框架忽略了两个同样重要的 失败模式。
能力悬崖(Capability cliff)。 模型在非英语语言中确实知识较少且推理能力较弱,因为它在这些语言中看到的训练数据较少。这在基准测试中得到了体现:MMLU-ProX 测试了 29 种语言的 36 个模型,发现相同问题在资源丰富和资源匮乏语言之间存在 24 个百分点以上的差距。一项医疗聊天机器人研究测试了 ChatGPT-3.5 和针对西班牙语、中文和印地语的专业医疗模型 —— 结果发现,与英语相比,正确性降低了 18%,一致性降低了 29%,可验证性降低了 13%。一个专业模型对超过 67% 的非英语医疗查询给出了无关或矛盾的回答。
安全悬崖(Safety cliff)。 对齐训练(RLHF、宪法 AI、安全微调)绝大多数是用英语进行的。在英语中训练到模型中的约束往往无法迁移到其他语言层面。布朗大学的研究表明,GPT-4 的安全护栏在英语中拦截有害提示的成功率不足 1%,但如果将相同的提示翻译成祖鲁语、苏格兰盖尔语、苗语或瓜拉尼语,则可以被绕过约 79%。这并非理论发现。在研究公开后,OpenAI 修复了这个问题。从业者在 Gemini 中也独立确认了类似的差距,在同一会话中,当查询切换到某些非英语语言时,在英语中正常工作的安全拒绝会被绕过。
输出语言悬崖(Output language cliff)。 这是大多数团队最先发现并误诊的问题。模型收到阿拉伯语查询,却用英语回答。它理解了问题 —— 只是默认输出英语。经过指令微调的 LLaMA 2 模型在回答阿拉伯语查询时,单语言通过率仅为 0.3%。几乎每一个回答都忽略了查询语言。一个违反直觉的发现是:指令微调反而恶化了这个问题。基座模型在处理语言一致性方面表现更好。主要在英语数据上进行的指令微调放大了英语输出偏见。
这种输出语言 悬崖在 RAG 系统中以更隐蔽的形式出现。当检索到的上下文是英语但用户用中文查询时,模型经常会 “漂移” 到生成英语。在一次系统研究中,当检索到的上下文是英语时,中文目标的语言一致性从 92% 下降到 68.4%。在跨语言的 70–98% 的漂移案例中,模型默认输出英语。
为什么仅限英语的评估无法捕捉到这些问题
标准评估流程:构建英语测试集,运行模型,衡量总体准确率。或许翻译一部分示例进行抽查。发布到生产环境。
问题会在每一步叠加。
基于翻译的基准测试会将原始的英语结构带入目标语言,从而扭曲结果。一项针对西班牙语 MMLU 的研究发现,翻译错误(术语翻译错误、专有名词处理不当、语义偏移)在某些类别中占到了表象失败的 30% 到 60%。人工修正这些翻译痕迹后,多达 63% 的失败项得以恢复。翻译内容的基准测试得分并不衡量模型在目标语言中的能力;它们衡量的是模型能力与翻译质量的混合。
文化偏见加剧了这一问题。对 MMLU 的分析发现,28% 的问题需要西方文化知识,84.9% 的地理问题集中在北美或欧洲地区。当你将文化敏感型问题与文化无关型问题分开时,模型排名会发生重大变化。针对完整 MMLU 优化的模型可能是在利用西方知识优势,而非通用推理能力。
总体得分掩盖了分布情况。一个声称“29 种语言平均分”为 75% 的模型,在英语和法语上可能达到 95%,但在斯瓦希里语和孟加拉 语上仅为 40%。大多数模型卡片(Model cards)不显示每种语言的明细。声称支持 30 多种语言的模型厂商很少披露评估方法或每种语言的性能数据。
最终的失败在于生产环境的信号本身。非英语用户如果持续得到较差的回答,会悄然流失或停止使用该功能——但他们在总体满意度得分中的权重太小,短期内无法影响指标。你会看到总体 CSAT(客户满意度)保持平稳,而一个重要的用户群体却停止了互动。你需要按语言划分的 CSAT 检测手段才能发现这一点。几乎没有团队拥有这种能力。
真正有效的语言检测与路由
- https://arxiv.org/abs/2503.10497
- https://arxiv.org/abs/2502.07346
- https://arxiv.org/abs/2404.11553
- https://arxiv.org/html/2406.20052v1
- https://arxiv.org/abs/2511.09984
- https://arxiv.org/abs/2310.02446
- https://www.newsguardtech.com/press/ai-multilingual-failure-russian-chinese/
- https://news.gatech.edu/news/2024/05/15/chatbots-are-poor-multilingual-healthcare-consultants-study-finds
- https://commoncrawl.github.io/cc-crawl-statistics/plots/languages
- https://arxiv.org/abs/2412.03304
- https://openreview.net/forum?id=k3gCieTXeY
- https://arxiv.org/abs/2404.16816
- https://medium.com/data-science-at-microsoft/building-and-evaluating-multilingual-rag-systems-943c290ab711
- https://rnd.ultimate.ai/blog/language-detection-tips-tricks
- https://hamming.ai/resources/multilingual-voice-agent-testing
- https://royapakzad.substack.com/p/multilingual-llm-evaluation-to-guardrails
