翻译并非本地化:多语言 AI 正面临的文化校准债务违约
一个多语言发布版本,如果只是将英文提示词翻译成 N 种语言,并将英文评估集也翻译成同样的 N 种语言,那它并没有发布一个真正的多语言产品。它只是将同一个产品发布了 N 次,并让所有的失败模式在它自己的仪表盘上变得不可见。该系统虽然表达流畅,但在文化层面上显得格格不入,而团队优化的指标——翻译质量——并不是衡量用户反应的正确维度。
发布当天的明显缺陷通常很小。一位日本用户收到的回复虽然语法正确,但显得生硬无礼。一位印度尼西亚用户发现助手以一种欢快直接的语体说话,听起来却很不礼貌。一位韩国用户收到的建议是围绕个人选择展开的,而提示词其实是关于家庭决策的。这些都不是翻译错误。它们是文化语体(cultural-register)错误,翻译无法修复,且经过翻译的评估也无法检测出来。
必须落地的准则描述起来很简单,但实践起来却很陌生:由当地人员编写的区域原生评估,而不是从英文翻译过来的评估;特定区域的提示词变体,编码了不同于翻译的文化习俗;针对每个区 域进行明确的礼貌与拒绝校准步骤,因为以英文为主的 RLHF 安全微调默认值并不能均匀转移;以及尊重当地敬语和姓名顺序惯例的命名实体处理。每一项都是可行的;陷阱在于,大多数团队衡量多语言推广的地方,都看不见这些工作。
翻译流水线隐藏的失败模式
在进行多语言发布时,本能反应是将翻译质量视为产品质量的代名词。这是一个令人欣慰的指标,因为它是可衡量的,BLEU 和 COMET 的数值会产生可预测的变化,而且本地化团队也有一套合情合理的工作流程。但这个代理指标是错误的,因为用户察觉到的失败存在于翻译系统明确试图不改变的语体和规范中。
考虑一个最简单的例子。一个英文银行助手被训练为用一种业务化、略微非正式的确认方式(“Sure, I can help you with that”)来回答电汇问题。翻译成日语后,字面对应的表达会变成一种随意的语体,日语用户绝不会对金融机构使用这种语体。翻译成德语后,同样的回复可能显得过于亲近。翻译成巴西葡萄牙语后,与当地服务互动中温暖的规范相比,同样的回复可能显得冷淡。翻译器没有错。错在原文不适合目标区域,而翻译忠实地保留了这一错误。
评估集也继承了同样的错误。翻译后的评估衡量的是模型是否忠实地呈现了以英文为基准的标准答案。它并不评估答案对于目标区域的原生用户来说是否得体。对翻译后的基准测试进行的审计显示,翻译痕迹——专有名词误译、成语流失以及缺乏文化适配——大约占了明显失败 案例的 30% 到 60%,而且即使是忠实的翻译也无法捕捉到基准测试需要测试的文化细微差别。团队发布了,仪表盘是一片绿色,而支持邮箱是唯一知道产品表现得不合时宜的系统。
“文化校准”在提示词栈中的实际含义
解决方法并不是在系统提示词中增加一句关于保持礼貌的话。解决方法是将每个区域视为一等公民的部署表面,拥有其专属的提示词变体、评估集和质量标准。
特定区域的提示词变体编码了翻译无法从上下文中推断出的惯例。日语变体规定了敬语等级(通常服务场景默认为 teineigo,正式任务使用 sonkeigo)、姓名处理(姓在名前,不使用西式的“仅称呼名字”的亲昵感),以及比英文默认方式更具歉意和委婉的拒绝风格。韩国语变体在六个语体等级中进行选择,并匹配用户发出的正式度信号。德语变体选择 du/Sie 的界限。巴西葡萄牙语变体则增加了服务语体的温度。这些并不是彼此的翻译;它们是独立的提示词设计,恰好共存于同一个产品中。
评估集必须由当地母语人士编写,而不是从英文翻译而来。这是大多数团队会跳过的步骤,因为它的成本最高。成本是真实存在的,但替代方案更糟糕。较新的多语言基准测试如 SinhalaMMLU、TurkishMMLU 和 HKMMLU 已经摒弃了基于翻译的构建方式,正是因为经过翻译的评估会系统性地评分错误——它们奖励模型生成另一种语言的“英文式”答案,而不是适合当地情况的答案。区域原生评估将揭示翻译后的评估在物理上无法发现的失败,因为在模型看到这些失败模式之前,翻译流水线就已经把它们过滤掉了。
命名实体处理规则具有看似微小实则关键的支撑作用。一个称呼韩国用户为 “Min-jun” 而不是 “Park-ssi” 的模型,犯的不是翻译错误,而是关系错误。在约定俗成使用 “Tanaka-sama” 的日本商业环境中,使用 “Ms. Tanaka” 的模型刚刚传达了一些关于其来源和语体的信息,用户会准确地读出其中的含义,而团队却不会。这些都是本地化风格指南为人类作者编码的细节,它们需要在提示词栈中进行等效的编码——不是作为修饰,而是作为核心行为。
安全默认设置无法跨语言迁移
更难的问题在于,模型本身在它所支持的语言之间的训练并不均衡。生产模型的 RLHF 绝大多数以英语为主。最近的机械论(mechanistic)研究表明,拒绝行为锚定在那些在英语标记(token)序列上能清晰激活的表征上,而随着输入偏向低资源语言,这种表征就会退化。其实际后果令人不安。
在某些非英语语境下,拒绝率大幅下降 —— 关于西非语言的研究报告称,对于英语模型会可靠拒绝的提示词,其拒绝率下降到了 35-55%。同样的效果也催生了一类跨语言越狱(cross-lingual jailbreaks),攻击者将原本会被拒绝的提示词翻译成安全训练覆盖不足的语言。模型的拒绝方向在不同语言中大致是通用的,但它区分有害提示词与无害提示词的能力却并非如此,而差距正是失效产生的地方。
反过来看,同一个 模型在某些语言中可能会出现过度拒绝的情况,因为训练数据促使它在目标文化中属于常规的话题上保持谨慎。如果一个模型因为其锚定英语的安全训练缺乏语境,而拒绝讨论某种文化上正常的做法并称其为“不安全”,这与越狱是不同类型的错误,但对用户来说同样显而易见。
- https://aclanthology.org/2026.mme-main.pdf
- https://arxiv.org/abs/2412.03304
- https://arxiv.org/html/2503.10497v1
- https://arxiv.org/html/2406.17789v1
- https://arxiv.org/html/2505.17306v1
- https://arxiv.org/abs/2602.01283
- https://arxiv.org/html/2406.14805v2
- https://aclanthology.org/2025.coling-main.567.pdf
- https://arxiv.org/html/2502.08045v3
- https://www.sciencedirect.com/science/article/pii/S2949882125001082
- https://www.1stopasia.com/blog/asian-formality-systems-ux-compliance/
- https://en.wikipedia.org/wiki/Korean_honorifics
- https://huyenchip.com/2022/02/07/data-distribution-shifts-and-monitoring.html
