你的系统提示词还在用英文:AI 本地化不完全的隐形成本
你的团队发布了一项 AI 功能。你为本地化工作感到欢欣鼓舞:每个按钮标签、工具提示和错误消息都被翻译成了 12 种语言。产品经理签了字。该功能在全球上线。
然而,六周后,一位德国用户发布了一张截图。AI 的回答用词正确但语域(Register)不对 —— 在非正式的客服场景中显得过于生硬。一位日本用户反映,结构化输出中的日期格式为 MM/DD/YYYY,这导致他们的下游工具出现故障。一位巴西的支持工程师注意到,AI 在对复杂查询进行推理时,偶尔会在句子中途滑入英语。这些并不是基础设施故障。你的仪表盘显示一切正常。但对于非英语用户来说,产品正在悄无声息地变得更糟。
根本原因几乎总是一样的:团队翻译了 UI 字符串,但却让系统提示词保留为英文。这看起来像是本地化,但事实并非如此。
为什么系统提示词不是中性文本
系统提示词不是配置文件。它是模型运行其中的推理支架。它确立了角色、语气、输出结构、约束,以及模型与用户之间隐性的文化契约。当这个支架是用英文编写,而用户正在使用德语、日语或阿拉伯语进行交互时,模型会面临一种失配,而这种失配是英语性能指标永远无法揭示的。
多语言大语言模型(LLMs)处理所有语言的方式并不对称。在内部,即使处理非英语输入,大多数主流模型也会默认采用类似英语的表示空间 —— 它们将输入转换为英语潜空间表示进行推理,然后再翻译回目标语言进行输出。这产生的输出虽然语法正确,但在语用上却显得失当。正式度标记无法干净利落地转换。礼貌习惯也各不相同。短语“be concise and direct”(简洁直接)在英语商业写作中意味着特定的含义;但在日语中,委婉通常是职业规范,这条指令生成的回答在母语者听来会显得粗鲁。
跨越 29 种语言的 MMLU-ProX 基准测试显示,在完全相同的问题上,英语和斯瓦希里语的表现差距高达 38 分。即使是像希腊语和阿拉伯语这样的高资源语言,在复杂推理任务上的准确率也比英语低 20–40%。这些数字反映了当语言被视为等价输入时,模型层面会发生什么。它们也反映了当你上线一个假设模型始终以英语进行推理的系统提示词时,你的用户会遇到什么。
不完整本地化悄然失效的三个地方
正式度和语域漂移。 德国商业环境需要正式称呼;如果在粗心翻译的系统提示词中默认使用非正式的“du”,会生成让人感到居高临下的输出。西班牙语因地区而异 —— 如果不进行调整,同一个提示词无法同时覆盖西班牙和墨西哥。英文系统提示词中要求“语气亲切友好(be warm and approachable)”嵌入了英语语用学。在日语客服场景、巴西场景和英国场景中,“亲切”的含义是不同的,模型并不会根据用户的语言推断文化规范 —— 它只是在遵循你给出的英文指令。
针对跨语言提示词礼貌性的研究证实,最佳礼貌水平因语言而异,而不仅仅是文化。一项关于跨语言提示词可控性的研究发现,英文系统提示词在人口统计描述中始终会产生更高的偏见,且这种偏见差距随着模型规模的增大而扩大。在更多英文数据上训练的大型模型,会放大嵌入在系统提示词中以英语为中心的默认设置。
结构化输出格式不匹配。 日期是最明显的信号。主要在英文文本上训练的模型默认使用 MM/DD/YYYY。如果你的系统提示词没有明确指定使用 ISO 8601 (YYYY-MM-DD) 以及目标语言预期的区域设置(Locale),模型将生成具有本地歧义的日期。10 月 3 日在美国输出中变成 10/03,而在欧洲的预期中是 03/10,如果你的下游消费者预期特定格式,这两者都是错误的。
数字分隔符也遵循同样的模式:英语计数法中的 1,234.56 与德语计数法中的 1.234,56。货币符号的位置也各不相同。这些不仅仅是美观问题 —— 当代码消费格式错误的结构化输出时,程序会崩溃。而且它们专门在非英语区域设置下失效,这意味着这种失效在你的英语测试覆盖范围中是不可见的。
领域词汇缺口。 专业术语通常缺乏完美的翻译,LLMs 会用直译或音译来填补空缺,而不是使用领域内恰当的对应词。一个使用经过英语培训的法律术语的 AI 法律助手,会默认使用让母语法律从业者感到陌生的字对字直译。法语医疗 AI 可能会在存在法语临床词汇的地方使用英语化的技术术语。用户会注意到,但指标不会。
分词让问题变得结构化
在模型开始推理之前,分词(Tokenization)就已经对非英语用户施加了惩罚,并让其他问题变本加厉。由于分词器的训练数据以英语为主,使用非拉丁脚本的语言——阿拉伯语、中文、日语、韩语、印地语——所需的 token 数量是等效英语文本的 2 到 15 倍。一个可以容纳完整英语对话的上下文窗口,在处理阿拉伯语对话时可能会发生截断,从而剥离了模型至关重要的上下文。
乌克兰语、印地语和印度官方语言表现出严重的分词低效。一位研究人员对此做了精辟的总结:分词正在“扼杀多语言 LLM 的梦想”。这不只是提示词工程的问题,而是基础设施的问题。但它会与提示词工程的决策产生交互。一个在英语中只有 300 个 token 的系统提示词,在日语中可能达到 800 个 token,从而消耗了本应分配给用户内容的上下文预算。针对英语优化上下文窗口使用量的团队,直到处理其他语言的生产流量时,才会注意到这种不对称性。
