6 篇博文含有标签「localization」

区域分层评估 (Locale-Stratified Evals)：如何捕捉英语测试集无法发现的非英语回归问题

2026年5月14日 · 阅读需 14 分钟

Software Engineer

在最近一次 prompt 变更后，你的综合评估分数上升了 1.2 个点。但在同一周，法语查询的 CSAT（客户满意度）下降了 4 个点。这两个数字都是正确的。它们之所以不一致，是因为评估集（eval set）中 88% 是英语，6% 是西班牙语，其余的是长尾语言，其中任何一种语言的流量都不足以触动汇总数据的变化。法语的性能回归就在你的数据中 —— 它只是恰好位于顶级指标（top-line metric）噪声基底以下三个小数点位。

这是我在生产级 AI 系统中看到的最常见的区域漂移（locale drift）形式：不是突然的崩溃，也不是翻译字符串的 bug，而是一种被汇总数据掩盖、并最终在支持队列中浮现的持续性能差距。当巴黎办公室的人转发一张截图时，你已经在那个回归之上又发布了两个 prompt 变更，而二分查找（bisect）的成本需要耗费三个工程师工作日。

你的系统提示词还在用英文：AI 本地化不完全的隐形成本

2026年5月7日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的团队发布了一项 AI 功能。你为本地化工作感到欢欣鼓舞：每个按钮标签、工具提示和错误消息都被翻译成了 12 种语言。产品经理签了字。该功能在全球上线。

然而，六周后，一位德国用户发布了一张截图。AI 的回答用词正确但语域（Register）不对 —— 在非正式的客服场景中显得过于生硬。一位日本用户反映，结构化输出中的日期格式为 MM/DD/YYYY，这导致他们的下游工具出现故障。一位巴西的支持工程师注意到，AI 在对复杂查询进行推理时，偶尔会在句子中途滑入英语。这些并不是基础设施故障。你的仪表盘显示一切正常。但对于非英语用户来说，产品正在悄无声息地变得更糟。

根本原因几乎总是一样的：团队翻译了 UI 字符串，但却让系统提示词保留为英文。这看起来像是本地化，但事实并非如此。

多语言评估成本放大效应：为什么七个语种的成本不只是 7 倍

2026年4月28日 · 阅读需 16 分钟

Tian Pan

Software Engineer

在国际化发布的财务规划电子表格中，有一个清晰的项目：“将评估覆盖范围扩展到七个新语言区域 —— 假设为当前评估成本的 7 倍。”英语评估套件耗时两周，花费 4 万美元构建，因此七个语言区域将花费 28 万美元和一个季度的工程时间。CFO 签字了。产品 VP 签字了。发布启动了。

六个月后，实际的评估账单已经突破 31 万美元，团队仍在搭建最后两个语言区域。标注供应商在葡萄牙语（巴西）人员库中已经换了三批人，因为前两批产生的人员间一致性（inter-rater agreement）分数，任何诚实的审查都会称其为随机。德语裁判模型（judge model）在相同内容上的评分比英语模型低 6% —— 团队最初将其解读为德语模型的退化（regression），直到人工审核发现裁判模型本身才是退化的根源。评估负责人每周要花 40% 的时间处理一个没人预算过的问题：我们如何知道语言区域 A 的通过率确实比语言区域 B 差，而不是因为跨语言区域的测量比差距本身的噪声更大？

翻译并非本地化：多语言 AI 正面临的文化校准债务违约

2026年4月28日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一个多语言发布版本，如果只是将英文提示词翻译成 N 种语言，并将英文评估集也翻译成同样的 N 种语言，那它并没有发布一个真正的多语言产品。它只是将同一个产品发布了 N 次，并让所有的失败模式在它自己的仪表盘上变得不可见。该系统虽然表达流畅，但在文化层面上显得格格不入，而团队优化的指标——翻译质量——并不是衡量用户反应的正确维度。

发布当天的明显缺陷通常很小。一位日本用户收到的回复虽然语法正确，但显得生硬无礼。一位印度尼西亚用户发现助手以一种欢快直接的语体说话，听起来却很不礼貌。一位韩国用户收到的建议是围绕个人选择展开的，而提示词其实是关于家庭决策的。这些都不是翻译错误。它们是文化语体（cultural-register）错误，翻译无法修复，且经过翻译的评估也无法检测出来。

提示词本地化技术债：隐藏在多语言 AI 产品中的无声质量梯度

2026年4月19日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你的 AI 功能上线时，任务成功率达到了 91%。你运行了评估，迭代了提示词，并不断调优，直到达到质量标准。然后你面向全球发布了——三个月后，一名东京的用户提交了一个支持工单，称你的 AI “不太理解”他们的输入。你的日本用户一直都在默默忍受一个比英语用户体验差 15–20 个百分点的功能。你的团队中没有人注意到这一点，因为没有人去衡量它。

这就是提示词本地化债务（Prompt Localization Debt）：你为之构建 AI 的语言与用户所使用的其他每种语言之间不断累积的性能差距。它不会在仪表盘上显现，也不会导致服务中断。它只是静悄悄地制造出二等公民用户。

全球化 AI 产品的文化校准：为什么翻译只解决了 10% 的问题

2026年4月17日 · 阅读需 11 分钟

Tian Pan

Software Engineer

几乎每一个全球部署的 AI 产品中都潜伏着一种隐蔽的失败模式。工程师本地化了 UI 字符串，通过翻译 API 运行模型输出，让母语者抽查几个回复，然后就发布了。该产品在技术上是多语言的，但在文化上并不称职。东京、利雅得和成都的用户收到的输出在语法上是正确的，但在文化上是错误的——这些回复表现出的不尊重、困惑或不信任，是团队在汇总指标中永远无法看到的。

研究结果是明确的：测试的每一个主要大语言模型（LLM）都反映了讲英语的新教欧洲社会的价值观。针对来自 107 个国家的代表性数据进行模型测试的研究发现，没有任何一个模型与非洲、拉丁美洲或中东地区人们建立信任、表达尊重或解决冲突的方式相契合。翻译修补了表面，但底层的校准仍然是西方化的。

关于 Tian Pan