跳到主要内容

多语言评估成本放大效应:为什么七个语种的成本不只是 7 倍

· 阅读需 16 分钟
Tian Pan
Software Engineer

在国际化发布的财务规划电子表格中,有一个清晰的项目:“将评估覆盖范围扩展到七个新语言区域 —— 假设为当前评估成本的 7 倍。”英语评估套件耗时两周,花费 4 万美元构建,因此七个语言区域将花费 28 万美元和一个季度的工程时间。CFO 签字了。产品 VP 签字了。发布启动了。

六个月后,实际的评估账单已经突破 31 万美元,团队仍在搭建最后两个语言区域。标注供应商在葡萄牙语(巴西)人员库中已经换了三批人,因为前两批产生的人员间一致性(inter-rater agreement)分数,任何诚实的审查都会称其为随机。德语裁判模型(judge model)在相同内容上的评分比英语模型低 6% —— 团队最初将其解读为德语模型的退化(regression),直到人工审核发现裁判模型本身才是退化的根源。评估负责人每周要花 40% 的时间处理一个没人预算过的问题:我们如何知道语言区域 A 的通过率确实比语言区域 B 差,而不是因为跨语言区域的测量比差距本身的噪声更大?

电子表格使用的算法是:每次评估的 token 数 N × 语言区域数 L × 每个 token 的标注成本。实际适用的算法更接近 N × L1.3,再加上根本没有出现在曲线上的元评估(meta-eval)成本,因为没有人将其列入清单。这种放大效应是真实的、结构性的,如果一个组织在承诺本地化路线图之前没有对其建模,它发现这一点的路径将和发现其他未建模成本的方式一模一样:通过季度复盘页面,CFO 会问哪一项数据出错了。

翻译买不来你以为能买到的东西

获得 N 个语言区域评估覆盖的最便宜路径是翻译英语评估套件。供应商可以对提示词和评分量表(rubric)进行机器翻译(MT),人工审核员再进行清理,这样你就能以大约 30% 的从头编写成本获得 N 套评估套件。每个构建国际化 AI 功能的团队都会首先尝试这种方法。大多数团队在第一个月内就会发现,这条捷径买到的是数字,而不是信号。

核心问题在于,经过翻译的评估项评估的是错误的东西。一个从英语翻译成葡萄牙语(巴西)的选择题,主要衡量的是模型的翻译流畅度,而不是它处理巴西用户实际发送的查询的能力。这些问题的校准基于美国的教育框架,干扰项中蕴含的文化假设是美国的,而巴西重要的失败模式 —— 不同的正式语阶、不同的命名惯例、与欧洲葡萄牙语相异的地区词汇 —— 对于针对英语分布编写的评估项来说是不可见的。最近的基准测试(如 INCLUDE)通过采用本地编写的区域知识问题而非翻译来指出这一点:翻译基准与本地原生基准之间的差距不是几个百分点的噪声,而是本质上不同的信号。

更糟糕的是,翻译后的评估套件系统性地低估了你最需要捕获的失败模式。英语评估拥有一个越狱提示词、边缘情况格式化请求和对抗性输入语料库,这些都是几个月来从英语生产流量中收集的。这些都无法直接翻译。巴西用户有他们自己的越狱习语、他们自己的格式化预期(日期顺序、货币位置、地址格式),以及他们自己的礼貌式祈使句结构,模型需要理解这些仍然是祈使句。翻译英语对抗集给你的是披着葡萄牙语外壳的英语对抗样本 —— 这是一种有用的冒烟测试,但不是一种能捕捉到该语言区域实际挑战的评估。

经历过这种惨痛教训的团队会经过三个阶段。第一阶段:发布翻译后的评估,获得看起来合理的通过率,发布功能。第二阶段:本地原生支持开始反馈评估套件从未标记过的投诉。第三阶段:拆除翻译后的评估,从本地原生编写重新构建,每个语言区域的成本大约等同于原始英语套件的成本 —— 也就是电子表格原本试图避免的成本。捷径并不是捷径;它是一份延期账单,在第一波负面评论出现时到期了。

定向语言区域裁判与 Fleiss' Kappa 底线

LLM-as-judge 是英语评估的成本控制本能:与其支付标注员每项 4-12 美元来根据评分量表打分,不如支付每项几美分让 LLM 裁判来做,并根据一小部分人工标注的黄金标准集(gold set)进行校准。这种经济模式在英语中行得通,因为裁判模型已经看过了足够的英语指令遵循示例,可以进行合理的校准,而且校准集构建成本低廉。

多语言环境打破了这两方面的平衡。最近的测量显示,多语言 LLM 裁判在 25 种语言的测试中,评分者间的一致性 Fleiss' Kappa 仅为 0.3 左右,这属于“仅比随机一致好一点点”的范畴。在低资源语言上性能急剧下降,即使在高资源语言上,裁判的失败模式也与人工标注员不同 —— 这意味着你的裁判不仅仅是人工标注员的噪声版本,它在不同语言区域、不同方向上的偏差也是不同的。一个在葡萄牙语中系统性地过度肯定流畅度,而在日语中又低估语义准确性的裁判,并不是一个带噪声的单一裁判;它是披着风衣的七个不同裁判,而你想要进行的跨语言区域比较在结构上是无效的。

缓解措施不是放弃 LLM 评判 —— 纯人工路径不符合预算 —— 而是接受裁判校准现在是一个特定于语言区域的工作流。每个语言区域都需要自己的黄金标准集、自己的每项评分量表校准测量、随着模型和提示词演进而更新的频率,以及在单一裁判方差过高而无法做出校准决策时的集成策略(ensemble strategy)。电子表格将其视为固定设置成本(构建一次裁判,随处运行)的支出,现在变成了随 L 规模化的特定语言区域变量成本,且是在标注成本本身之上的。

如果组织不将“裁判需要校准”与“裁判已校准”区分开来,就会通过一种看起来像模型改进的退化来发现这种差距。新模型上线,德语裁判说质量提升了,发布继续进行,三周后支持工单却显示质量下降了 —— 因为裁判的偏差在某个对德语用户无关紧要的维度上向新模型的风格习性发生了有利偏移,而它在某个至关重要的维度上却停止了对退化的察觉。

没人预料到的元评估 (Meta-Eval) 成本

这是成本曲线打破 N×LN \times L 线性关系的地方。你有七套评估套件。每套套件都是本地编写、本地评判、本地标注的。巴西的租户 A 达到了 87% 的通过率,德国的租户 B 达到了 81%,日本的租户 C 达到了 74%。产品经理会问一个显而易见的问题:是日本的用户体验更差,还是日本的评估更难?

加载中…
References:Let's stay in touch and Follow me for more thoughts and updates