3 篇博文含有标签「bias」

达成共识的 LLM-as-Judge 集成：只因评委都来自同一家族

2026年6月3日 · 阅读需 11 分钟

Software Engineer

你的评估流水线针对每一个模型输出运行一个由三位评审组成的集成系统。评审成员包括使用严格标准的 GPT-4、使用宽松标准的 GPT-4 以及使用思维链标准的 GPT-4。他们在 91% 的案例中达成一致。你向发布审查委员会报告了 0.83 的 Krippendorff's alpha 评审间一致性指标。这个数字落在了每个方法论教科书都视为“绿灯”的“显著一致性”区间内。在六个月的时间里，三个模型升级版本依据这一数字顺利发布。

一位外部审计员使用相同的评审标准，将其中一位评审更换为 Claude，结果在难题上的一致率降至 64%。那些证明前三次升级合理性的评估分数，结果变成了取决于你将哪个供应商家族视为“基准真相（Ground Truth）”的数字。这些升级只是针对 GPT-4 家族偏好的升级，而非针对质量的提升——因为评审本身就是受审模型的“同胞兄弟”。

撒谎的 AI A/B 测试：LLM 实验中的新奇效应、结转偏差与锚定偏差

2026年5月7日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的 AI 功能在信心满满中上线了。A/B 测试显示用户参与度有了 12% 的统计学显著提升。置信区间没有重叠。样本量大小合适。p 值远低于 0.05。六周后，指标回落到了基准线。三个月后，它实际上已经低于基准线。实验告诉你该功能有效，但实验撒了谎。

这并不是你统计工具的 bug。这是标准 A/B 测试所测量的指标，与人类随着时间的推移与概率性 AI 系统互动之间存在的根本性错配。三种特定的偏差——新奇效应膨胀、锚定偏差和结转偏差——共同导致了每个 AI 功能实验的虚高，而增加留置组（holdout group）的常规补救措施并不能解决其中的任何一个问题。

你一直在忽略的偏见审计：如何为 LLM 流水线构建人口特征公平性

2026年4月16日 · 阅读需 13 分钟

Tian Pan

Software Engineer

一个团队发布了一项由 LLM 驱动的功能。它通过了安全过滤器，通过了准确性评估。但用户开始投诉。六个月后，一名研究人员运行了一项包含 300 万次对比的研究，发现该系统在输入完全相同的情况下，有 85% 的时间选择了与白人相关的名字，而选择与黑人相关的名字仅占 9%。

这不是安全问题。这是一个公平性问题，两者需要完全不同的工程应对方案。安全过滤器防范伤害。公平性检查衡量你的系统是否能为每个人产生同样优质的输出。一个模型可以满足你所有的内容策略，但仍可能诊断出黑人患者的死亡风险高于同样患病的白人患者，或者为女性生成的简历比男性更单薄。这些差异对于拦截脏话的护栏来说是不可见的。

大多数团队从未构建过第二种检查。这篇文章将探讨你为什么要构建它，以及具体如何去做。

关于 Tian Pan