2 篇博文含有标签「measurement」

被两个漂移向量拉扯的评估准则

2026年6月2日 · 阅读需 10 分钟

Software Engineer

你的综合评估分数在上个季度上升了两个百分点。没人能告诉你这究竟是系统变好了，是打分的人类群体变得更宽松了，还是你在三月份升级的评判模型开始以不同的权重衡量文本的冗长程度。数字变动了。但该数字旨在衡量的事物并不一定随之变动。

当一个评估准则同时被两个群体——人类和 LLM 评判者——阅读时，就会发生这种情况，而且这两个群体的漂移轴线和原因各不相同。综合分数将两者的运动混合在一起，除非你有一套测量方案能在其中一个变动时保持另一个固定，否则你发布的指标，其变化是无法归因于任何因素的。

2026年4月15日 · 阅读需 10 分钟

Software Engineer

你的 AI 功能上线了。A/B 测试运行了两周。处理组看起来更好——参与度提升 4%，p 值低于 0.05。你将其全量发布。

六周后，收益消失了。参与度回到了原点，甚至更低。你的实验说了一件事；现实说了另一件事。

这不是偶发案例，而是将标准双样本 A/B 测试应用于 AI 功能时的默认结果——你没有考虑这种方法论中内嵌假设被打破的方式。这些失败模式是结构性的，而非统计性的——你可以按教科书完美地运行实验，却仍然得到错误答案。