PM 与评测之间的翻译鸿沟:当发布决策超越了词汇表
AI 功能的上线决策会议(go/no-go meeting)表面上是一个数据驱动的仪式。工程团队会带来一系列评估数字——评测专家分数变化(judge score deltas)、切片准确率(slice accuracies)、相对于基线的回归百分比(regression-against-baseline percentages)——然后由与会者做出决定。这看起来非常严谨。但通常并非如此。
一句话概括这种失败模式:有能力解读评估切片权重的人没有决策权,而有决策权的人看不懂切片。产品经理(PM)主导发布决策。工程师掌握数字背后的含义。在这两者之间存在着翻译鸿沟,谁在会议上表现得最自信,谁就能填补这个鸿沟。
问题的征兆在于,“87% 准确率就发布”和“87% 准确率不发布”都可以基于同一份评分卡找到依据,这取决于你更看重哪个切片。当同一份数据集支持截然相反的结论,且决定性因素是辞令上的自信而非证据时,你拥有的就不是一个数据驱动的流程,而是一场以电子表格为背景的辩论。
