跳到主要内容

2 篇博文 含有标签「cross-functional」

查看所有标签

PM 与评测之间的翻译鸿沟:当发布决策超越了词汇表

· 阅读需 9 分钟
Tian Pan
Software Engineer

AI 功能的上线决策会议(go/no-go meeting)表面上是一个数据驱动的仪式。工程团队会带来一系列评估数字——评测专家分数变化(judge score deltas)、切片准确率(slice accuracies)、相对于基线的回归百分比(regression-against-baseline percentages)——然后由与会者做出决定。这看起来非常严谨。但通常并非如此。

一句话概括这种失败模式:有能力解读评估切片权重的人没有决策权,而有决策权的人看不懂切片。产品经理(PM)主导发布决策。工程师掌握数字背后的含义。在这两者之间存在着翻译鸿沟,谁在会议上表现得最自信,谁就能填补这个鸿沟。

问题的征兆在于,“87% 准确率就发布”和“87% 准确率不发布”都可以基于同一份评分卡找到依据,这取决于你更看重哪个切片。当同一份数据集支持截然相反的结论,且决定性因素是辞令上的自信而非证据时,你拥有的就不是一个数据驱动的流程,而是一场以电子表格为背景的辩论。

当市场部阅读你的评估案例时:跨职能可见性问题

· 阅读需 12 分钟
Tian Pan
Software Engineer

评估集(eval set)是你的 AI 团队产出的阅读量最高的工件,而你几乎肯定不知道谁在阅读它。代码库是私有的,CI 任务是内部的,文件就在 prompts/ 目录的上一级——然而,上个季度一名销售工程师为了演示抓取了六个案例,一名市场分析师将三个失败案例放进了“看看我们的系统有多健壮”的幻灯片中,客户成功部门在续约电话中逐字引用了评估通过率,而产品部门则将该文件视为 AI 团队不愿分享的隐藏规范。阅读这些案例文件的人比阅读生成它们的代码的人还要多,而 AI 团队中却没人在意。

这不仅仅是权限管理的失效。评估集与代码库的其他部分位于同一个 Git 服务器上,拥有与其他工程产物相同的访问控制。问题在于,AI 团队是唯一将评估集视为代码的群体。其他所有人都会将其视为文档、营销材料、产品规范或客户投诉日志——而这些解读中的每一项都会从同一个文件中提取不同的片段,针对不同的受众进行包装,并将其发送到 AI 团队观察不到的地方。