跳到主要内容

2 篇博文 含有标签「instrumentation」

查看所有标签

思维标记(Thinking Tokens)在你的日志中隐身,但在账单上却震耳欲聋

· 阅读需 10 分钟
Tian Pan
Software Engineer

第一个注意到你推理模型回退的人,几乎永远不会是工程团队的成员。而是财务分析师,在周二下午联系你的经理,因为上个月的 Anthropic 账单比前一个月高了 2.4 倍,而且“我们并没有发布任何会导致这种结果的东西”。你打开仪表板,查看请求量——平稳。p99 延迟——平稳。每个响应的输出标记——平稳。错误率——平稳。你六个月前配置的每一个面板都显示系统运行健康。财务人员看的是另一个数字,而且他们是对的。

他们看的数字是推理标记(reasoning tokens),而大多数可观测性栈是在这个领域出现之前构建的。

没有人正确衡量的 AI 功能采用曲线

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI 功能三个月前上线了。DAU 在增长。会话时长在攀升。仪表盘一片绿色。但这里有一个让人不舒服的问题:你的用户到底是在真正采用这个功能,还是仅仅在容忍它?

大多数团队用衡量传统产品功能的相同指标来跟踪 AI 功能采用——日活跃用户数、会话时长、功能激活率。当功能表现是确定性的时候,这些指标运作良好。点击按钮,得到结果,衡量参与度。但 AI 功能有本质区别:它们的输出是变化的,价值是概率性的,用户通过反复接触建立信任(或不信任)。标准指标不仅无法捕捉这一点——它们还在积极地误导你。