2 篇博文含有标签「instrumentation」

思维标记（Thinking Tokens）在你的日志中隐身，但在账单上却震耳欲聋

2026年5月14日 · 阅读需 10 分钟

Software Engineer

第一个注意到你推理模型回退的人，几乎永远不会是工程团队的成员。而是财务分析师，在周二下午联系你的经理，因为上个月的 Anthropic 账单比前一个月高了 2.4 倍，而且“我们并没有发布任何会导致这种结果的东西”。你打开仪表板，查看请求量——平稳。p99 延迟——平稳。每个响应的输出标记——平稳。错误率——平稳。你六个月前配置的每一个面板都显示系统运行健康。财务人员看的是另一个数字，而且他们是对的。

他们看的数字是推理标记（reasoning tokens），而大多数可观测性栈是在这个领域出现之前构建的。

没有人正确衡量的 AI 功能采用曲线

2026年4月12日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的 AI 功能三个月前上线了。DAU 在增长。会话时长在攀升。仪表盘一片绿色。但这里有一个让人不舒服的问题：你的用户到底是在真正采用这个功能，还是仅仅在容忍它？

大多数团队用衡量传统产品功能的相同指标来跟踪 AI 功能采用——日活跃用户数、会话时长、功能激活率。当功能表现是确定性的时候，这些指标运作良好。点击按钮，得到结果，衡量参与度。但 AI 功能有本质区别：它们的输出是变化的，价值是概率性的，用户通过反复接触建立信任（或不信任）。标准指标不仅无法捕捉这一点——它们还在积极地误导你。

关于 Tian Pan