思维标记(Thinking Tokens)在你的日志中隐身,但在账单上却震耳欲聋
第一个注意到你推理模型回退的人,几乎永远不会是工程团队的成员。而是财务分析师,在周二下午联系你的经理,因为上个月的 Anthropic 账单比前一个月高了 2.4 倍,而且“我们并没有发布任何会导致这种结果的东西”。你打开仪表板,查看请求量——平稳。p99 延迟——平稳。每个响应的输出标记——平稳。错误率——平稳。你六个月前配置的每一个面板都显示系统运行健康。财务人员看的是另一个数字,而且他们是对的。
他们看的数字是推理标记(reasoning tokens),而大多数可观测性栈是在这个领域出现之前构建的。
