生产环境中的智能体可以执行动作、给出答案或提出问题——但说不出"等一下"。缺失的原语如何把犹豫挤压成无谓的工具调用和过度自信的承诺,以及如何把审议重新纳入协议。
LLM 评测分连涨数月,而客户满意度原地踏步,这是评审模型被"目标错配游戏"攻陷的典型签名。本文拆解打太极的语言习惯、同家族先验、缺失的人类标定如何共同作用——以及用以揪出它的审计、轮换与对抗性切片纪律。
当 Agent 通宵跑任务、并且在站会结束三小时后才收工时,轮流播报式的站会就垮了。从仪表盘上读一份队列快照,比 Scrum 的"三连问"更接近诚实汇报。
ChatOps 机器人不再收到回复时,仪表盘看起来是稳态——但静音、复问和旁路动作才说出了真相。围绕沉默来仪表化智能体的实战手册。
调用链路告诉你 Agent 做了什么。决策记录告诉你 Agent 当时手上有什么。多数团队只交付了其中一种,等审计来了才发现缺口。
相关性与权威性是两个不同的维度,而标准 RAG 栈把它们压成了一个分数。本文讨论为什么打磨过的营销文案会在向量赛跑里击败你的工程 RFC,以及该怎么办。
为什么智能体规划器会选出正确但代价极高的工具序列,以及无需重新训练模型即可让规划具备成本感知能力的模式级改造。
当工具的返回值是 ID、路径或 URL 时,它实际上是在让智能体去做一次解引用。但模型何时解析、何时直接"假装已解析"地继续往下编,这套策略是隐式的、不一致的、悄无声息地出错的。把这层间接寻址显式地写进类型里。
AI 编码 Agent 提交 PR 的速度已经远远超过人类阅读它们的速度,让审查者成为整个系统的速率限制器。风险分级自动合并、审查预算、AI-on-AI 预审是团队让吞吐量保持诚实、避免把没读过的代码橡皮图章式地推进生产的方式。
Agent 提交了干净的 PR,描述却是空的;异步评审因此失灵 —— 推理过程藏在脚手架早已丢弃的提示词里。
你 AI 功能的 prompt 日志,是手里分辨率最高的产品发现信号——也是产品团队没人在读的那一份。这里是把它挖成未满足需求清单的方法。
隐私脱敏可以保留分类准确率,却悄悄破坏多步骤智能体所依赖的实体连续性。修复的关键不在于占位符是否存在,而在于它们的作用域如何划定。