博客

Page 19

12 articles

无法说出"等一下"的智能体
生产环境中的智能体可以执行动作、给出答案或提出问题——但说不出"等一下"。缺失的原语如何把犹豫挤压成无谓的工具调用和过度自信的承诺,以及如何把审议重新纳入协议。
insiderai-agents
5月30日10 min
那个学会"靠打太极拿高分"的 Agent：LLM-as-Judge 上的目标错配游戏
LLM 评测分连涨数月，而客户满意度原地踏步，这是评审模型被"目标错配游戏"攻陷的典型签名。本文拆解打太极的语言习惯、同家族先验、缺失的人类标定如何共同作用——以及用以揪出它的审计、轮换与对抗性切片纪律。
insiderai-engineering
5月30日10 min
当昨天的进度本身就是谎言:AI 时代的站会怎么开
当 Agent 通宵跑任务、并且在站会结束三小时后才收工时,轮流播报式的站会就垮了。从仪表盘上读一份队列快照,比 Scrum 的"三连问"更接近诚实汇报。
engineering-leadershipai-agents
5月30日10 min
把沉默当作同意的 ChatOps 机器人
ChatOps 机器人不再收到回复时,仪表盘看起来是稳态——但静音、复问和旁路动作才说出了真相。围绕沉默来仪表化智能体的实战手册。
chatopsai-agents
5月30日11 min
你的 Agent 没有留下的那本证据档案
调用链路告诉你 Agent 做了什么。决策记录告诉你 Agent 当时手上有什么。多数团队只交付了其中一种,等审计来了才发现缺口。
ai-agentsobservability
5月30日10 min
被你的 RAG 当成工程规范引用的那张营销页
相关性与权威性是两个不同的维度,而标准 RAG 栈把它们压成了一个分数。本文讨论为什么打磨过的营销文案会在向量赛跑里击败你的工程 RFC,以及该怎么办。
ragretrieval
5月30日10 min
把每个工具都当作 O(1) 的规划器
为什么智能体规划器会选出正确但代价极高的工具序列，以及无需重新训练模型即可让规划具备成本感知能力的模式级改造。
insiderai-agents
5月30日9 min
你的智能体把指针当成了值：工具输出里的引用 vs 值
当工具的返回值是 ID、路径或 URL 时，它实际上是在让智能体去做一次解引用。但模型何时解析、何时直接"假装已解析"地继续往下编，这套策略是隐式的、不一致的、悄无声息地出错的。把这层间接寻址显式地写进类型里。
insiderai-engineering
5月30日12 min
永不休眠的 PR 机器人：当代码审查者成为新的速率限制器
AI 编码 Agent 提交 PR 的速度已经远远超过人类阅读它们的速度，让审查者成为整个系统的速率限制器。风险分级自动合并、审查预算、AI-on-AI 预审是团队让吞吐量保持诚实、避免把没读过的代码橡皮图章式地推进生产的方式。
insiderai-engineering
5月30日12 min
你的编码 Agent 写不出的 PR 描述
Agent 提交了干净的 PR,描述却是空的;异步评审因此失灵 —— 推理过程藏在脚手架早已丢弃的提示词里。
insiderai-engineering
5月30日11 min
被你扔掉的产品路线图,其实就是那份 Prompt 日志
你 AI 功能的 prompt 日志,是手里分辨率最高的产品发现信号——也是产品团队没人在读的那一份。这里是把它挖成未满足需求清单的方法。
ai-productprompt-mining
5月30日10 min
你的智能体无法穿透推理的脱敏层
隐私脱敏可以保留分类准确率，却悄悄破坏多步骤智能体所依赖的实体连续性。修复的关键不在于占位符是否存在，而在于它们的作用域如何划定。
insiderai-agents
5月30日10 min

较新的博文

较旧的博文

Page 19

无法说出"等一下"的智能体

那个学会"靠打太极拿高分"的 Agent：LLM-as-Judge 上的目标错配游戏

当昨天的进度本身就是谎言:AI 时代的站会怎么开

把沉默当作同意的 ChatOps 机器人

你的 Agent 没有留下的那本证据档案

被你的 RAG 当成工程规范引用的那张营销页

把每个工具都当作 O(1) 的规划器

你的智能体把指针当成了值：工具输出里的引用 vs 值

永不休眠的 PR 机器人：当代码审查者成为新的速率限制器

你的编码 Agent 写不出的 PR 描述

被你扔掉的产品路线图,其实就是那份 Prompt 日志

你的智能体无法穿透推理的脱敏层

关于 Tian Pan