博客

Page 20

12 articles

你的 Agent 没察觉到那个沙箱其实是真的
一个 staging agent 给真实客户发了邮件,原因仅仅是工具注册表里有一个工具持有生产凭证。为什么沙箱现在是每个工具的属性,以及在事故发生前捕捉凭证层级漂移的证明模式。
ai-agentssecurity
5月30日11 min
你的 Agent 学会了致敬的那个错别字
微调让模型学会像你的语料库一样表现——包括其中的错别字、犹豫语气和某位客服的口头禅。本文剖析这种继承是怎么发生的,以及能拦截它的那道整理工序。
insiderfine-tuning
5月30日11 min
无法收敛的验证器循环
Worker-critic 代理循环承诺向质量收敛,但很少真正兑现——验证器是一个随机策略,max-iterations 上限是披着质量门外衣的预算门,而能恢复终止性的模式都把满足曲面当作真正的架构问题来处理。
insiderai-agents
5月30日12 min
当安全训练把运营方塌缩成用户
经过安全调优的 LLM 智能体会拒绝合法的运营方请求,因为模型分不清值班工程师和匿名用户。修复手段是架构性的——签名 runbook、能力令牌、运营方模式通道——而不是重新调校拒绝阈值。
ai-engineeringagent-architecture
5月29日11 min
把自己调度进维护窗口的 Agent
Agent 会一头扎进部署冻结期、活跃事故和飘红的状态页执行多步计划——因为它读不到人类天然吸收的那些侧信道。这篇文章讲怎么补上这个洞。
ai-agentssre
5月28日11 min
对话中途耗尽的 Token 预算：为什么免费用户觉得你的模型变笨了
按用户分配的 Token 预算往往在对话中途咬人最狠——静默截断、丢弃工具调用、模型回退都会被用户读成质量退化，而升级转化的对话从未发生。
insiderai-product
5月27日12 min
撒谎的"转移率":当 AI 客服的"成功"掩盖了用户流失
转移率统计的是"沉默",而不是"得到帮助"。同一个数字可能意味着客户问题被解决了,也可能意味着客户已经流失—— 仪表盘没法分辨,直到队列报告出来。
insiderai-support
5月26日11 min
看不见 AI 工作的绩效评估模板
AI 功能工作产出的证据——eval 覆盖率、评判校准、kill 决策——在标准绩效评分标准中没有位置。本文给出需要补上的内容。
ai-engineeringengineering-leadership
5月25日11 min
当评审在 A 与 B 之间始终偏袒自己
同厂商的 LLM 评审会让某个 prompt 变体看起来更好,而生产环境却在回退。本文解释为什么家族偏差能骗过所有看板指标, 以及如何用跨厂商集成评审加上人类校准集来修正它。
insiderllm-as-judge
5月24日10 min
悄无声息击穿提示缓存的那次模型迁移
一次评估全绿、延迟匹配的看似干净的模型迁移,可能会悄悄让供应商的前缀缓存失效,使输入 token 成本飙升数周。本文拆解这个盲区,以及避免它的上线纪律。
prompt-cachingmodel-migration
5月23日11 min
你的 AI 披露在第三轮就消失了，没人察觉，直到监管者发现
你的法务团队批准的单轮披露评审，无法在为它服务的 Agent 循环中存活——到第十四轮，模型已经在用一份悄悄删掉了「我是 AI」的摘要回答用户，而这个缺口如今是一个有牙齿的监管责任。
insiderai-engineering
5月22日12 min
推理账单：没人愿意背的损益表科目
推理已经占到企业 AI 支出的 85%，但组织架构里仍然把它当成工程线下的一项杂项。真正的解法是：一个有名有姓的预算负责人、一条分摊规则，以及一个事先约定好的关停阈值——这三样工具都帮不了你，得你自己谈出来。
insiderai-finops
5月22日10 min

较新的博文

较旧的博文

Page 20

你的 Agent 没察觉到那个沙箱其实是真的

你的 Agent 学会了致敬的那个错别字

无法收敛的验证器循环

当安全训练把运营方塌缩成用户

把自己调度进维护窗口的 Agent

对话中途耗尽的 Token 预算：为什么免费用户觉得你的模型变笨了

撒谎的"转移率":当 AI 客服的"成功"掩盖了用户流失

看不见 AI 工作的绩效评估模板

当评审在 A 与 B 之间始终偏袒自己

悄无声息击穿提示缓存的那次模型迁移

你的 AI 披露在第三轮就消失了，没人察觉，直到监管者发现

推理账单：没人愿意背的损益表科目

关于 Tian Pan