一个内部端点因为没人能找到它而保持了十年的安全。直到一个智能体索引了 Wiki。当“隐蔽”不再是一项时间成本时,情况会发生怎样的变化。
当你在 Agent 和不可逆的操作之间加入人工环节时,你增加的并不是一个安全原语。你增加的是一个具有吞吐量限制、可用性配置以及质量与负载曲线的队列。本文将探讨它是如何演变成一个无人预定义的 P0 级问题的。
在 200 和 429 之间存在一个盲区,每个 LLM 客户端都会步调一致地出现超载。缺失的负载压力标头是协议层面的缺失,而非客户端的 Bug。
编程智能体基于 Git 状态快照进行推理,而该快照往往会悄无声息地失效。Worktrees、turn-preludes、分支锚定以及快照恢复技术能将这种无声的漂移转化为明确的信号。
记忆 CSS 路径的计算机使用 (computer-use) 智能体正在步入静默失败的陷阱。本文探讨了选择器失效、语义锚点、基于视觉的后备方案,以及为什么存储的选择器是对智能体无法控制的渲染决策的一次豪赌。
固定大小的 Token 切分会将关键子句拦腰切断,导致碎片化的片段无法被单独检索。本文探讨了为什么这种失败在标准评估中难以察觉,以及哪些切分策略能真正解决这一问题。
编程智能体会继承你笔记本电脑中已配置好的环境,并提交在本地通过但在 CI 中失败的补丁。解决方案是建立仓库级的环境契约、进行预检一致性检查,并根据本地与 CI 的差异进行评分。
聊天界面允许用户编辑和重新生成消息,而后端则静默地将每一次修改追加到线性日志中 —— 结果就是模型在回答那个用户以为已经撤回了的对话。
过度自信的 AI 智能体不会在满意度调查中丢掉续约机会——它们是在六周后的续约电话中丢掉的。应将置信度的展示视为一种经过版本控制的产品界面,而非一种风格上的偶然。
随着模型快照、提示词、工具目录和检索底层在背后发生漂移,录制的销售演示视频已成为潜在的风险点。通过演示清单结合每晚的评估套件,可以将录像转化为可测试的行为承诺。
少样本检索和共享的 CSV 文件如何悄无声息地将精心准备的评估库变成你提供给模型的上下文示例——以及如何通过存储层隔离来阻止这一切。
每个推理 API 在返回文本的同时都会返回一个停止信号。忽略它与忽略 HTTP 状态码的错误本质相同 —— 而且你的仪表盘无法察觉它所导致的失败。