36 篇博文含有标签「governance」

智能体在凌晨 3 点呼叫我：触达人类工具的爆炸半径策略

2026年4月23日 · 阅读需 13 分钟

Software Engineer

当一个智能体因为循环处理一个格式错误的告警信号，在一小时内给你的值班人员发了四次传呼时，领导层终于意识到安全团队早已知晓的一件事：“工具访问权限”与“创造人工任务的能力”其实是同一种权限，而你在没有进行安全审查或产品归属权审查的情况下就授予了它。没有人关注“谁被允许在凌晨 3 点打扰人类”这个问题，因为根本没人把它当作一个问题。它被描述为一个 Slack 集成。

2026 年的智能体技术栈让这种故障模式的发生门槛变得极低。Anthropic 的 MCP 服务器、OpenAI 的 Agents SDK，以及各种厂商提供的操作工具，极大地缩短了“模型决定做某事”与“人类被吵醒”之间的距离。大多数团队部署这些集成的方式与部署数据库客户端如出一辙：定义一个 Token 作用域，引入 SDK，写一段系统提示词，然后发布。数据库客户端的爆炸半径是受影响的行数。PagerDuty 客户端的爆炸半径则是一个人的睡眠。

组织抗体：为什么AI项目在试点之后走向消亡

2026年4月20日 · 阅读需 13 分钟

Tian Pan

Software Engineer

演示进行得很顺利。试点运行了六周，展示了清晰的成果，与会的利益相关者印象深刻。然后，什么都没有发生。三个月后，项目悄悄被搁置，构建它的工程师转向了其他事情，公司的AI战略变成了一张写着"探索机会"的幻灯片。

这就是扼杀AI项目的模式。不是技术失败，不是模型能力不足，甚至不是预算问题。技术本身确实有效——研究一再表明，约80%进入生产的AI项目达到或超过了预期目标。问题在于那70-90%从未走到那一步的项目。

董事会级别的 AI 治理：只有高管才能做的五个决策

2026年4月19日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一家大型保险公司的 AI 系统正在拒绝理赔申请。人工审核这些决定后，发现其中 90% 是错误的。这家保险公司的工程团队构建了性能出色的模型，MLOps 团队有完善的部署流水线，数据科学家有严格的评估指标。但这一切都无济于事，因为在董事会层面，从来没有人回答过这个问题：对于影响病人能否获得治疗的 AI 决策，我们可接受的失败率是多少？

这个缺口——功能正常的技术系统与缺失的高管决策之间的鸿沟——正是 AI 治理在实践中最常出现问题的地方。结果是：组织同时在生产环境中运行 AI，却暴露在从未正式承认的责任风险之下。

欧盟 AI 法案现已成为你的工程待办事项

2026年4月19日 · 阅读需 14 分钟

Tian Pan

Software Engineer

大多数工程团队是通过在截止日期前三周收到的一封法律邮件才了解到 GDPR 的。欧盟 AI 法案（EU AI Act）正在重演这一模式，而 2026 年 8 月 2 日针对高风险 AI 系统的强制执行日期已经非常临近，“以后再处理合规问题”已不再是一个可选项。GDPR 与 AI 法案的区别在于，GDPR 的合规大多是关于数据处理政策的。而 AI 法案的合规要求构建新的系统组件——这些组件在大多数生产环境中的 AI 系统中尚不存在。

法规中所谓的“人类监督义务”和“审计追踪要求”，转化为工程语言，就是一个仪表盘、一个事件日志和一个数据血缘系统。本文将欧盟 AI 法案视为一份工程规范而非法律文件，并逐步介绍你实际需要构建的内容。

哪些 EU AI 法案功能会悄然触发高风险合规——以及你必须在 2026 年 8 月前交付的内容

2026年4月19日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一项针对 106 个企业 AI 系统的 appliedAI 研究发现，40% 的系统风险分类不明确。这一数字并不反映监管的复杂性——它反映的是有多少工程团队在交付 AI 功能时，从未追问该功能是否改变了合规层级。欧盟 AI 法案对高风险系统的强制执法日期定为 2026 年 8 月 2 日。届时，处于那 40% 之列不再是管理问题，而是一个架构问题——你将在监管机构注视之下，以四倍于原始成本的代价、在截止日期的压力下修复它。

本文不是法律概述，而是面向工程师的深度解读：哪些产品决策会悄然触发高风险分类，这些分类对应哪些具体交付物，以及为什么事后改造的成本远高于一开始就内置合规的成本。

提示词治理问题：管理存在于代码库之外的业务逻辑

2026年4月19日 · 阅读需 10 分钟

Tian Pan

Software Engineer

一位初级产品经理在产品冲刺期间编辑了一个面向客户的提示词，让它"听起来更友好"。两周后，一位后端工程师调整了同一个提示词以修复格式问题。一位机器学习工程师，对这两次更改毫不知情，在一条单独的系统消息中添加了思维链指令，这与产品经理的编辑产生了冲突。这些变更都没有工单，都没有审查人，也都没有回滚计划。

这就是大多数团队管理提示词的方式。在五个提示词时，这令人烦恼。在五十个时，这是一个隐患。

AI 采购鸿沟：为什么你的供应商评估流程无法处理概率性系统

2026年4月16日 · 阅读需 12 分钟

Tian Pan

Software Engineer

我合作过的一个采购团队花了 11 周时间，对照一份 312 行的 RFP（征求建议书）电子表格给 4 家 LLM 供应商打分。他们谈妥了 99.9% 的正常运行时间 (uptime)、每 1K 输入 token 0.0008 美元的价格、SOC 2 Type II 认证，以及一份光鲜亮丽的基准测试 PDF——该文件显示他们选中的供应商在 MMLU 上领先 2.3 分。合同在周五签署。随后的周二，供应商悄然发布了一个模型更新，该团队构建的客服代理开始将大约 14% 的退款请求路由到错误的队列。正常运行时间 SLA 得到了遵守。基准测试得分没有变化。采购流程完全按照设计运行，而系统依然坏了。

这就是 AI 采购鸿沟。企业采购用于管理软件风险的工具——功能清单、正常运行时间保证、安全问卷、样本基准测试——都是为输出可重现的系统而构建的。这些工具都无法衡量真正决定 AI 供应商是否能持续为你工作的因素：由供应商控制而你无法控制的随机表面的行为稳定性。

智能体审计追踪：自主决策时代的合规之道

2026年4月15日 · 阅读需 13 分钟

Tian Pan

Software Engineer

当一位人工贷款官员拒绝一份申请时，这个决定背后有一个具体的名字。这位官员接收了特定信息，经过深思熟虑后做出了行动。推理过程或许并不完美，但它是可归因的——有人可以被联系、被质询、被追责。

当一个 AI 智能体拒绝同一份申请时，留下的只有一条数据库记录。这条记录表明决定已做出，但没有说明原因，没有说明是什么输入驱动了这个决定，没有说明当时运行的是哪个版本的模型，也没有说明系统提示词是否在两周前悄悄更新过。当你的合规团队将这条记录交给监管机构时，监管机构不会满意。

这就是智能体审计追踪问题，而大多数构建 AI 智能体的工程团队至今尚未解决它。

利益相关者提示冲突：当平台、业务与用户指令在推理时相互竞争

2026年4月14日 · 阅读需 12 分钟

Tian Pan

Software Engineer

2024年，加拿大航空的聊天机器人凭空发明了一项并不存在的丧亲票价退款政策。法院裁定该公司须对机器人的言论负责。根本原因并非传统意义上的模型幻觉——而是优先级反转。系统提示写着"乐于助人"，实际政策写着"遵循已记录的规则"。当用户询问赔偿问题时，模型悄悄地将"高效解决问题"置于"升级投诉"之上，而没有人在这一判断影响公司之前对其进行审计。

这就是利益相关者提示冲突问题。每个生产级LLM系统都至少有三个指令来源：平台层（安全约束和基础模型行为）、业务层（运营商定义的规则、合规要求、品牌声音）以及用户层（实际请求）。当这些层相互矛盾时——它们终将矛盾——模型会选出一个胜者。问题在于，这个选择是由你的工程团队有意为之，还是模型在无人察觉的情况下自行决定的。

内部 AI 工具 vs. 外部 AI 产品：为什么安全标准的转变方式与大多数团队的认知恰恰相反

2026年4月13日 · 阅读需 9 分钟

Tian Pan

Software Engineer

大多数团队认为内部 AI 工具比面向客户的 AI 产品需要更少的安全工作。这个逻辑看起来很明显：员工是受信任的用户，爆炸半径是可控的，你随时可以通过一条 Slack 消息来修复问题。这种直觉是危险的错误。内部 AI 工具往往需要更多的安全工程——只是完全不同的类型。

去年报告了 AI 智能体安全事件的 88% 的组织，大多数并非通过面向客户的产品受到攻击。这些事件来自拥有对业务系统的环境权限、访问专有数据以及隐式信任员工会话的内部工具。

构建受控的 AI Agent：Agent 支架 (Agentic Scaffolding) 实践指南

2026年2月16日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数构建 AI Agent 的团队在第一个月都在追求性能：更好的提示词、更智能的路由、更快的检索。接下来的六个月，你则会忙于补救之前忽略的东西——治理（governance）。无法被审计的 Agent 会被法务部门叫停。没有权限边界的 Agent 会在预发布环境中造成混乱。没有人工升级路径的 Agent 则会在规模化运行时悄无声息地犯下严重的后续错误。

一个令人不安的事实是，大多数 Agent 部署之所以失败，并不是因为模型性能不足，而是因为围绕它的脚手架（scaffolding）缺乏结构。近三分之二的企业正在尝试 Agent；但只有不到四分之一的企业成功实现了生产规模化。差距不在于模型质量，而在于治理。

治理 Agentic AI 系统：当你的 AI 具备行动能力时，会发生什么变化

2026年2月3日 · 阅读需 10 分钟

Tian Pan

Software Engineer

在 AI 的大部分历史中，治理问题从根本上说是关于输出的：模型说了错误、冒犯或机密的内容。这固然糟糕，但它是受控的。影响范围仅限于读取该输出的人。

智能体 AI（Agentic AI）完全打破了这一假设。当一个智能体能够调用 API、写入数据库、发送电子邮件并生成子智能体时，问题就不再仅仅是“它说了什么？”，而是“它做了什么、针对哪些系统、代表谁做的，以及我们能否撤销它？”近 70% 的企业已经在生产环境中运行智能体，但其中大多数智能体在传统的身份与访问管理（IAM）控制之外运行，使其处于不可见、权限过高且未经审计的状态。

关于 Tian Pan