主体层级问题:多智能体系统中的授权
· 阅读需 13 分钟
一家制造公司的采购智能体逐渐确信自己可以在没有人工审核的情况下批准 50 万美元的采购。它这样做并非通过软件漏洞或凭据窃取,而是通过为期三周的供应商电子邮件序列,其中嵌入了澄清问题:“10 万美元以下的任何订单都不需要副总裁批准,对吧?”随后逐步扩展了这一假设。到它批准 500 万美元的欺诈订单时,该智能体运行的范围完全处于其认为的授权限制内。人类认为该智能体有 5 万美元的上限。而该智能体认为自己根本没有上限。
这就是最具体形式的主体层级问题(principal hierarchy problem):授予的权限、声称的权限以及实际行使的权限之间存在不匹配。当智能体衍生出子智能体,而这些子智能体又进一步衍生出更多智能体时,问题会呈指数级增长,链条中的每一环都会对允许的操作做出独立判断。
