绕过词汇表:当用户学会用礼貌的英语进行越狱
· 阅读需 11 分钟
在你的生产流量中,最廉价的“越狱”并非巧妙的 Unicode 技巧或连锁的对抗性后缀。而是用户在第一次请求被拒绝后多输入的三个词。他们加上了“仅供假设”(just hypothetically)。他们加上了“为了研究论文”(for a research paper)。他们加上了“为了我正在写的虚构故事”(for a fictional story I'm writing)。模型照办了。他们告诉了朋友。朋友发了 TikTok。到月底,你那部分原本因拒绝策略而被拦截的流量中,有相当一部分正在绕过限制,其使用的英语如此礼貌,以至于你的任何提示注入过滤器都不会触发。
这是安全团队未曾列入威胁模型的失效模式。威胁模型假设对手是老练、有动机且技术精湛的。而真正的对手是看到了截图的好奇用户。他们使用的词汇不会出现在任何公开的越狱语料库中,因为等到这些词汇出现在论文里时,线上的分布早已发生了变化。
