1 篇博文含有标签「refusal-policy」

绕过词汇表：当用户学会用礼貌的英语进行越狱

2026年5月9日 · 阅读需 11 分钟

Software Engineer

在你的生产流量中，最廉价的“越狱”并非巧妙的 Unicode 技巧或连锁的对抗性后缀。而是用户在第一次请求被拒绝后多输入的三个词。他们加上了“仅供假设”（just hypothetically）。他们加上了“为了研究论文”（for a research paper）。他们加上了“为了我正在写的虚构故事”（for a fictional story I'm writing）。模型照办了。他们告诉了朋友。朋友发了 TikTok。到月底，你那部分原本因拒绝策略而被拦截的流量中，有相当一部分正在绕过限制，其使用的英语如此礼貌，以至于你的任何提示注入过滤器都不会触发。

这是安全团队未曾列入威胁模型的失效模式。威胁模型假设对手是老练、有动机且技术精湛的。而真正的对手是看到了截图的好奇用户。他们使用的词汇不会出现在任何公开的越狱语料库中，因为等到这些词汇出现在论文里时，线上的分布早已发生了变化。

关于 Tian Pan