LLM 输出的统计水印:Token Logit 偏置如何创建可检测的签名
自 2024 年 10 月起,Google 已对所有 Gemini 用户的输出进行水印处理 —— 覆盖 2000 万用户,无可感知的质量损失,且可通过算法检测。OpenAI 已有可工作的原型,仅需数百个 token 即可产生可靠的信号。Anthropic 表示已列入路线图。欧盟《AI 法案》第 50 条要求涵盖范围内的提供商以机器可读格式标记 AI 生成的内容。然而:一种每百万 token 成本仅 0.88 美元的攻击,能同时对七种最新水印方案实现约 100% 的规避成功率。
这就是 LLM 文本水印的真实现状。已部署的方案、论文的声明与攻击者的实际能力之间的差距,远比大多数团队意识到的要大 —— 而你对水印的工程决策,很大程度上取决于你站在这个差距的哪一边。
