跳到主要内容

3 篇博文 含有标签「ai-compliance」

查看所有标签

LLM 输出的统计水印:Token Logit 偏置如何创建可检测的签名

· 阅读需 10 分钟
Tian Pan
Software Engineer

自 2024 年 10 月起,Google 已对所有 Gemini 用户的输出进行水印处理 —— 覆盖 2000 万用户,无可感知的质量损失,且可通过算法检测。OpenAI 已有可工作的原型,仅需数百个 token 即可产生可靠的信号。Anthropic 表示已列入路线图。欧盟《AI 法案》第 50 条要求涵盖范围内的提供商以机器可读格式标记 AI 生成的内容。然而:一种每百万 token 成本仅 0.88 美元的攻击,能同时对七种最新水印方案实现约 100% 的规避成功率。

这就是 LLM 文本水印的真实现状。已部署的方案、论文的声明与攻击者的实际能力之间的差距,远比大多数团队意识到的要大 —— 而你对水印的工程决策,很大程度上取决于你站在这个差距的哪一边。

开放权重模型许可是你的团队尚未规划的合规雷区

· 阅读需 11 分钟
Tian Pan
Software Engineer

在 “开放权重”(open-weight)这个词中,“开放” 二字承担了极大的重任。当一名工程师从模型中心下载 safetensors 文件时,他们往往倾向于将这种行为归类为与 npm install lodash 相同的心理范畴 —— 拉取依赖、上线功能、继续下一步。但伴随这些权重而来的许可证很少是 Apache 2.0 或 MIT。它通常是带有可接受使用例外项、署名要求、衍生品命名规则以及用户数量阈值的自定义社区许可证,一旦你的产品变得流行,这些阈值就会改变合同条款。而且,加载器几乎不会强制执行其中任何一项。无论你是否遵守,模型都会运行。

这就是合规债务如何悄无声息地累积的。如果团队将许可证审查视为一次性的下载检查,那么公司就在为一项审计结果埋单,而该结果将在点击 “我同意” 的开发者离职多年后才会显现。解决方法不是在入口处设置更严格的采购门槛,而是将模型权重视为供应链的一种严谨做法,具备来源追溯、定期重新审查以及一份能够将每条已部署的推理路径追溯回其上游许可证的清单。

工程师视角的欧盟 AI 法案:四个风险等级对你的架构究竟有哪些要求

· 阅读需 13 分钟
Tian Pan
Software Engineer

将欧盟 AI 法案的合规要求改造到现有系统中,成本是从一开始就内置合规的 3-5 倍。仅这一个事实,就应该重新定义每个工程团队对 2026 年 8 月截止日期的思考方式。欧盟 AI 法案不是律师会解决而工程师可以忽略的法律问题——它是一个架构问题,需要将日志管道、人工覆盖机制、偏差测试基础设施和可解释性层融入系统设计。如果你的 AI 系统涉及欧洲用户,而你还没有开始构建这些,那你已经落后了。

大多数关于 AI 法案的报道都集中在法律框架上:什么被禁止、什么被允许、罚款如何运作。这对你的法务团队很有用。本文关注的是你作为工程师实际需要构建的东西——合规所要求的具体系统、管道和架构变更。