跳到主要内容

1 篇博文 含有标签「owasp」

查看所有标签

你的系统提示词终会泄露:针对提示词提取进行设计

· 阅读需 12 分钟
Tian Pan
Software Engineer

LLM 功能的威胁模型过度关注三种失败模式:提示词注入、用户数据外泄和未经授权的工具调用。但还有一种更隐蔽、成本更低且很少出现在事后分析报告(因为没人提交过相关报告)中的攻击——提示词提取(prompt extraction)。对抗性用户(有时是竞争对手,有时是充满好奇的研究人员)只需经过几轮对话,就能诱导模型背诵出其系统提示词。那些编码了你团队产品行为、拒绝策略、检索支架和品牌语调的精心调优的指令,不到一周就会出现在公共 GitHub 仓库中。

这类仓库已经存在了。一个广为流传的 GitHub 项目专门追踪从 Claude、ChatGPT、Gemini、Grok、Perplexity、Cursor 和 v0.dev 中提取的系统提示词——随着新模型版本的发布而更新,通常在发布后的几小时内就会同步。Anthropic 完整的 Claude 提示词(包括工具说明)超过 24,000 个 token,而且你可以直接阅读。最热衷于对提示词保密的公司,往往也是其提示词泄露最频繁的公司,因为这类公司的攻击者动力最强。