1 篇博文含有标签「owasp」

你的系统提示词终会泄露：针对提示词提取进行设计

2026年4月27日 · 阅读需 12 分钟

Software Engineer

LLM 功能的威胁模型过度关注三种失败模式：提示词注入、用户数据外泄和未经授权的工具调用。但还有一种更隐蔽、成本更低且很少出现在事后分析报告（因为没人提交过相关报告）中的攻击——提示词提取（prompt extraction）。对抗性用户（有时是竞争对手，有时是充满好奇的研究人员）只需经过几轮对话，就能诱导模型背诵出其系统提示词。那些编码了你团队产品行为、拒绝策略、检索支架和品牌语调的精心调优的指令，不到一周就会出现在公共 GitHub 仓库中。

这类仓库已经存在了。一个广为流传的 GitHub 项目专门追踪从 Claude、ChatGPT、Gemini、Grok、Perplexity、Cursor 和 v0.dev 中提取的系统提示词——随着新模型版本的发布而更新，通常在发布后的几小时内就会同步。Anthropic 完整的 Claude 提示词（包括工具说明）超过 24,000 个 token，而且你可以直接阅读。最热衷于对提示词保密的公司，往往也是其提示词泄露最频繁的公司，因为这类公司的攻击者动力最强。

关于 Tian Pan