基础模型供应商策略:企业SLA究竟保障什么
企业团队基于基准测试和演示选择LLM供应商,然后在生产环境中才发现SLA实际保障的内容——通常远低于预期。你费力谈下来的99.9%可用性保证并不涵盖延迟。法务团队签署的数据处理协议,除非明确添加了相关条款,否则并不禁止供应商用你的输入数据进行训练。而没有人量化的供应商集中风险,在某次遥测部署级联影响Kubernetes控制平面导致核心产品中断四小时后,会以最惨烈的方式暴露出来。
这不是采购问题,而是采购单独无法解决的工程问题。构建AI系统的工程师需要理解这些合同实际说了什么——以及没说什么。
SLA层级实际保障(以及不保障)什么
企业团队对SLA的预期与SLA实际兑现之间存在巨大落差。
可用性保证范围很窄。 OpenAI的Scale和Priority层级均宣称99.9%的月度可用性,Azure OpenAI Service亦然,AWS Bedrock通常也持平。但细看条款:大多数协议中的"可用性"意味着API端点可达且返回响应——而非以可接受的延迟返回正确响应。一个在90th percentile出现超时、或幻觉率是正常水平十倍的模型,在大多数定义下仍然算"正常运行"。
延迟SLA昂贵且罕见。 OpenAI Priority层级宣称每分钟p50延迟保证,但那只是中位数——仍有一半请求可能更慢。p95或p99级别的正式延迟承诺需要定制企业谈判,通常还需要预置容量。Azure OpenAI的预置吞吐量单元(PTU)提供了最清晰的稳定延迟路径:你预订固定吞吐量配额,以无论是否使用都付费为代价换取可预期的响应时间。
服务积分无法覆盖停机损失。 当AWS、Azure或OpenAI违反SLA时,你通常获得未来使用的抵扣额度——往往上限是月费的某个百分比。如果你的产品宕机四小时并损失了用户信任或营收,这些积分无法弥补。这并不是隐藏条款,而是标准云SLA结构。但从未经历过重大故障的团队往往要到度过最糟糕的一周、提交积分申请之后才会真正意识到这一点。
支持层级定义参差不齐。 企业支持层级宣传响应时间,但"响应"往往指确认收到——而非解决甚至分类处理。对于根本原因是模型行为变化而非基础设施故障的AI服务问题,即使是积极配合的支持团队,也可能无法在你的SLA窗口内给出答案。
实际含义:将SLA层级视为谈判起点,而非对生产环境实际体验的描述。真正重视企业客户的供应商会就延迟承诺展开谈判,明确定义模型行为回退的升级路径,并提供了解你使用场景的专属技术联系人。
企业定价:什么 可谈,什么是固定的
基于Token的定价在主流供应商中普遍存在,但其底层结构差异显著。
所有主流供应商的输入Token定价均为输出Token的一小部分——通常是1/5到1/10——因为推理计算主要由Token生成主导。这种不对称性对工作负载规划至关重要:生成大量结构化输出的流水线与处理大量文档并返回简短答案的流水线,成本差异悬殊。
批量折扣存在,但需要主动争取。 OpenAI为每月超过500万Token的企业客户提供12-18%的折扣。AWS Bedrock通过PTU预订可节省高达50%的成本。Azure提供类似的PTU经济模型。但PTU式预订要求承诺某一容量水平并无论实际使用量如何都付费——这是云预留实例权衡逻辑在推理上的翻版。
企业合同中实际可谈判的内容:
- 自定义延迟SLA和可用性保证
- 训练数据限制(明确禁止将你的数据用于模型训练)
- 数据驻留选项和删除时间表
- 支持响应时间承诺
- 与竞争对手定价挂钩的合同续签触发条款
- 速率限制提升和突发容量
通常固定不变的内容:
- 特定量级以下的基础Token定价
- 标准API功能可用性
- 模型发布时间表
- 训练数据退出的基础默认设置(但可通过合同覆盖)
一个重要的近期动态:Anthropic于2026年初将席位许可与Token用量分离,取消了企业计划中的捆绑Token配额。团队现在为Claude访问支付按席位计费的费用,API Token则按标准费率单独计费。这一变化使成本建模更加可预期,但也移除了部分团队依赖的应对突发工作负载的缓冲空间。
进入谈判时,模型无关的系统设计是你最强的筹码。知道你无需重写应用即可切换到竞争对手API的供应商,在定价谈判中的态度截然不同。
数据处理协议:你遗漏的条款
当供应商代表你处理个人数据时,数据处理协议(DPA)在GDPR下具有法律强制性。每家主流LLM供应商都提供DPA,但大多数默认留下了关键问题的模糊空间。
训练数据使用现在对消费者默认启用。 2025年8月,包括Anthropic、Google和OpenAI在内的主流供应商调整了默认设置,消费者级用户数据将用于模型训练,除非主动选择退出。关键例外:API客户和企业协议仍受保护。但如果你的组织在使用API的同时还使用任何面向消费者的产品,请务必核实哪些数据流向何处。
大多数团队忘记添加的条款:
- 明确禁止将你的输入用作训练数据(不只是"我们默认不用你的数据训练",而是"在任何情况下你不得用我们的数据训练")
- 具体的数据保留限制和删除时间表(包括备份和审计日志)
- 违规通知时间表(GDPR要求72小时;你的合同应与之匹配)
- 数据驻留要求以及数据可以流转的区域
- 合同终止时微调模型的处理方式
- https://help.openai.com/en/articles/5008641-is-there-an-sla-for-latency-guarantees-on-the-various-engines
- https://redresscompliance.com/azure-openai-sla-and-support-whats-covered-and-whats-not.html
- https://openai.com/api-scale-tier/
- https://platform.claude.com/docs/en/about-claude/pricing
- https://cloud.google.com/terms/gemini-enterprise/sla
- https://aws.amazon.com/bedrock/sla/
- https://contractnerds.com/understanding-training-data-in-contracts-with-ai-vendors/
- https://www.protecto.ai/blog/llm-privacy-compliance-steps/
- https://customgpt.ai/how-to-avoid-llm-vendor-lock-in/
- https://introl.com/blog/vendor-management-ai-infrastructure-negotiating-gpu-contracts-slas
- https://www.techtarget.com/searchcio/feature/What-CIOs-need-to-know-going-into-ai-vendor-negotiations
- https://redresscompliance.com/openai-enterprise-procurement-negotiation-playbook/
- https://ai2.work/economics/ai-market-openai-risk-2025/
- https://www.theregister.com/2026/04/16/anthropic_ejects_bundled_tokens_enterprise/
- https://www.datacenterknowledge.com/cloud/2025-cloud-highlights-ai-outages-and-the-future-of-infrastructure
