跳到主要内容

49 篇博文 含有标签「system-design」

查看所有标签

副驾驶陷阱:为什么全自动驾驶交付更快但失败更惨

· 阅读需 11 分钟
Tian Pan
Software Engineer

AI 功能在生产环境中夭折有一种典型的模式:它们最初是作为副驾驶 (copilot) 启动的,然后被晋升为自动驾驶 (autopilot)。这种晋升的原因显而易见——降低成本、扩大规模、减少人力——而且这些理由在演示阶段听起来非常充分。随后,边缘情况 (edge cases) 开始积累。面向用户的推荐变成了面向用户的决策。建议变成了行动。当第一次系统性失败降临时,工程团队才发现,最初设计中预设的容错假设从未被重新评估过。

这就是“副驾驶陷阱”:针对自动化频谱的某一个层级构建 AI 功能,然后在没有重建该层级所需的故障模型的情况下,将其强行提升到更高层级。

动态系统提示词组装:请求时可组合的 AI 行为

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数团队一开始都用一个单一的、庞大的系统提示词。在演示时效果不错。然后产品不断增长:你添加了付费用户层级、企业客户的合规模式、模型可以调用的新工具,以及增长团队想要 A/B 测试的功能开关实验。所有这些都被塞进同一个提示词里。六个月后,你有了 4000 个词的指令,没有人能完全理解,编辑某个部分时行为会不可预测地改变,而调试过程不过是"改点什么看看会发生什么"。

大多数团队会转向可组合的、动态组装的系统提示词——在请求时从模块化组件构建提示词,而不是维护一个静态文本文件。这是一个合理的架构直觉,但实现的复杂度比看起来要大得多。可组合提示词引入了一类静态提示词根本不存在的新型故障模式。

复合 AI 系统:当你的流水线比任何单一模型都更智能

· 阅读需 11 分钟
Tian Pan
Software Engineer

在 AI 工程领域,一直存在一种固有的假设:获得更好输出的路径是更好的模型。更大的上下文窗口、更新的训练数据、更高的基准测试分数。在实践中,交付最强大 AI 产品的团队通常在做一些不同的事情:他们正在构建流水线(pipelines),由多个专门的组件——检索器(retriever)、重排序器(reranker)、分类器(classifier)、代码解释器(code interpreter)以及一个或多个语言模型——协同工作,处理任何单一模型都无法独立可靠完成的任务。

这种架构模式有一个名字——复合 AI 系统(compound AI systems)——它现在是生产级 AI 的主导范式。了解如何正确构建这些系统,以及在构建不当时它们会在哪里失效,是当今应用 AI 工程中最重要的技能之一。

为部分完成而设计:当你的智能体完成 70% 后停止

· 阅读需 11 分钟
Tian Pan
Software Engineer

每个生产级智能体系统最终都会遭遇一个没有人预料到的故障:智能体订好了机票,却找不到酒店,留给用户的是半张已确认的行程单,以及毫无头绪的后续。这不是崩溃,也不是拒绝执行,只是一个停止运行的智能体——带着真实的副作用,却没有任何后续计划。

对智能体故障的标准认知是二元的——要么成功,要么中止。重试逻辑、指数退避、回退提示词——这些机制都假设"任务运行中"与"任务完成"之间存在清晰的边界。但真实的智能体会在中途失败,而当这种情况发生时,缺乏部分完成设计本身就是 bug。你不需要更智能的模型,你需要的是一个任务状态机。

当代码胜过模型:用确定性逻辑替换 LLM 调用的决策框架

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数 AI 工程团队都有着相同的故事。他们从一个真正需要 LLM 的难题开始。然后,一旦 LLM 基础设施到位,每一个新问题在他们眼中都成了那把锤子下的钉子。六个月后,他们甚至在调用 GPT-4o 来检查电子邮件地址是否包含 “@” 符号 —— 并且还在为此付费。

这种 “直接用模型” 的本能反应现在是 AI 应用中不必要的复杂性、虚高成本和脆弱生产系统的主要驱动力。这并不是因为工程师们粗心大意。而是因为 LLM 确实令人印象深刻,工具链降低了使用门槛,而且一旦你构建了 LLM 流水线,增加另一次调用感觉成本极低。事实并非如此。

模型路由是系统设计问题,而非配置选项

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队选择 LLM 的方式就像选择数据库引擎一样:在架构评审时选一次,然后再也不改。你选了 GPT-4o 或 Claude 3.5 Sonnet,把它写进配置文件,然后上线。这个选择感觉无法逆转,因为更改它需要重新部署、跨服务协调,以及针对本周 eval 的回归测试。

这种思维方式是错误的。你的流量并不是同质的。"总结这篇文档"和"调试这个神秘堆栈跟踪"两个请求同时打到同一个接口,对能力的需求天差地别——但从静态模型选择的基础设施视角来看,两者毫无区别。你要么对其中一个过度供给,要么对另一个供给不足,而且每一个请求都是如此。

模型路由将 LLM 的选择视为运行时分发决策。每个进入的查询都会根据能预测该请求最合适模型的信号进行评估,并据此进行分发。路由层不存在于配置文件中——它运行在你的请求路径上。

选择性弃权问题:为何总给答案的 AI 系统是有缺陷的

· 阅读需 10 分钟
Tian Pan
Software Engineer

这是一个几乎出现在每个生产 AI 部署中的模式:团队发布了一个能够处理 90% 查询的功能。然后开始收到投诉。某用户提了一个超出训练分布的问题,模型自信地给出了错误答案。RAG 流水线检索到一份过时文档,模型却将其当作最新信息来回答。一个法律查询触及了提示没有覆盖的边缘情况,模型靠猜测蒙混过关。在每一种情况下,修复方案都不是换一个更好的模型,而是让系统学会说"我不知道"。

弃权——有原则地决定不回答——是 AI 系统设计中最难、最被低估的能力之一。几乎所有产品工作都致力于让答案更好,几乎没有任何工作致力于让系统可靠地知道何时该拒绝作答。这种不对称是一种在生产环境中不断累积的设计债务。

AI Agent 的 CAP 定理:为何你的 Agent 在本该优雅降级时却彻底崩溃

· 阅读需 10 分钟
Tian Pan
Software Engineer

你的 AI Agent 运行得一切正常,直到某一刻它彻底不行了。某个工具宕机——也许是搜索 API 触发了限流,也许是数据库响应迟缓,也许是代码执行沙箱超时——整个 Agent 随之崩溃。不是部分答案,不是降级响应,而是彻底失败。要么一片空白,要么满是幻觉。

这不是一个 Bug,而是一个设计选择——而且几乎没有人是刻意做出这个选择的。我们今天所构建的 Agent 架构隐式地选择了"彻底失败",原因只有一个:没有人设计过部分可用路径。如果你有分布式系统的经验,这个模式应该让你感到似曾相识。这正是 CAP 定理,以一副新的面孔出现了。

AI Agent 工作负载的缓存层级:多数团队止步于第二层的五层架构

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数部署 AI Agent 的团队在实现了提示词缓存 (Prompt Caching),或许再加上语义缓存之后,就认为大功告成了。但他们实际上错失了 40-60% 的潜在节省空间。原因并非在于懒惰 —— 而是 Agent 工作负载产生的缓存问题在简单的请求-响应式 LLM 调用中并不存在,其解决方案需要从传统 Web 缓存从未涉及的层级进行思考。

单个 Agent 任务可能涉及一个 4,000 Token 的系统提示词、三个分别返回不同结构数据的工具调用、一个在结构上与昨天完全相同的多步计划,以及一个需要在对话中持久化但绝不能跨用户共享的会话上下文。其中每一项都代表了不同的缓存机会,具有不同的 TTL (生存时间) 要求、不同的失效触发机制,以及在缓存失效时不同的故障模式。

合并再调用:无需降低用户体验即可削减成本的 LLM 请求批处理模式

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队都是以同样的方式发现请求合并的:收到一张出乎意料的大额账单。他们上线了基于 LLM 的功能,使用量增长,然后账单仪表板显示他们每天为五万个请求付费,而仔细观察后发现其中大约三万个请求在问同一件事,只是措辞略有不同。每一个"总结这份文档"的改写都单独命中了模型。每一个近乎重复的请求都触发了完整的推理周期。成本随流量规模线性增长,而不是随用户实际想要的语义多样性增长。

请求合并正是解决这一问题的模式。它不是单一技术,而是一种分层架构:用于防止并发重复的飞行中去重、用于重复相同提示的精确缓存,以及用于捕捉中间改写变体的语义批处理。顺序很重要,阈值很重要,理解该模式何处会失效——尤其是围绕流式传输——是可用实现与那种在暂存服务器上节省了钱但在生产中引发隐蔽 bug 的实现之间的差别所在。

一亿美元的遥测错误:OpenAI 的故障教会我们系统设计的知识

· 阅读需 3 分钟

在 2024 年 12 月 11 日,OpenAI 发生了一次灾难性的故障,使 ChatGPT、他们的 API 和 Sora 中断了超过四个小时。虽然故障发生在每家公司身上,但这次故障特别引人注目,因为它揭示了现代系统设计的一个关键教训:有时我们添加的工具以防止故障,反而成为故障的根源。

十亿美元的讽刺

有趣的是:这次故障并不是由于黑客攻击、部署失败,甚至不是他们的 AI 模型中的错误引起的。相反,它是由于一个旨在提高可靠性的工具引起的。OpenAI 正在添加更好的监控以防止故障时,意外地造成了他们有史以来最大的故障之一。

这就像雇佣一个保安,结果他把所有人都锁在了楼外。

故障滚出的雪球

事件的经过如下:

  1. OpenAI 部署了一个新的遥测服务,以更好地监控他们的系统
  2. 该服务用 API 请求淹没了他们的 Kubernetes 控制面板
  3. 当控制面板失败时,DNS 解析也中断了
  4. 没有 DNS,服务无法相互找到
  5. 工程师无法修复问题,因为他们需要控制面板来移除有问题的服务

但最有趣的部分不是故障本身,而是多个保障系统同时失败:

  1. 测试没有捕捉到问题,因为它只在规模上出现
  2. DNS 缓存掩盖了问题,足够长的时间让它传播到各处
  3. 用来修复问题的系统恰恰是那些崩溃的系统

三个关键教训

1. 规模改变一切

遥测服务在测试中工作得很好。问题只在部署到数千个节点的集群时出现。这突显了现代系统设计中的一个基本挑战:一些问题只在规模上出现。

2. 保障系统可能成为风险因素

OpenAI 的 DNS 缓存,旨在提高可靠性,实际上通过掩盖问题使情况变得更糟,直到为时已晚。他们的 Kubernetes 控制面板,旨在管理集群健康,成为了单点故障。

3. 恢复计划需要恢复计划

最令人震惊的部分?工程师无法修复问题,因为他们需要正常工作的系统来修复损坏的系统。这就像需要一把梯子才能够到你需要的梯子。

系统设计的未来

OpenAI 的响应计划揭示了系统设计的未来走向:

  1. 解耦关键系统:他们将 Kubernetes 数据面板与控制面板分开,减少相互依赖
  2. 改进测试:他们正在添加故障注入测试,以模拟大规模故障
  3. 应急程序:他们正在建立即使在其他一切失败时也能工作的紧急访问系统

这对你的公司意味着什么

即使你不是在 OpenAI 的规模下运营,这些教训依然适用:

  1. 在规模上测试,而不仅仅是测试功能
  2. 提前建立紧急访问系统
  3. 质疑你的保障系统——它们可能隐藏着风险

可靠系统的未来并不是防止所有故障,而是确保我们能够快速而优雅地从故障中恢复。

记住:最危险的问题不是我们能预见到的,而是那些从我们构建的保障系统中突然冒出来的。

快速介绍 Optimism 架构

· 阅读需 5 分钟

什么是 Optimism?

Optimism 是一种 EVM 等效的乐观汇总协议,旨在扩展以太坊。

  • 扩展以太坊意味着增加以太坊网络可以处理的有用交易数量。
  • 乐观汇总 是一种第二层可扩展性技术,它在不牺牲安全性或去中心化的情况下,增加以太坊的计算和存储能力。
  • EVM 等效性 是与以太坊黄皮书中描述的状态转移函数的完全合规,后者是该协议的正式定义。

乐观汇总通过将多个交易打包成一个单一交易来工作,然后由以太坊网络上的智能合约进行验证。这个过程被称为“汇总”,因为单个交易被组合成一个更大的交易,并提交到以太坊网络。术语“乐观”指的是系统假设交易是有效的,除非有证据证明相反,这使得交易的处理更快、更高效。

整体架构

Optimism 架构

op-node + op-geth

汇总节点可以以验证者或排序者模式运行:

  1. 验证者(即验证器):类似于运行以太坊节点,它在本地模拟 L2 交易,而不限制速率。它还允许 验证者 验证 排序者 的工作,通过重新推导 输出根 并将其与 排序者 提交的进行比较。如果不匹配, 验证者 可以执行 故障证明
  2. 排序者: 排序者 是一个特权角色,它接收来自 L2 用户的 L2 交易,使用这些交易创建 L2 块,然后将其提交给 数据可用性提供者(通过 批处理器)。它还将 输出根 提交给 L1。目前整个堆栈中只有一个排序者,这也是人们批评 OP 堆栈不去中心化的地方。

op-batcher

批量提交者,也称为 批处理器,是将 L2 排序者 数据提交到 L1 的实体,以使其对验证者可用。

op-proposer

提议者生成并提交 L2 输出检查点到以太坊上的 L2 输出预言机合约。在最终确认期结束后,这些数据使提款成为可能。

批处理器和提议者都将状态提交到 L1。为什么它们被分开?

批处理器收集并将交易数据批量提交到 L1,而提议者将承诺(输出根)提交到 L2 的状态,从而最终确定 L2 账户状态的视图。它们是解耦的,以便可以并行工作以提高效率。

contracts-bedrock

各种合约用于 L2 与 L1 进行交互:

  • OptimismPortal:一个 L2 交易的馈送,这些交易源自 L1 状态中的智能合约调用。
  • 批量收件箱:一个 L1 地址,批量提交者将交易批量提交到该地址。
  • L2 输出预言机:一个智能合约,存储 L2 输出根 以用于提款和故障证明。

Optimism 组件

如何存款?

如何提款?

对 Optimism 文档的反馈

理解 OP 堆栈可能会很具挑战性,原因有很多。其中一个因素是许多组件在代码和文档中多次以略微不同的名称被提及。例如,术语“op-batcher”和“批量提交者” / “验证者”和“验证器”可能可以互换使用,这导致混淆和理解每个组件的确切功能的困难。

理解 OP 堆栈的另一个挑战是不断发展的架构,这可能导致某些设计元素随着时间的推移而被弃用。不幸的是,文档可能并不总是更新以反映这些变化。这可能导致进一步的混淆和理解系统的困难,因为用户可能正在使用过时或不准确的信息。

为了克服这些挑战,重要的是仔细审查所有可用文档,保持概念在各个地方的一致性,并随时了解 OP 堆栈的任何变化或更新。这可能需要额外的研究和与其他用户或开发者的合作,但这是完全理解和有效利用这个复杂系统的必要条件。