6 篇博文含有标签「llm-production」

复合 AI 系统：为什么你的最佳架构需要三个模型，而不是一个

2026年4月13日 · 阅读需 12 分钟

Software Engineer

人们的本能总是去选择最大的模型。GPT-4o、Claude Opus、Gemini Ultra——选一个前沿模型，把问题丢给它，然后寄希望于强大的能力来弥补架构上的懒惰。这在演示中行得通，但在生产环境中会失败。

2025 和 2026 年，那些交付最可靠 AI 系统的团队并没有使用单一模型。他们将三个、四个甚至五个专业化模型组合成流水线，每个组件只做好一件事。分类器负责路由，生成器负责产出，验证器负责检查。最终得到的系统不仅优于任何单一模型，而且成本只是"万事皆用前沿模型"方案的一小部分。

隐藏的 Token 税：在用户开口之前，你的上下文窗口为何已消失了 30-60%

2026年4月10日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你在为一个 200K token 的上下文窗口付费。你的用户可能只用到了其中的 80K。剩下的部分在第一条消息到达之前就消失了——被系统提示词（system prompt）、工具定义、安全前言和聊天历史填充所消耗。这就是隐藏的 Token 税，大多数团队直到在生产环境中达到上下文限制时才意识到自己在为此付税。

宣传的上下文窗口与实际可用的上下文窗口之间的差距是生产级 LLM 系统中最昂贵的盲点之一。它在多轮对话中不断累积，通过注意力开销增加延迟，并在有用信息被挤入模型停止关注的“迷失在中间”（lost in the middle）区域时，悄无声息地降低输出质量。

Agent 系统中的重试风暴问题：为什么每次失败的工具调用都在烧掉你的 Token 预算

2026年4月10日 · 阅读需 12 分钟

Tian Pan

Software Engineer

每个后端工程师都知道重试是必不可少的。每个分布式系统工程师都知道重试是危险的。当你让 LLM agent 负责重试工具调用时，你会同时遇到这两个问题，而且还有一个新问题：每次重试都会消耗 token。一个不稳定的 API 端点可能会在不到一分钟的时间内，将一个 0.01 美元的 agent 任务变成一场 2 美元的灾难。

重试风暴问题并不新鲜。分布式系统几十年来一直在处理惊群效应（thundering herds）和级联故障。但 agent 系统放大了这个问题，而微服务模式无法完全解决它，因为重试逻辑存在于一个不理解背压（backpressure）的概率推理引擎中。

为什么你的“点踩”数据在误导你：生产环境 AI 反馈循环中的选择偏差

2026年4月10日 · 阅读需 11 分钟

Tian Pan

Software Engineer

你在六个月前为你的 AI 功能上线了“点赞/点踩”按钮。你有了数千条评分。你构建了仪表盘。你甚至针对负面案例进行了微调。然而，你的产品却在反馈数据无法解释的方面变得越来越糟。

问题不在于用户对自己不喜欢的东西判断错误。问题在于，点击反馈按钮的用户相对于你的实际用户群体来说，是一个具有系统性非代表性的样本——而你基于这些数据做出的每一个决定都会继承他们的偏差。

智能体间通信协议：让多智能体系统具备可调试性的接口契约

2026年4月9日 · 阅读需 13 分钟

Tian Pan

Software Engineer

当多智能体流水线（multi-agent pipeline）开始输出垃圾内容时，人们的直觉往往是归咎于模型。推理能力差、上下文错误、幻觉。但在实践中，很大一部分多智能体系统的失败源于更乏味的原因：智能体之间无法进行可靠的通信。格式错误的 JSON 虽然通过了语法验证，但无法通过语义解析。编排器（orchestrator）发送了一个状态为 "partial" 的任务，而下游智能体将其理解为已完成。由于缺少幂等键（idempotency key），重试操作触发了两次。

这些不是模型故障，而是接口故障。它们比模型故障更难调试，因为日志中没有任何信息会告诉你序列化契约（serialization contract）已经断裂。

Agent Harness 深度解析

2026年2月27日 · 阅读需 10 分钟

Tian Pan

Software Engineer

有一个 100 行代码的 Python Agent，在 SWE-bench Verified 上获得了 74–76% 的评分——仅比资金雄厚的团队构建的最先进系统低 4–6 个百分点。执行循环本身并不是复杂性所在。世界级的团队会投入 6 到 12 个月的时间来围绕该循环构建基础设施。这种基础设施有一个名字：Harness。

公式很简单：Agent = Model + Harness。Model 负责推理，Harness 负责其他一切——工具执行、上下文管理、安全管控、错误恢复、状态持久化以及人在回路（human-in-the-loop）工作流。如果你花了几个月的时间优化 Prompt 和模型选择，却交付了脆弱的 Agent，那么你一直在优化错误的东西。

关于 Tian Pan