22 篇博文含有标签「ai-infrastructure」

上下文窗口不是免费存储：显式驱逐策略的必要性

2026年4月19日 · 阅读需 11 分钟

Software Engineer

大多数工程团队对待 LLM 上下文窗口的方式，就像早期 Web 开发者对待全局变量：先塞进去，问题以后再说。上下文里堆满了最近 40 轮对话、仓库里的三个完整文件、十几份检索到的文档，以及一个经过六个月集体修改、越来越臃肿的系统提示词。一切看起来都能运行——直到某天突然不行了，而那时已经很难判断究竟是哪里出了问题。

上下文窗口不是堆内存。它更接近于 CPU 寄存器文件：容量有限、单位成本高昂，且其内容直接影响模型执行的每一次计算。当你把寄存器当成草稿纸随意使用而忘记管理时，程序会以各种匪夷所思的方式崩溃。当你把上下文窗口当成草稿纸时，LLM 会以悄无声息且代价高昂的方式退化。

AI数据版本控制：团队发现得太晚的数据集-模型耦合问题

2026年4月18日 · 阅读需 10 分钟

Tian Pan

Software Engineer

你的模型精度在某个夜晚突然下降了8%。模型代码没有任何改动，没有发生任何部署，评估套件是绿色的。于是你花了一周时间调整超参数、修改提示词、对比检查点损失——最终有人注意到，三天前特征流水线里落地了一次Schema迁移。一个字段从NULL改成了空字符串。就这样，就是这个变化导致了回退。

这是生产ML系统中最常见的故障模式，与模型质量几乎毫无关系。问题的根源在于大多数团队被坑过之后才会补上的一个结构性缺口：数据版本和模型版本紧密耦合，但它们由不同的工具追踪、归属于不同的团队。

你的标注流水线才是 AI 产品的真正瓶颈

2026年4月17日 · 阅读需 12 分钟

Tian Pan

Software Engineer

每个开发 AI 产品的团队最终都会发布一个反馈组件。点赞、点踩、或者星级评分，又或者是修正字段。组件上线了，数据流转了，但随后几周甚至几个月，模型却没有任何改变——而团队仍然坚信他们拥有一个有效的反馈闭环。

组件只是简单的部分。其背后的标注流水线（annotation pipeline）才是 AI 产品真正陷入停滞的地方。

Prompt Cache 盈亏平衡点：提供商端前缀缓存何时真正划算的精确数学计算

2026年4月17日 · 阅读需 12 分钟

Tian Pan

Software Engineer

Prompt 缓存听起来是一个稳赢的方案：Anthropic 和 OpenAI 都宣传缓存命中可享受 90% 的折扣，且文档中展示了令人印象深刻的成本削减图表。团队实施了它，观察着缓存命中率计数器不断上升，并理所当然地认为自己在省钱。但实际上，有些团队支付的费用比完全不使用缓存时还要多。

问题在于“写入溢价”（write premium）。每当你缓存一个前缀时，你都需要支付额外的费用——在 5 分钟的缓存窗口内是 1.25 倍，在 1 小时的窗口内是 2 倍。如果你的命中率太低，这些写入溢价的累积速度会超过读取折扣所节省的费用。缓存并不是免费的保险；它是你对自己流量模式下的一场赌注。

LLM 作为 ETL 原语：AI 不仅是产品功能，更是数据管道的核心

2026年4月15日 · 阅读需 12 分钟

Tian Pan

Software Engineer

典型的 AI 叙事往往是这样的：你构建一个产品，添加一个 AI 功能，用户就能获得更智能的输出。这种框架虽然正确，但并不完整。更持久的优势根本不在产品层，而是在其底层运行的数据流水线中。

越来越多的工程团队悄然将 ETL 流水线中的正则规则、自定义分类器和手写解析器替换为 LLM 调用。结果是：流水线可以处理非结构化输入，适应模式偏移（schema drift），并对数千个类别的记录进行分类——而无需为每一个新的边缘情况重新训练模型。大规模运行这种模式的团队正在构建具有复利效应的数据资产。而那些仍将 LLM 纯粹视为产品功能的团队则不然。

大规模语料库策展：为什么你的 RAG 质量上限取决于你的文档质量下限

2026年4月14日 · 阅读需 12 分钟

Tian Pan

Software Engineer

在大多数 RAG 架构中都存在这样一种信念：如果检索返回了正确的区块（chunks），LLM 就会生成正确的答案。团队在嵌入模型选择、混合检索策略和重排序流水线方面投入了巨资。然而，在部署到生产环境三个月后，回答质量悄然下降——这不是因为模型变了，也不是因为查询模式发生了剧变，而是因为底层的语料库腐烂了。

企业级 RAG 的实施失败率约为 40%，而从业者最容易低估的失败模式既不是幻觉，也不是检索召回率低，而是文档质量。一项分析发现，通过引入文档质量评分，一个实施方案在不改变嵌入模型或检索算法的情况下，将搜索准确率从 62% 提高到了 89%。语料库是唯一的变量。语料库一直都是变量。

为什么你的数据库在AI功能上线后崩溃：LLM感知的连接池设计

2026年4月14日 · 阅读需 10 分钟

Tian Pan

Software Engineer

在AI功能上线之前，你的连接池一直运行良好。登录正常，仪表板加载顺畅，CRUD操作以个位数毫秒的延迟稳定运行。然后团队部署了一个RAG驱动的搜索、一个Agent驱动的工作流，或者一个LLM支持的摘要端点——几个小时内，你的核心产品开始超时。数据库并没有变慢，你的连接池只是被一种它从未被设计来处理的工作负载吞噬了。

这就是LLM连接池问题，随着AI功能从原型走向生产环境，它正在影响整个行业的团队。解决方案不是"增加更多连接"。事实上，这通常会让事情变得更糟。

数据库原生 AI：当你的 Postgres 学会了嵌入

2026年4月13日 · 阅读需 8 分钟

Tian Pan

Software Engineer

大多数 RAG 架构长得都一样：你的应用从 Postgres 读取数据，将文本发送到嵌入 API，将向量写入 Pinecone 或 Weaviate，并在读取时查询两个系统。你维护着两个数据存储、两套一致性模型、两套备份策略，以及一条同步管道——这条管道总是离让你的向量索引落后源数据数周只差一个边缘情况。

如果数据库自己就能搞定一切呢？这已经不再是假设。PostgreSQL 扩展如 pgvector、pgai 和 pgvectorscale——以及 AlloyDB AI 等托管服务——正在将整个嵌入与检索堆栈折叠进数据库本身。结果不仅仅是减少了活动部件，而是一种根本不同的运维模型：你的向量始终与其所代表的数据保持事务一致。

供应商锁定深度分析：导致更换 LLM 供应商变成 6 个月工程项目的七个耦合点

2026年4月12日 · 阅读需 13 分钟

Tian Pan

Software Engineer

每一个交付 LLM 驱动功能的团队最终都会进行同样的对话：“如果我们需要更换供应商怎么办？”标准的回答——“我们只需要换一下 API 密钥”——揭示了对耦合实际存在位置的危险误解。在实践中，尝试进行供应商迁移的团队会发现，API 端点是他们最不需要担心的问题。真正的锁定隐藏在七个不同的耦合点中，每一个都能将一次“快速更换”变成一个耗时一个季度的项目。

供应商锁定深度分析：导致更换 LLM 供应商变成 6 个月工程项目的七个耦合点

迁移费用通常会消耗原始开发时间的 20–50%。那些将模型切换视为即插即用的企业团队，往往在面对损坏的输出、激增的 Token 成本以及需要数周才能诊断出的推理质量变化时束手无策。在需要迁移之前，了解这些耦合点在哪里，是受控过渡与紧急应对之间的本质区别。

隐藏的 Token 税：系统开销如何悄无声息地耗尽你的 LLM 上下文窗口

2026年4月11日 · 阅读需 10 分钟

Tian Pan

Software Engineer

大多数团队知道他们的用户发送了多少 token。但几乎没有人知道在用户开口说话之前，他们已经支出了多少 token。

在典型的生产级 LLM 流水线中，系统提示词 (system prompts)、工具架构 (tool schemas)、聊天历史、安全前导词和 RAG 序言在实际用户查询到达之前，就默默消耗了上下文窗口的 30–60%。对于拥有数十个注册工具的智能体 (agentic) 系统，这种开销在 128k 窗口中可能达到 45% —— 约 55,000 个 token —— 而这些工具定义甚至从未被调用过。

这就是隐藏的 token 税。它虚增了成本、增加了延迟并降低了输出质量 —— 然而，它从未出现在任何面向用户的指标中。

关于 Tian Pan