博客

Page 42

12 articles

模型回滚速度：从“这次升级有问题”到“旧模型完全恢复”之间的七小时鸿沟
回滚 LLM 升级并非按下一个按钮那么简单 —— 它是一个具有滞后性的部分操作，更接近于数据库迁移。在下一个错误模型上线之前，以下是你的事故应对指南中需要的控制平面。
llmopsmlops
4月27日14 min
LLM 模型路由是伪装成成本优化的市场细分
将 60% 的 LLM 流量路由到更便宜的模型不仅改变了成本曲线，还悄然将你的 AI 功能拆分为两个产品。聚合准确率指标平均化了受损部分的表现，两种失败模式在 Bug 报告中混为一谈，而客户在没有任何发布说明的情况下体验着两个截然不同的助手。
insiderllm
4月27日11 min
多语言评估成本放大效应：为什么七个语种的成本不只是 7 倍
你的英文评估套件花费了 4 万美元。七个语种的国际化发布成本并不会只是 28 万美元 —— 真实的增长曲线更接近于 N×L^1.3，因为跨语种对比是一种无法分解的元评估（meta-eval）。
insiderai-engineering
4月27日16 min
你的值班轮换需要 AI 素养作为前提，否则不要在凌晨 2 点给任何人发报警
当其中一个服务是基于 LLM 的功能时，共享值班轮换机制会立刻失效。这里有一份关于 AI 素养前提、仪表板规范以及影子期运行手册的指南，能让 AI 团队在凌晨 2 点安稳睡觉。
insideron-call
4月27日13 min
端侧 AI 需要的是机群管理器，而非模型卡片
为每个用户推送相同的端侧模型，意味着你要么在旗舰机上空耗电池，要么在长尾设备上交付降级的产品。解决这一问题的工程准则更像是一个 CDN，而不是模型注册表。
insideron-device-ai
4月27日13 min
分页是一项工具目录规范：为什么智能体在处理列表返回时会耗尽上下文
返回无界列表的工具会将智能体变成函数调用时代的 SELECT * 反模式。分页是一种降级原语 —— 应该将其作为工具目录中的规范，而不是逐个工具去决定。
ai-agentstool-design
4月27日12 min
单向量版本标签：每个 Embedding 迁移背后的缺失列
向量数据库在发布时并没有配备 Postgres 已经拥有二十年的迁移工具 —— 没有 ALTER TABLE，没有在线模式变更，也没有单行版本控制。使 Embedding 升级得以平稳进行的规范，始于一个大多数团队都忘记添加的列。
insiderrag
4月27日11 min
Prompt 缓存抖动：当最大租户上线导致所有人账单翻三倍时
Prompt 缓存的折扣在某个租户上线并逐出其他所有人的前缀之前是真实的。共享推理缓存是一个租户耦合面，而账单往往在事件发生几周后才送达。
llmprompt-caching
4月27日12 min
提示词弃用合约：为什么措辞清理是一项破坏性更新
对系统提示词进行四个字的修改，就可能破坏那些固定了旧措辞的解析器、裁判和链式代理。提示词是拥有沉默消费者的 API —— 保持其稳定性的纪律与 REST 端点弃用的流程非常相似。
insiderprompt-engineering
4月27日11 min
Prompt Linting 是 Eval 与生产环境之间缺失的一层
行为评估（Behavioral evals）捕捉模型说了什么，但无法捕捉你的 Prompt 本身是什么。一个快速、确定且结构化的 Prompt Linter，能够填补“评估通过但生产环境翻车”之间的鸿沟，避免在深夜 11 点触发生产事故。
prompt-engineeringllm-ops
4月27日12 min
提示词位置即政策：当三个团队共同拥有一个系统提示词时发生的无声合并冲突
当系统提示词超过 2K token 时，位置偏差使得移动指令与重写指令具有同等的重要性——而基于行的 diff 对此视而不见。本文探讨三个团队如何无声地覆盖彼此的意图，以及如何通过分段所有权和评估规约来捕捉这些冲突。
prompt-engineeringai-infrastructure
4月27日13 min
潜伏在 Few-Shot 提示词模板中的客户记录
你在六个月前粘贴到 Few-shot 提示词中的 “代表性客户” 仍处于生产环境中 —— 它们可被重新识别、被重复发送，且对 DLP 隐形。
insiderai-engineering
4月27日12 min

较新的博文

较旧的博文

Page 42

模型回滚速度：从“这次升级有问题”到“旧模型完全恢复”之间的七小时鸿沟

LLM 模型路由是伪装成成本优化的市场细分

多语言评估成本放大效应：为什么七个语种的成本不只是 7 倍

你的值班轮换需要 AI 素养作为前提，否则不要在凌晨 2 点给任何人发报警

端侧 AI 需要的是机群管理器，而非模型卡片

分页是一项工具目录规范：为什么智能体在处理列表返回时会耗尽上下文

单向量版本标签：每个 Embedding 迁移背后的缺失列

Prompt 缓存抖动：当最大租户上线导致所有人账单翻三倍时

提示词弃用合约：为什么措辞清理是一项破坏性更新

Prompt Linting 是 Eval 与生产环境之间缺失的一层

提示词位置即政策：当三个团队共同拥有一个系统提示词时发生的无声合并冲突

潜伏在 Few-Shot 提示词模板中的客户记录

关于 Tian Pan