博客

Page 18

12 articles

那些你的真实用户永远不会表现出的合成评估
由受测模型的“兄弟模型”生成的合成评估会在用户行为发生偏移时虚增评分。本文探讨了为什么生成器-判别器坍塌会掩盖质量退化，以及如何通过野外评估（wild-eval）架构来捕捉这些问题。
llm-evalsai-engineering
5月31日11 min
那个直到触发时你才察觉的 Token 预算
提供商的 API 会暴露每分钟速率限制响应头，但绝不会透露你的集群实际上需要依此规划的每月上限 —— 这导致消费者必须在第 26 天 429 错误到来之前，自行构建计量器、层级抽象和资源饥饿规则。
llmobservability
5月31日11 min
你的 Agent 悄然适应了的那次工具版本升级
Agent 会悄无声息地消化工具的破坏性变更，因为它们对结构变化的包容性掩盖了原本能被严格客户端捕捉到的信号。本文介绍了如何让这些脆弱性重新显现出来的模式。
insiderllm-agents
5月31日11 min
不可信的 Trace Replay：为什么你的新模型评估在撒谎
Trace replay 在一个已不存在的上下文中验证 LLM 升级。本文将揭示为什么那些绿色的评估指标在撒谎，以及在成本与信号的曲线上，哪些验证原语分别适用于哪个阶段。
llm-migrationevaluation
5月31日14 min
止于供应商边界的链路追踪
你的分布式链路追踪往往在推理 API 的边缘中断。本文将介绍如何对流式数据块、请求 ID 和供应商侧信道进行插桩，从而找回流水线中最昂贵的分钟级性能损耗。
observabilityllm
5月31日12 min
当你的 RAG 流读取时发生的 Wiki 中途编辑问题
当你的 RAG 摄入任务在作者编辑中途运行时，索引可能会捕获一个在 Wiki 中从未真实存在的状态。本文将探讨为什么基于轮询的流水线在大规模场景下会产生脏读，以及如何通过 CDC、版本锁定和写入静默模式来解决这些问题。
insiderrag
5月31日13 min
为什么你的智能体在开发中表现完美，在生产中却状况百出
稀疏的开发测试数据隐藏了生产环境实际会触发的各种行为。在你的智能体面对具有生产级基数和歧义性的数据运行之前，你通过的测试验证的只是一个虚假的世界。
ai-engineeringagents
5月31日12 min
你的定时 Agent 有四个时钟，而你信任的是错误的那一个
通过 cron 触发的 AI Agent 继承了四个时钟 —— 调度器、工作节点、模型和工具 —— 而大多数生产系统都在默默地信任错误的那一个。本文将带你了解这些失败模式以及防止这些问题的‘时间交接合约’。
insiderai-agents
5月31日14 min
不属于你的那次变慢：对话中途的 KV 缓存逐出
在第十二轮，你对话的首字延迟暴涨 4 倍，而追踪日志什么也解释不了。你所依赖的 KV 缓存被另一个租户的请求驱逐，而你没有任何遥测指标能点出原因。
llminference
5月30日11 min
你没列进预算的"弃答税"
教会 Agent 说"我不知道"看上去是安全胜利,直到人工队列接下账单为止。本文给出把 LLM 弃答视为成本转移动作时的端到端账本。
insiderai-agents
5月30日12 min
你的 LLM 抄不准的那个账号
LLM 是 token 预测器，不是字符串复印机。当两个相似的账号出现在同一段上下文里，智能体会换错数字、把退款打给错的客户，留下一条干净得看不出问题的 trace。修复方式是把『标识符保真』从模型的工作描述里剔除出去。
insiderllm-agents
5月30日12 min
那个用一小时反复重试同一个 400 错误的 Agent
400 不是瞬时错误。把它当瞬时错误处理的重试循环,就是 agent 用一小时、一份预算、一个限流额度反复砸同一个错误负载的根源。
ai-agentsretry-logic
5月30日12 min

较新的博文

较旧的博文

Page 18

那些你的真实用户永远不会表现出的合成评估

那个直到触发时你才察觉的 Token 预算

你的 Agent 悄然适应了的那次工具版本升级

不可信的 Trace Replay：为什么你的新模型评估在撒谎

止于供应商边界的链路追踪

当你的 RAG 流读取时发生的 Wiki 中途编辑问题

为什么你的智能体在开发中表现完美，在生产中却状况百出

你的定时 Agent 有四个时钟，而你信任的是错误的那一个

不属于你的那次变慢：对话中途的 KV 缓存逐出

你没列进预算的"弃答税"

你的 LLM 抄不准的那个账号

那个用一小时反复重试同一个 400 错误的 Agent

关于 Tian Pan