博客

Page 27

12 articles

Dogfooding 不是一种评估策略
你的团队每天使用产品只是冒烟测试，而不是评估。为什么开发者是自己产品最糟糕的样本，以及如何针对真正导致产品崩溃的流量来衡量 AI 产品的质量。
insiderai-evals
5月16日10 min
那些在悄无声息中重新排列你整个语料库的嵌入模型升级
将你的嵌入模型更换为基准测试更高的模型会使你存储的每一个向量失效。本文探讨了为什么升级会悄悄降低检索质量，以及如何像处理数据库 Schema 变更一样进行迁移。
ragembeddings
5月16日11 min
那些在你没留意时变简单的评估集
一个全员通过的 LLM 评估套件已经失去了衡量意义。探讨为什么静态评估集会趋于饱和、如何识别这一现象，以及如何保持有效的评分梯度。
evaluationllmops
5月16日10 min
Eval 测试集是滞后指标：你的绿色仪表盘只反映上季度的失败
仅基于故障复盘（Postmortems）建立的评估套件只能验证你的 AI 系统在过去是安全的。本文将探讨为什么全绿的通过率会在模型迁移当天“撒谎”，以及如何构建探索性评估的覆盖范围。
llmevaluation
5月16日9 min
你的评测集是一张用户早已离开的流量快照
基准测试的提升衡量的是用户早已离开的分布上的进展。本文探讨评测集陈旧、幸存者陷阱以及单一聚合指标如何掩盖无声的衰退 —— 以及你如何让评测始终紧跟流动的动态。
insiderllm-evaluation
5月16日12 min
那个没人同意却成了规范的评估套件
大多数 Agent 团队没有需求文档 —— 评估套件默认成为了规范。为什么全绿的评估运行结果只证明了一个工程师的假设，以及如何以 API Schema 的评审严谨度来对待评估集。
ai-engineeringllm-agents
5月16日9 min
那个你从未进行过负载测试的备用模型
配置好的备用模型只能证明你的路由机制有效 —— 却无法证明你的应用是否能在次要模型的输出下生存。本文探讨了为什么名义上的备用方案在真实流量下会失败，以及如何在供应商出故障前先行测试你的故障转移机制。
insiderllm
5月16日10 min
你的备用路径是生产环境中唯一未经测试的代码
你为应对故障而构建的降级路径几乎从不运行，因此它在寂静中腐烂，并在其本应应对的事故发生时才首次亮相。
insiderreliability
5月16日10 min
Happy Path 是你的 Agent 评估测试过的唯一路径
94% 的通过率衡量的是你想象成功的能力，而非 Agent 是否真的有效。本文探讨黄金路径偏见如何渗入 Agent 评估套件，以及如何通过故障模式覆盖、生产案例收集和故障注入来解决这一问题。
insiderai-agents
5月16日11 min
你的智能体从未发送的幂等键
当智能体的工具调用超时并重试时，如果没有幂等键，重试可能会导致再次扣费。了解如何让智能体重试变得安全无害，而非充满风险。
ai-agentsidempotency
5月16日12 min
没有复现步骤的故障工单：可复现性是工程化的结果
一个智能体删除了错误的记录，而事后剖析报告中却找不到原因。AI 智能体的可复现性并非技术栈自带的属性——它是你需要有意识地去捕获、进行版本控制并回放的东西。
ai-agentsobservability
5月16日11 min
你的内部 API 在智能体调用的那一天起就变成了公共 API
只有当你能叫出每一个调用者的名字时，内部 API 才真正属于“内部”。一旦接入 LLM 智能体，那些从未白纸黑字写下的契约就会变成负担 —— 以下是你突然需要为之付出的公共 API 维护准则。
insiderai-agents
5月16日12 min

较新的博文

较旧的博文

Page 27

Dogfooding 不是一种评估策略

那些在悄无声息中重新排列你整个语料库的嵌入模型升级

那些在你没留意时变简单的评估集

Eval 测试集是滞后指标：你的绿色仪表盘只反映上季度的失败

你的评测集是一张用户早已离开的流量快照

那个没人同意却成了规范的评估套件

那个你从未进行过负载测试的备用模型

你的备用路径是生产环境中唯一未经测试的代码

Happy Path 是你的 Agent 评估测试过的唯一路径

你的智能体从未发送的幂等键

没有复现步骤的故障工单：可复现性是工程化的结果

你的内部 API 在智能体调用的那一天起就变成了公共 API

关于 Tian Pan