博客

Page 41

12 articles

Eval 差异分析作为分支保护：交付分数变化，而非分数下限
分数下限 (Score Floors) 会让静默回归进入生产环境，同时又可能误报真实的改进。基于基线感知的切片级 Eval 差异分析能将 Eval 门禁转变为你的团队可以信赖的回归检测器。
evalsci-cd
4月27日11 min
评估集毒丸：当你的基准测试成为后门
大多数团队信任评估，因为没人负责对其进行审计。标注流水线是一个人力供应链 —— 而黄金数据集会继承人类引入的任何扭曲。
ai-engineeringevaluation
4月27日13 min
评估集也有季节性：为什么质量在报税季的第一个周一会下降
生产流量并非一成不变。在 3 月采样并在 10 月运行的评估集，面对的是从未在黄金数据行中出现过的 “10 月特征” 客户。以下是如何保持质量把关真实性的方法。
evalsllm
4月27日13 min
你的 Gold 评估集已经发生偏移，而它的通过率正是你无法察觉的原因
当生产环境已经偏离时，Gold 评估的通过率可能依然显示为绿色。并行运行一个基于当前流量构建的影子评估集 —— 分歧度指标正是你仪表盘中缺失的偏移检测器。
insiderai-engineering
4月27日13 min
人类注意力预算是你的 HITL 系统在默默透支的约束条件
HITL 系统通常将审核员的时间视为无限，但警觉度下降和自动化偏差正悄悄地将安全网变成“橡皮图章”。请针对真实的人类极限进行设计。
hitlai-agents
4月27日11 min
闲置智能体税：当用户在开会时，你的 AI 会话到底产生了多少成本
长时 AI 智能体会话即使在用户开会时也会持续产生费用。本文将揭示这些闲置时间背后的真实支出，并探讨如何通过设计休眠分层来在保证响应速度的同时，避免账单超支。
llmai-engineering
4月27日13 min
你的推理内部结算正在悄悄侵蚀评估纪律
仅对推理 Token 计费而不奖励评估覆盖率，这在变相鼓励模型升级并惩罚评估工作。结果是：在账单飙升的同时评估覆盖率却在缩减——这与 FinOps 的初衷背道而驰。
finopsllm-eval
4月27日13 min
推理成本预测：财务团队想要而你写不出来的容量规划
经典的容量规划假设工作负载是可衡量的，且单位成本是稳定的。AI 工作负载打破了这两点——你交给财务部门的 SaaS 风格预测，正是他们不断要求重新调整基准的原因。本文介绍了它应该采取的四项 FinOps 准则。
finopsai-engineering
4月27日13 min
LLM 裁判的天花板：为什么你的自动评估在关键分数点上不再与用户对齐
LLM 作为裁判与人类的一致性在模糊的中间地带最高，但在决策边界处会崩溃。保持评估诚实的关键规范包括：分片 Kappa 分析、漂移仪表盘、针对高风险分片的跨模型系列集成，以及一个明确的、超过后需由人类评分的天花板。
llm-evalai-engineering
4月27日12 min
LLM SDK 升级税：为什么补丁版本更新实际上是一次伪装的模型发布
模型 SDK 的补丁版本更新可能会悄悄重写提示词行为、破坏 JSON 解析，并让回归缺陷绕过你的评估网关。本文将介绍捕获这些问题的规范。
insiderllm
4月27日11 min
你的 APM 正在悄悄丢弃 LLM 遥测数据，而 Bug 就隐藏在这些缝隙中
传统的 APM 是为有限维度和无状态服务设计的。LLM 工作负载的基数特征更接近产品分析，这种不匹配会悄悄抹除那些能暴露提示词故障的唯一信号。
insiderai-engineering
4月27日12 min
模型偏好分叉：为什么你的提示词库有三个版本且没人追踪漂移
一个共享的提示词库会悄悄地积累起无人追踪的特定模型分叉，在每次模型升级时破坏你的评估套件与路由层之间的约定。
llmprompt-engineering
4月27日12 min

较新的博文

较旧的博文

Page 41

Eval 差异分析作为分支保护：交付分数变化，而非分数下限

评估集毒丸：当你的基准测试成为后门

评估集也有季节性：为什么质量在报税季的第一个周一会下降

你的 Gold 评估集已经发生偏移，而它的通过率正是你无法察觉的原因

人类注意力预算是你的 HITL 系统在默默透支的约束条件

闲置智能体税：当用户在开会时，你的 AI 会话到底产生了多少成本

你的推理内部结算正在悄悄侵蚀评估纪律

推理成本预测：财务团队想要而你写不出来的容量规划

LLM 裁判的天花板：为什么你的自动评估在关键分数点上不再与用户对齐

LLM SDK 升级税：为什么补丁版本更新实际上是一次伪装的模型发布

你的 APM 正在悄悄丢弃 LLM 遥测数据，而 Bug 就隐藏在这些缝隙中

模型偏好分叉：为什么你的提示词库有三个版本且没人追踪漂移

关于 Tian Pan