博客

Page 85

12 articles

评估集也有季节性：为什么质量在报税季的第一个周一会下降
生产流量并非一成不变。在 3 月采样并在 10 月运行的评估集，面对的是从未在黄金数据行中出现过的 “10 月特征” 客户。以下是如何保持质量把关真实性的方法。
evalsllm
4月27日13 min
你的 Gold 评估集已经发生偏移，而它的通过率正是你无法察觉的原因
当生产环境已经偏离时，Gold 评估的通过率可能依然显示为绿色。并行运行一个基于当前流量构建的影子评估集 —— 分歧度指标正是你仪表盘中缺失的偏移检测器。
insiderai-engineering
4月27日13 min
人类注意力预算是你的 HITL 系统在默默透支的约束条件
HITL 系统通常将审核员的时间视为无限，但警觉度下降和自动化偏差正悄悄地将安全网变成“橡皮图章”。请针对真实的人类极限进行设计。
hitlai-agents
4月27日11 min
闲置智能体税：当用户在开会时，你的 AI 会话到底产生了多少成本
长时 AI 智能体会话即使在用户开会时也会持续产生费用。本文将揭示这些闲置时间背后的真实支出，并探讨如何通过设计休眠分层来在保证响应速度的同时，避免账单超支。
llmai-engineering
4月27日13 min
你的推理内部结算正在悄悄侵蚀评估纪律
仅对推理 Token 计费而不奖励评估覆盖率，这在变相鼓励模型升级并惩罚评估工作。结果是：在账单飙升的同时评估覆盖率却在缩减——这与 FinOps 的初衷背道而驰。
finopsllm-eval
4月27日13 min
推理成本预测：财务团队想要而你写不出来的容量规划
经典的容量规划假设工作负载是可衡量的，且单位成本是稳定的。AI 工作负载打破了这两点——你交给财务部门的 SaaS 风格预测，正是他们不断要求重新调整基准的原因。本文介绍了它应该采取的四项 FinOps 准则。
finopsai-engineering
4月27日13 min
LLM 裁判的天花板：为什么你的自动评估在关键分数点上不再与用户对齐
LLM 作为裁判与人类的一致性在模糊的中间地带最高，但在决策边界处会崩溃。保持评估诚实的关键规范包括：分片 Kappa 分析、漂移仪表盘、针对高风险分片的跨模型系列集成，以及一个明确的、超过后需由人类评分的天花板。
llm-evalai-engineering
4月27日12 min
LLM SDK 升级税：为什么补丁版本更新实际上是一次伪装的模型发布
模型 SDK 的补丁版本更新可能会悄悄重写提示词行为、破坏 JSON 解析，并让回归缺陷绕过你的评估网关。本文将介绍捕获这些问题的规范。
insiderllm
4月27日11 min
你的 APM 正在悄悄丢弃 LLM 遥测数据，而 Bug 就隐藏在这些缝隙中
传统的 APM 是为有限维度和无状态服务设计的。LLM 工作负载的基数特征更接近产品分析，这种不匹配会悄悄抹除那些能暴露提示词故障的唯一信号。
insiderai-engineering
4月27日12 min
模型偏好分叉：为什么你的提示词库有三个版本且没人追踪漂移
一个共享的提示词库会悄悄地积累起无人追踪的特定模型分叉，在每次模型升级时破坏你的评估套件与路由层之间的约定。
llmprompt-engineering
4月27日12 min
模型回滚速度：从“这次升级有问题”到“旧模型完全恢复”之间的七小时鸿沟
回滚 LLM 升级并非按下一个按钮那么简单 —— 它是一个具有滞后性的部分操作，更接近于数据库迁移。在下一个错误模型上线之前，以下是你的事故应对指南中需要的控制平面。
llmopsmlops
4月27日14 min
LLM 模型路由是伪装成成本优化的市场细分
将 60% 的 LLM 流量路由到更便宜的模型不仅改变了成本曲线，还悄然将你的 AI 功能拆分为两个产品。聚合准确率指标平均化了受损部分的表现，两种失败模式在 Bug 报告中混为一谈，而客户在没有任何发布说明的情况下体验着两个截然不同的助手。
insiderllm
4月27日11 min

较新的博文

较旧的博文

Page 85

评估集也有季节性：为什么质量在报税季的第一个周一会下降

你的 Gold 评估集已经发生偏移，而它的通过率正是你无法察觉的原因

人类注意力预算是你的 HITL 系统在默默透支的约束条件

闲置智能体税：当用户在开会时，你的 AI 会话到底产生了多少成本

你的推理内部结算正在悄悄侵蚀评估纪律

推理成本预测：财务团队想要而你写不出来的容量规划

LLM 裁判的天花板：为什么你的自动评估在关键分数点上不再与用户对齐

LLM SDK 升级税：为什么补丁版本更新实际上是一次伪装的模型发布

你的 APM 正在悄悄丢弃 LLM 遥测数据，而 Bug 就隐藏在这些缝隙中

模型偏好分叉：为什么你的提示词库有三个版本且没人追踪漂移

模型回滚速度：从“这次升级有问题”到“旧模型完全恢复”之间的七小时鸿沟

LLM 模型路由是伪装成成本优化的市场细分

关于 Tian Pan