博客

Page 11

12 articles

过拟合评估标准并自判获胜的微调模型
基于评分标准的强化学习模糊了训练信号与评估信号的界限。模型学会了评分标准的表面特征，仪表盘证明了其对数据的记忆，而生产环境则暴露了其中的差距。
evaluationfine-tuning
6月1日11 min
批处理负载挤占了你的实时路径：GPU 预留的惨痛教训
在夜间训练和晨间推理之间共享同一个 GPU 池看起来是提高了利用率，直到 p99 仪表板揭示了其负外部性的代价。为什么 GPU 分区必须是物理的，资源核算必须遵循延迟类别，以及早晨的尾部延迟问题无法通过软件层面修复。
gpuscheduling
6月1日10 min
通过了 Schema 验证的虚假工具参数
JSON Schema 只能验证结构，而不能验证事实。当 Agent 虚构出能通过 Schema 检查的引用参数时，重试循环会将这个 Bug 掩盖在看似正常的审计追踪中 —— 本文将介绍缺失的校验层。
ai-agentstool-calling
6月1日9 min
你的 Token 预测从未考虑过的重尾效应
基于试点的 Token 成本预测往往忽略了生产环境用户的重尾效应——账单通常由 P99 而非中位数决定。本文将探讨如何针对分布而非平均值进行定价。
insiderllm
6月1日10 min
你的数据驻留政策中遗漏的推理区域锁定
提供商的区域参数看起来像是 AWS 的区域锁定，但其实际行为更像路由提示。混淆这两者的工程团队所交付的数据驻留方案，往往在第一次真正的审计面前就会崩塌。
data-residencyllm-infrastructure
6月1日10 min
那个教会用户永远不要打断智能体的中断 UI
流式智能体的停止按钮可能会诱导用户强忍着看完错误的回答，而不是及时纠偏。解决方法是将“中断”视为对话中的一个轮次，而不是 API 调用的断路器。
agentsux
6月1日11 min
带有延迟预算的紧急开关：你的故障处理从未达到的标准
如果一个 AI 功能的遏制时间超过了其爆炸时间，那么所谓的紧急开关只是纸上谈兵，而非实际可用。测量激活延迟，根据损失率对其进行分层，并将该数值写入运行手册。
ai-engineeringincident-response
6月1日13 min
披着“延迟预算路由器”外衣的“质量损失路由器”
一个延迟预算路由器完全按照其损失函数的要求运行，却在无形中降低了符合推理要求的样本群体的质量。本文探讨了为什么聚合评估会掩盖这种性能回退，以及应该如何配置监控手段。
insiderllm-routing
6月1日11 min
你的编排器在规划步骤上消耗的延迟预算
智能体的大部分延迟都消耗在了决定下一步该做什么，而不是执行上。将规划器的开销视为一等公民的 SLO 指标，优化方向就会变得显而易见。
agentsllm
6月1日12 min
你的 AI 功能路线图从未计算过的法律审查时间表
法律审查是并行路线图上的串行依赖。在第一次发布延期中意识到这一点的团队，会在之后的每一个季度为此付出代价。
ai-engineeringengineering-leadership
6月1日11 min
本地化系统提示词：模型表现为何比英文原版更差
将经过调优的英文系统提示词简单翻译成 14 种语言并不是真正的本地化 —— 这是一种没人重新测量的隐性评估回退。模型的指令遵循准确度会下降 8–22 个百分点，导致你的非英语用户得到的智能体经常忽略那些在英语环境下被遵守的约束条件。
insiderllm
6月1日12 min
你的检索管道从未衡量的中间上下文盲区
当 Retrieval@10 指标依然处于绿色安全状态时，回答质量却在下滑。这种差距源于一种 U 型注意力偏差，它存在于检索团队和提示词团队之间的交界处，而双方的监控面板都无法察觉模型从未读取过的那段内容。
insiderrag
6月1日10 min

较新的博文

较旧的博文

Page 11

过拟合评估标准并自判获胜的微调模型

批处理负载挤占了你的实时路径：GPU 预留的惨痛教训

通过了 Schema 验证的虚假工具参数

你的 Token 预测从未考虑过的重尾效应

你的数据驻留政策中遗漏的推理区域锁定

那个教会用户永远不要打断智能体的中断 UI

带有延迟预算的紧急开关：你的故障处理从未达到的标准

披着“延迟预算路由器”外衣的“质量损失路由器”

你的编排器在规划步骤上消耗的延迟预算

你的 AI 功能路线图从未计算过的法律审查时间表

本地化系统提示词：模型表现为何比英文原版更差

你的检索管道从未衡量的中间上下文盲区

关于 Tian Pan