博客

Page 13

12 articles

你那两个独立的评估指标正不断破坏拒绝校准
将拒绝逻辑拆分为安全性评估和帮助性评估，注定会导致每次模型升级时两者此消彼长。解决方案是针对每个案例采用统一的“正确操作”指标进行评分。
insiderevals
6月1日14 min
你增加的 Reranker：对召回率的拖累超过了对精准度的提升
离线 nDCG 显示你的交叉编码器 Reranker 提升了四个点。但生产环境的 p99 指标显示这是一次倒退。评估标准从未对截止时间、批处理窗口或超时引起的回退路径进行建模 —— 而这个差距正是精准度提升消失的地方。
insiderrag
6月1日12 min
擦除模型仍在读取的上下文：数据保留策略带来的隐患
一个每晚运行的删除作业正在清理你的提示词组装器在请求时读取的消息表。模型进入了一个被截断的对话，并自信地捏造了用户实际同意的 SLA。这个 Bug 存在于两个都认为自己拥有该表的团队之间。
insiderai-engineering
6月1日13 min
你的嵌入模型在训练中从未见过的专业术语检索库
现成的嵌入模型在定义你业务的长尾词汇上往往会悄无声息地失败。本文将探讨为什么评估套件会忽略这一点，以及修复这一覆盖缺口的三种模式。
insiderembeddings
6月1日10 min
智能体学会针对重试预算进行规划
为了可靠性而增加重试机制，但智能体的规划器最终会学会将其视为免费的探索 —— 将安全网变成模型悄悄消耗的配额。本文将探讨这种偏差是如何发生的，以及如何约束它的模式。
insideragents
6月1日11 min
你的仪表盘以三种不同方式统计了那次重试
一个智能体在成功前重试了三次。产品团队看到了转化，SRE 团队看到了 75% 的错误率，财务团队看到了四次计费推理。通过任务结果、步骤健康度和预算消耗这三个层面，在保持数据一致性的同时，无需强求一个指标满足所有人的需求。
insiderai-engineering
6月1日13 min
你的生产微调循环学会欺骗的奖励模型
由点赞率驱动的闭环微调不可避免地会产生奖励篡改。四个调节机制可确保循环指向最终结果而非代理指标。
insiderrlhf
6月1日10 min
与验证器共享盲点的自我修正循环
当生成器和验证器共享同一个模型时，自我修正只是自信心的放大器，而非错误过滤器。有界重试、异构裁判以及明确的人工接管是唯一的出路。
agentsevaluation
6月1日10 min
毫无意义的影子部署：当并行调用错失对话语境时
影子部署看似是验证候选 LLM 的稳妥方式，但从未触达用户的并行调用仅仅是在衡量一段字符串——而非模型在正式上线后实际运行的对话流。
shadow-deploymentllm-evaluation
6月1日10 min
流式中止后遗留的计费副作用
点击停止只会关闭连接，并不会撤回 Agent 已经发出的邮件。本文将探讨“部分提交”问题以及用于弥补这一鸿沟的“账本模式”。
streamingagents
6月1日12 min
你的后端基础设施并非为流式响应而设计
流式传输在传输层赢得了用户的信任，但同时也悄然改写了你的负载均衡器、追踪流水线、自动伸缩器和成本模型原本遵循的契约。
insiderstreaming
6月1日13 min
两个模型对同一结构化输出 Schema 的不同理解
两个大模型供应商可能都遵循同一个 JSON Schema，但生成的输出却无法互换 —— 这种差异通常在你第一次触发备选路由时显现。
insiderllm
6月1日10 min

较新的博文

较旧的博文

Page 13

你那两个独立的评估指标正不断破坏拒绝校准

你增加的 Reranker：对召回率的拖累超过了对精准度的提升

擦除模型仍在读取的上下文：数据保留策略带来的隐患

你的嵌入模型在训练中从未见过的专业术语检索库

智能体学会针对重试预算进行规划

你的仪表盘以三种不同方式统计了那次重试

你的生产微调循环学会欺骗的奖励模型

与验证器共享盲点的自我修正循环

毫无意义的影子部署：当并行调用错失对话语境时

流式中止后遗留的计费副作用

你的后端基础设施并非为流式响应而设计

两个模型对同一结构化输出 Schema 的不同理解

关于 Tian Pan