博客

Page 22

12 articles

当评估指标全看“感觉”时，你的 A/B 测试无法区分两个模型
点击率无法区分用户是真心喜爱一个模型还是仅仅在忍受它。在你信任实验结果并据此选择模型之前，请先证明你的指标能够检测出你故意搞坏的模型。
insiderevaluation
5月21日9 min
你的智能体审计日志记录了一切，唯独没有记录原因
完整的智能体追踪展示了发生了什么，却从未解释原因。为什么可观测性并不等同于可解释性，为什么记录的思维链可能是虚构的，以及如何捕捉能通过监管机构审查的决策依据。
audit-logobservability
5月21日12 min
继承了你客服团队最坏习惯的聊天机器人
在真实的客服对话记录上进行微调，不仅会传输领域知识，还会传输你团队的默契工作流。本文将揭示你的模型实际学到了什么，以及如何通过数据清洗和评估来捕捉这些问题。
fine-tuningllmops
5月21日11 min
你的 Embedding 并不知晓外包人员已离职
你的向量索引是一个无人更新的权限缓存。当源数据的访问权限发生变更时，Embedding 仍会像什么都没发生一样继续响应——而这正是无人预料到的数据泄露。
ragvector-databases
5月21日11 min
你的评估集里只有你已经解决的问题
你的 LLM 评估分数在攀升，是因为幸存者偏差过滤掉了那些再也没有回来的用户。本文将告诉你如何发现你的评估套件无法察觉的失败案例。
evaluationllmops
5月21日10 min
从 Bug 到行为率：没有复现步骤的 AI 事后分析
没有复现步骤的 AI 故障并非调试失败 —— 它是系统在告诉你，单一的错误输出只是分布中的一个采样，而非确定性的 Bug。事后分析的形式必须随之改变。
ai-agentspostmortem
5月21日10 min
你的模型路由是一个看不见负载的负载均衡器
模型路由在模型执行任何操作之前就决定了由哪个模型处理查询 —— 但它所需的难度信号仅存在于答案中。本文将探讨为什么分类器准确率会带有误导性，为什么错误路由看起来像是平庸的质量而非明显的错误，以及如何监测真正随路由质量波动的下游信号。
llm-routingmodel-cascades
5月21日13 min
提示词 Diff 隐藏了自身的爆炸半径
一个三个单词的提示词修改和一段三个段落的重写在文本 Diff 中看起来并无二致，但其行为后果却大相径庭。为什么提示词审查需要评估增量，而不是字符计数。
insiderprompt-engineering
5月21日10 min
重提率：你的评估流水线从未提取出的失败信号
在会话中重复同一个问题的用户是在告诉你之前的回答失败了——但回合级评估和会话结束时的 CSAT 都会忽略这一点。本文将介绍如何将重提率作为核心指标进行检测。
insiderllm-evaluation
5月21日11 min
Shadow Replay 会惩罚那些本可以改变对话走向的模型
Shadow Replay 评估会悄悄地惩罚更好的模型，因为它根据旧模型引导下的用户对话记录来给新模型评分。本文将探讨其中的原因，以及影子回放仍然可以真实衡量哪些指标。
insiderllm-evals
5月21日11 min
流式 Token 是无法收回的承诺
当背后的工具调用失败时，原本自信的流式回答就会崩溃。流式传输是一种不可逆的契约 —— 有一些模式可以在不牺牲感知延迟的情况下重新获得选择权。
streamingagents
5月21日10 min
那个把上周 Slack 消息当成昨天消息来读的智能体
一个智能体检索到一条 6 周前写的“我们明天发布”的消息，并将其视为当前的计划。检索流水线保留了正文，却弄丢了时钟。
insiderrag
5月21日11 min

较新的博文

较旧的博文

Page 22

当评估指标全看“感觉”时，你的 A/B 测试无法区分两个模型

你的智能体审计日志记录了一切，唯独没有记录原因

继承了你客服团队最坏习惯的聊天机器人

你的 Embedding 并不知晓外包人员已离职

你的评估集里只有你已经解决的问题

从 Bug 到行为率：没有复现步骤的 AI 事后分析

你的模型路由是一个看不见负载的负载均衡器

提示词 Diff 隐藏了自身的爆炸半径

重提率：你的评估流水线从未提取出的失败信号

Shadow Replay 会惩罚那些本可以改变对话走向的模型

流式 Token 是无法收回的承诺

那个把上周 Slack 消息当成昨天消息来读的智能体

关于 Tian Pan