博客

Page 10

12 articles

你的 Agent 把开发环境当成了生产环境，因为系统提示词从未指明是哪一个
Agent 继承了你的代码逻辑，但没有继承你的空间感。当预发和生产环境的提示词完全相同时，模型会根据训练数据来填充“它在哪里”的信息 —— 而“生产数据库”通常是默认选项。本文将介绍如何让 Agent 感知并锚定其所处的环境。
ai-engineeringagents
6月1日12 min
那些在评估集中遗漏、却在模型蒸馏中丢失的能力
蒸馏通过有限的样本优化散度，并根据有限的评估集进行交付。评估集未测量的行为是学生模型可以自由丢弃的熵 —— 而它首先丢弃的，通常是那些罕见但关键的能力。
distillationevals
6月1日10 min
让你的 A/B 测试整整一个季度都失效的嵌入模型轮换
为什么供应商端的嵌入模型升级会悄无声息地破坏你对检索功能的 A/B 测试，以及填补这一鸿沟的实验规范。
insiderembeddings
6月1日11 min
重新路由回智能体的升级路径
当下游队列开始自行自动化时，`escalate_to_human` 工具就不再是人机回环了。探讨为什么契约的生命周期必须长于消费者。
insiderai-agents
6月1日11 min
裁判模型被悄悄升级的评估框架
终端被悄悄更新的 LLM 裁判是一个没有校准契约的测量工具。固定快照版本、构建锚点集并运行双裁判窗口，确保 6 分的提升代表的是你的系统得到了改进 —— 而不是尺子变了。
insiderllm-eval
6月1日13 min
被两个漂移向量拉扯的评估准则
一个同时由人类和 LLM 裁判阅读的评估准则会在两个轴向上同时发生漂移。综合得分掩盖了这种波动。本文介绍了一种测量协议，使每种漂移都变得可追溯。
insiderevals
6月1日10 min
那个在东部时间凌晨 3 点采样生产流量的评估集
一个基于凌晨 3 点定时任务构建的离线评估集，悄然变成了针对深夜批量重试和亚太地区流量的调查——而排行榜无法告诉你那是谁的模型。
insiderllm-evals
6月1日11 min
先收敛、后悄然崩溃的评估
停滞不前的评估分数并不总是意味着模型达到了天花板。当标注者趋于同质化时，一致性指标会上升，而评估则不再能衡量团队认为它正在衡量的内容。
evalsllm-judge
6月1日12 min
你的模型已经学会通过可见输入预测的那个功能开关
当路由哈希与 Prompt 组装器共享输入时，LLM Prompt 实验就会发生策略泄漏 —— 本文将深入探讨这种虚假提升是如何产生的、仪表盘无法显示的症状，以及弥合这一差距的工程实践。
insiderexperimentation
6月1日11 min
微调冷启动：云供应商如何将延迟计入你的闲置成本
托管微调模型与基础模型共享 API 接口，但其成本延迟曲线却大不相同。本文将揭示冷启动税如何隐藏在你的 p99 延迟中，且从未出现在账单上。
llm-infrafine-tuning
6月1日12 min
你在调试时无意中构建的微调数据集
当你在测试环境 UI 中的“踩”按钮被悄悄用作训练流水线时，你实际上是在针对过去六个月里个人的品味、客户文本以及工程师的吐槽进行微调。请务必将调试界面与标注界面分开，否则你交付的模型可能是基于你团队那一周的心情训练出来的。
insiderfine-tuning
6月1日10 min
擦除模型原生对齐的微调过程
有监督微调（SFT）会悄然削弱基础模型自带的拒绝训练。本文将探讨为什么仅针对任务的评估会忽略这一点，并介绍在客户发现之前捕捉这种退化的四种实践方法。
fine-tuningalignment
6月1日11 min

较新的博文

较旧的博文

Page 10

你的 Agent 把开发环境当成了生产环境，因为系统提示词从未指明是哪一个

那些在评估集中遗漏、却在模型蒸馏中丢失的能力

让你的 A/B 测试整整一个季度都失效的嵌入模型轮换

重新路由回智能体的升级路径

裁判模型被悄悄升级的评估框架

被两个漂移向量拉扯的评估准则

那个在东部时间凌晨 3 点采样生产流量的评估集

先收敛、后悄然崩溃的评估

你的模型已经学会通过可见输入预测的那个功能开关

微调冷启动：云供应商如何将延迟计入你的闲置成本

你在调试时无意中构建的微调数据集

擦除模型原生对齐的微调过程

关于 Tian Pan