博客

Page 35

12 articles

没人构建的“从支持工单到评估案例”流水线
支持工单是大多数 AI 团队拥有的信号最强的评估数据集，但在评估套件在 Git 中逐渐失效时，它们却在 Zendesk 中腐烂。这里有一个能够闭环的四阶段流水线。
evalsai-engineering
5月13日11 min
思维标记（Thinking Tokens）在你的日志中隐身，但在账单上却震耳欲聋
推理标记（Reasoning tokens）按输出计费，但它们存在于一个大多数 LLM 可观测性栈在构建时尚未涉及的字段中。本文将分析为什么财务部门总是先于技术人员发现成本回归，以及你该如何弥合这一差距。
insiderllm-observability
5月13日10 min
随时间波动的质量偏移：为什么你的 AI 功能在东部时间上午 10 点表现不同
供应商负载不仅仅是一个带有质量副作用的延迟问题 —— 它是一种你的评估套件从未察觉的分布偏移，而你交付的功能其质量下限从未被团队真正衡量。
ai-engineeringevals
5月13日11 min
工具 Schema 演进陷阱：当一个可选参数改变了你 Planner 的先验分布
在现有工具描述中新增一个可选参数，发布过程顺利，没有破坏任何调用者，也没有导致评估失败 —— 但由于 Planner 的先验分布发生了偏移，它悄无声息地让工具调用频率增加了两位数。为什么工具 Schema 需要语义化版本（SemVer）、频率基准，以及与系统提示词（System Prompt）同样严格的评估规范。
ai-engineeringagents
5月13日11 min
你的 PRD 只是一个未经测试的 Prompt —— 直到你对其进行评测
AI 功能的 PRD 本质上是一个未经编译的系统提示词。在验收前进行评测，能让定义不明确的问题在上线前就暴露出来。
insiderai-engineering
5月13日10 min
智能体熔断机制：为什么步骤预算是保险丝，而非断路器
步骤计数预算只是在损失造成后才烧断的保险丝。真正的智能体熔断机制结合了语义循环检测、进展信号、Token 生成速度上限以及“停止并移交”机制。
ai-agentsreliability
5月12日13 min
智能体记忆是合规层面：你从未打算构建的记录管理系统
在智能体产品中，长期记忆并非仅仅是一项功能 —— 它是一个记录管理系统。从写入第一条数据的那天起，溯源、删除、审计和数据驻留义务便随之而来；在截止日期前临时修补这些功能的成本远高于在设计之初就构建它们。
ai-agentscompliance
5月12日13 min
AI 代码审查漂移：当你的 LLM 审查标准比代码演进得还快
LLM 代码审查器并非一个稳定的工具 —— 它是由多个独立漂移的组件组成的堆栈。本文将探讨为什么你的 PR 机器人捕获率会悄无声息地下降，以及哪些校准纪律能防止安全网变薄。
insiderai-code-review
5月12日10 min
AI 功能依赖图：当提示词修改成为静默破坏性变更时
提示词修改对每一个消耗其输出的下游功能来说都是一项破坏性变更。清单、实时语料库契约测试和漂移警报，是团队在下一次故障替他们画出 AI 依赖图之前，主动绘制该图谱的方法。
insiderai-engineering
5月12日12 min
标注偏移：评估集如何逐渐无法衡量你交付的产品
当评估分数上升而产品却在悄然衰退时，说明测量系统的校准已经失准。本文将探讨标注偏移如何隐蔽地发生，为什么评分标准和产品都在你脚下不断变化，以及保持评估数据真实性的四个关键动作。
evalsllm-ops
5月12日11 min
非对称评估经济学：为什么一个测试用例的成本比它测试的功能还要高
单个评估用例所消耗的工程精力通常比其测试的功能还要多。本文探讨了为什么团队在评估上投入不足，以及为什么从资本支出（Capex）的角度来看待这个问题能解决这一困境。
insiderevals
5月12日11 min
后台智能体与通知预算：为什么主动 AI 在用户注意力面前会遭遇硬上限
主动型 AI 智能体每天面临每个用户 3 到 5 条通知的硬上限。那些不考虑注意力预算的团队，其发布的功能往往会在几周内出现启动指标与留存指标倒挂的情况。
insiderai-agents
5月12日11 min

较新的博文

较旧的博文

Page 35

没人构建的“从支持工单到评估案例”流水线

思维标记（Thinking Tokens）在你的日志中隐身，但在账单上却震耳欲聋

随时间波动的质量偏移：为什么你的 AI 功能在东部时间上午 10 点表现不同

工具 Schema 演进陷阱：当一个可选参数改变了你 Planner 的先验分布

你的 PRD 只是一个未经测试的 Prompt —— 直到你对其进行评测

智能体熔断机制：为什么步骤预算是保险丝，而非断路器

智能体记忆是合规层面：你从未打算构建的记录管理系统

AI 代码审查漂移：当你的 LLM 审查标准比代码演进得还快

AI 功能依赖图：当提示词修改成为静默破坏性变更时

标注偏移：评估集如何逐渐无法衡量你交付的产品

非对称评估经济学：为什么一个测试用例的成本比它测试的功能还要高

后台智能体与通知预算：为什么主动 AI 在用户注意力面前会遭遇硬上限

关于 Tian Pan