博客

Page 29

12 articles

用户过早行动的流式 Token
逐个 Token 的流式传输让助手感觉响应迅速，但它也会将模型未完成的思考作为最终答案展示出来。本文将探讨导致这一问题的竞态条件以及解决该问题的设计模式。
llmux
5月16日9 min
结构化输出并非经过验证的输出
JSON 模式和受限解码只能保证 LLM 响应的形状，而非其含义。本文探讨了为什么通过 Schema 检查只是正确性工作的开始，以及语义验证真正的归宿。
insiderllm
5月16日10 min
每次事故后你的系统提示词都会增长 —— 而且没人会删掉任何一行
每一个生产事故都会在你的系统提示词中留下一句防御性语句，而且从来没人会删掉它们。本文将探讨为什么提示词积聚是真实的技术债，以及如何通过日期标记、半衰期和消融实验来修剪它。
insiderllm
5月16日10 min
任务完成率指标变绿，而用户却在默默受苦
94% 的任务完成率仪表板可能一直显示绿色，但与此同时 Agent 正在消耗大量 Token、反复回溯并让用户感到疲惫。为什么完成率是一个错误的指标，以及四个能洞察其盲点的轨迹指标。
ai-agentsobservability
5月16日9 min
那个由智能体编写的、实际上什么也没测的测试
编程智能体生成的测试套件能够通过测试、提高覆盖率，却抓不住任何 Bug。本文探讨了为什么智能体编写的测试会演变为同义反复，以及变异测试和红绿 TDD 准则如何让它们重新起到约束行为的作用。
ai-engineeringtesting
5月16日11 min
当测试集泄露到微调中：你自己造成的污染
基准测试污染通常归咎于模型厂商，但最严重的泄露往往是你自己的团队造成的 —— 故障分流、合成数据以及共享的 RAG 语料库，这些因素正悄无声息地将评估案例转移到训练中。
insiderevaluation
5月16日10 min
那个记得你撤回了什么的智能体：将删除作为一等公民的记忆操作
只增（append-only）的智能体记忆存储在存储的事实失效的那一刻就开始腐烂。为什么删除、撤回和失效必须是一等公民操作 —— 以及如何设计可被查找、反驳和移除的记忆写入。
insiderai-agents
5月16日11 min
悄然失效的评估：当你的测试套件在衡量一个已不存在的世界
全绿的评估运行可能是在认证过去而非现在。本文探讨评估套件如何衰减，如何区分真正的性能退化与过时的测试，以及如何在套件中构建新鲜度保障机制。
evalsllmops
5月16日11 min
Token 预算是调度问题，而非提示词问题
当一个冗长的工具结果耗尽上下文窗口时，智能体的质量就会下降。应像对待操作系统内存一样对待 Token 预算：设置上限，按优先级淘汰，并为推理留出空间。
ai-agentscontext-engineering
5月16日11 min
工具的默认参数其实是伪装的策略决策
你的 Agent 跳过的每一个可选参数都会继承你选择的默认值。这些默认值是未经审计的策略 —— 它们在追踪中不可见，在评审中也无人负责。
ai-agentstool-design
5月16日11 min
你的工具描述是模型遵循的指令通道
工具描述是模型视为权威指令的散文，但代码审查和输入清理从未检查过它们。本文将探讨被投毒的元数据和地毯式攻击是如何渗透进来的，以及弥合这一差距的规范。
insiderai-engineering
5月16日9 min
你在没告诉智能体的情况下修改了工具 Schema
重命名一个字段对你的后端来说只是常规的 API 变更，但对于调用该工具的 LLM 而言，这却是一个无声的破坏性变更。本文探讨如何将工具 Schema 视为拥有两个消费者的版本化契约。
insiderai-agents
5月16日12 min

较新的博文

较旧的博文

Page 29

用户过早行动的流式 Token

结构化输出并非经过验证的输出

每次事故后你的系统提示词都会增长 —— 而且没人会删掉任何一行

任务完成率指标变绿，而用户却在默默受苦

那个由智能体编写的、实际上什么也没测的测试

当测试集泄露到微调中：你自己造成的污染

那个记得你撤回了什么的智能体：将删除作为一等公民的记忆操作

悄然失效的评估：当你的测试套件在衡量一个已不存在的世界

Token 预算是调度问题，而非提示词问题

工具的默认参数其实是伪装的策略决策

你的工具描述是模型遵循的指令通道

你在没告诉智能体的情况下修改了工具 Schema

关于 Tian Pan