博客

Page 89

12 articles

人机回环 (HITL) 是一个队列，而队列具有动态特性
智能体工作流中的审批步骤表现得就像生产环境中的队列 —— 伴随着积压增长、陈旧性、疲劳感和优先级倒置。以下是如何设计能够承受规模化压力的 HITL 的方法。
insiderai-engineering
4月22日13 min
你的 P99 正在受陌生人流量的影响：托管 LLM 推理中的“吵闹邻居税”
托管 LLM API 在你从未见过的租户之间共享 GPU、批处理和 KV 缓存预算，因此你的尾部延迟会随陌生人的流量而波动。本文将介绍如何证明这一点、如何缓解，以及何时决定转向专用算力。
llminfrastructure
4月22日13 min
现在，推理速度已经快过你的数据库了
模型在请求延迟中所占的份额已经大幅下降。你自己的特征存储、身份验证和 Postgres 调用现在成了性能的长尾——而大多数 AI 架构甚至还没察觉到这一点。
insiderai-infrastructure
4月22日12 min
面试模式与任务模式：你的智能体不断打破的无形契约
大多数关于 “问得太多” 和 “问得不够” 的抱怨其实都是同一个 bug —— 你的智能体选错了契约。本文将介绍如何识别并解决这一问题。
agentsux
4月22日12 min
“LLM 即编译器” 是一个你的代码库无法承受的隐喻
将 LLM 视为编译器正悄无声息地取消了那些让 AI 生成的代码库在渡过 “六个月之墙” 后仍能保持可维护性的纪律 —— 包括代码审查、重构和架构决策。
ai-engineeringai-assisted-development
4月22日11 min
LLM-as-Judge 漂移：当你的评估器升级导致所有数据变动时
如果回归测试套件在没有任何提示词更改的情况下变红，通常问题出在裁判身上，而不是候选模型。本文探讨评估器漂移如何制造虚假的胜负，为什么固定裁判和校准频率至关重要，以及在评估元数据中应记录哪些内容以防止仪表盘数据误导。
llm-evaluationllm-as-judge
4月22日14 min
你的 LLM Span 在撒谎：APM 工具没告诉你的推理延迟真相
标准的 APM 工具将 LLM 调用视为一个不透明的 span —— 但 prefill、decode、缓存未命中和批处理位置都隐藏在这个耗时段中。本文将揭示你真正需要的追踪层面。
insiderllm
4月22日10 min
Markdown 优于 JSON：你正在支付却未察觉的输出格式税
严格的 JSON 模式在许多任务中悄悄削弱了推理准确率。本文将探讨解码时的机制，对比 Markdown、XML 和 JSON 之间的实测差距，并提供一个决策树，帮助你选择适合具体任务的格式。
insiderllm
4月22日12 min
MCP 服务端坟场：当你的智能体依赖停止更新时
第三方 MCP 服务端已成为 AI 智能体面临的新型长尾依赖风险。被弃用的维护者、过时的填充代码（shims）以及继承的 CVE 漏洞引发了能够绕过所有供应链告警的无声失败 —— 本文将介绍如何在采用前识别孤立项目，以及何时应当进行分叉（Fork）、Vendor 化或自行构建。
mcpai-agents
4月22日12 min
飞行中转向：无需重启即可重定向长时运行的智能体
大多数智能体 UI 将每次航向修正都变成了完全重启。解决方案是架构层面的——检查点与注入、计划修订钩子以及软中断令牌——外加一套区分了修正、覆盖与取消的“三动词” UX 词汇表。
insideragents
4月22日11 min
缺失的实验组：你的 AI 实验缺少 “关闭 AI” 的对照组
大多数 AI 实验只是在对比 “更好的 AI” 和 “较差的 AI”，而忽略了真正关键的对比 —— 与 “完全没有 AI” 的情况进行比较。空白对照组（Null Arm）是目前缺失的一种规范，这种缺失导致团队无法衡量他们的推理支出是否真正带来了收益。
experimentationai-product
4月22日10 min
评估通过，但工具全是 Mock 的：为什么你的 Agent 最棘手的生产故障从未进入测试框架
Mock 工具的评估让 CI 绿灯常亮，而生产环境却在一团糟。本文探讨了每个 Mock 默认做出的三个隐含假设，为什么评估通过率与事故率会发生背离，以及最终弥合这一差距的三级阶梯（Mock、录制回放、实时烟雾测试）。
ai-engineeringevaluation
4月22日11 min

较新的博文

较旧的博文

Page 89

人机回环 (HITL) 是一个队列，而队列具有动态特性

你的 P99 正在受陌生人流量的影响：托管 LLM 推理中的“吵闹邻居税”

现在，推理速度已经快过你的数据库了

面试模式与任务模式：你的智能体不断打破的无形契约

“LLM 即编译器” 是一个你的代码库无法承受的隐喻

LLM-as-Judge 漂移：当你的评估器升级导致所有数据变动时

你的 LLM Span 在撒谎：APM 工具没告诉你的推理延迟真相

Markdown 优于 JSON：你正在支付却未察觉的输出格式税

MCP 服务端坟场：当你的智能体依赖停止更新时

飞行中转向：无需重启即可重定向长时运行的智能体

缺失的实验组：你的 AI 实验缺少 “关闭 AI” 的对照组

评估通过，但工具全是 Mock 的：为什么你的 Agent 最棘手的生产故障从未进入测试框架

关于 Tian Pan