博客

Page 57

12 articles

“完成！”不是返回码：为什么智能体完成需要结构化信号
智能体用自然语言发出完成信号；编排器则需要结构化事件。一个带有状态枚举、原因代码和可恢复句柄的 done 工具，能将静默的智能体失败转变为清晰的模式违规 (schema violations)，让你的流水线能够真正进行路由。
ai-agentsorchestration
4月22日11 min
持久化智能体：为什么异步队列无法胜任长运行 AI 工作流
多步骤 AI 智能体在生产环境中往往会失败，因为队列采用“至少一次”交付，而 LLM 的规划具有非确定性。解决方案是持久化执行 —— 通过 Saga 模式、幂等检查点以及围绕无状态规划器的有状态底层来构建。
agentsdurable-execution
4月22日12 min
Embedding API 的 “隐藏税”：为什么向量支出在不知不觉中超过了生成成本
Embedding API 的支出在规模化过程中会悄然增长，并最终超过生成成本。本文将深入分析主导账单的工作负载、扭转成本曲线的架构杠杆，以及自托管的盈亏平衡计算。
embeddingscost-optimization
4月22日14 min
Embedding 模型轮换是数据库迁移，而非代码部署
更换 Embedding 模型并非简单的配置更改——新向量存在于与旧向量不同的流形中，因此这本质上是一次完整的重新 Embedding 加上一次伪装成部署的切换。这是一份包含影子索引、双读一致性指标、分阶段流量切换以及团队经常遗漏预算的运营成本的迁移指南。
insiderrag
4月22日12 min
你的评测框架是单用户运行的，但你的智能体并非如此。
顺序运行的评测框架无法捕获当多个智能体共享基础设施时爆发的漏洞。本文介绍了四种失效模式以及修复它们的架构方案。
ai-agentsevaluation
4月22日12 min
Eval-Prod 漂移：测试中的智能体并不等同于生产环境中的智能体
为什么你的评估框架所测量的智能体会与用户实际交互的智能体发生隐形偏离 —— 以及如何通过指纹识别、金丝雀测试套件和所有权规范来弥合这一差距。
llm-evaluationagent-ops
4月22日13 min
你的黄金标签是从你的模型中学到的：通过生产环境泄漏导致的评估集污染
当标签来自生产反馈、查看草稿的人类标注员以及 RLHF 痕迹时，评估集会悄无声息地记住你的模型偏差。本文将探讨防止“镜子”获胜的溯源规范。
insiderevals
4月22日12 min
“以后再加评估”的陷阱：测量债务如何产生复利效应
跳过评估能让你在一个季度内发布得更快，但接下来的四个季度会变慢。本文探讨了测量债务如何产生复利效应、早期的预警信号，以及防止这种偏移的组织级强制机制。
insiderevals
4月22日10 min
你的微调语料库是 GDPR 数据产物，而不仅仅是机器学习资产
微调后的权重编码了客户的个人身份信息 (PII)，这些信息在数据库删除后依然存在。这是一份将训练语料库视为 GDPR 下数据产物的实用指南——涵盖谱系文档、适配器隔离，以及在首个微调模型发布前需要进行的合规对话。
insidergdpr
4月22日13 min
首次触达工具损耗：为什么你的智能体在执行任务前要先读 12 个文件
AI 智能体在进行首次编辑前，60–80% 的 Token 预算都损耗在了读取操作上。通过任务类别路由、探索预算上限和“先规划后执行”门控机制可以减少这种浪费。
ai-agentsllm-ops
4月22日12 min
免费层级滥用经济学：当你的 AI 慷慨被机器人拖垮
为 SaaS 设计的免费层级策略正在悄悄让 AI 产品破产。本文将揭示机器人如何利用你的慷慨牟利，以及如何通过速率限制、工作量证明和指纹识别模式来止血。
insiderai-economics
4月22日12 min
GPU 饥饿：某个租户的推理提示词如何导致你的共享推理端点停滞
一个推理提示词就能拖慢共享推理端点上所有其他请求的 p99 延迟。本文将探讨为什么连续批处理和 KV 缓存钉选会导致队头阻塞，分析鲜有人关注的诊断信号，并介绍四种缓解方案 —— 分块预填充、优先级调度、每租户 Token 上限以及请求类别隔离 —— 按其侵入性由低到高排序。
insiderllm-inference
4月22日11 min

较新的博文

较旧的博文

Page 57

“完成！”不是返回码：为什么智能体完成需要结构化信号

持久化智能体：为什么异步队列无法胜任长运行 AI 工作流

Embedding API 的 “隐藏税”：为什么向量支出在不知不觉中超过了生成成本

Embedding 模型轮换是数据库迁移，而非代码部署

你的评测框架是单用户运行的，但你的智能体并非如此。

Eval-Prod 漂移：测试中的智能体并不等同于生产环境中的智能体

你的黄金标签是从你的模型中学到的：通过生产环境泄漏导致的评估集污染

“以后再加评估”的陷阱：测量债务如何产生复利效应

你的微调语料库是 GDPR 数据产物，而不仅仅是机器学习资产

首次触达工具损耗：为什么你的智能体在执行任务前要先读 12 个文件

免费层级滥用经济学：当你的 AI 慷慨被机器人拖垮

GPU 饥饿：某个租户的推理提示词如何导致你的共享推理端点停滞

关于 Tian Pan