博客

Page 38

12 articles

将 Eval 作为 Pull Request 评论而非任务：在代码审查中嵌入 LLM 质量门禁
为什么只有当 LLM 评估（evals）存在于 diff 旁边的 PR 评论中时，才能有效捕捉回归。借鉴代码覆盖率如何从夜间任务迁移到内联审查界面的经验 —— 以及将“评估即任务”转变为“评估即合并门禁”的四个工程关键点。
insiderllm
4月30日12 min
评估集腐化：为什么评估分数在上升，而用户满意度在下降
评估分数在攀升，但用户投诉也在同步增长。一个基于发布周流量构建的评估集，在六个月后可能已经悄然失去了衡量产品的能力 —— 本文将介绍如何通过影子集、重采样和切片规则来保持仪表板的真实性。
insiderllm-evals
4月30日11 min
分层内存压缩：你的智能体内存缺失的四个层级
大多数 LLM 智能体内存将四个层级压缩为两个 —— 缓冲区和向量存储。工作记忆、会话记忆、情节记忆和语义记忆各自都需要独立的层级。
agent-memoryllm
4月30日12 min
多步 Agent 的延迟预算：为什么 P50 会说谎，而 P99 才是用户的真实感受
多步 Agent 在中位数延迟上看起来很快，但在尾部延迟上却让人感觉很慢。本文将探讨为什么系统组合会惩罚 P50 仪表板，以及如何设计符合用户实际体验的延迟预算。
insideragents
4月30日12 min
你的 LLM 账单只占 Agent COGS 的一半 —— 另一半是无人监控的部分
推理仅占 Agent 真实成本的 40-60%。另一半则隐藏在向量数据库、检索嵌入、遥测、重试、评估和人工审核中 —— 而这些成本往往没有明确的归口团队。
insiderai-agents
4月30日11 min
无人测试的隐私边界：为什么“无状态”工具是 AI 时代的 IDOR
“无状态” AI 工具调用是如何通过共享缓存、向量库和记忆模块在租户之间悄悄泄露数据的 —— 以及如何在客户发现之前捕获这些问题的审计协议。
insiderai-security
4月30日12 min
为什么你的提示词库应该是 Monorepo，而不是 Cookbook
Cookbook 模式的提示词文件夹在规模化时会失效。应用 Monorepo 规范——语义化版本控制、依赖图、原子重构和评估门禁——以防止提示词漂移、幽灵依赖和迁移瘫痪影响生产环境。
insiderprompt-engineering
4月30日13 min
工具调用顺序是偏序，而非集合
大多数生产环境中的 Agent 将其工具集视为一个无序的能力包。实际上，它是一个偏序关系，而 Bug 就隐藏在那些无人声明的依赖边界中。
insideragents
4月30日12 min
作为 Cron 任务的智能体：当定时触发优于对话循环时
大多数生产环境中的智能体其实是伪装成聊天界面的后台任务。本文将探讨为什么定时触发、状态检查点和有界信封在成本、可靠性以及可操作性方面优于对话循环。
ai-agentsarchitecture
4月29日11 min
Semver 的谎言：为什么 LLM 的次要更新比重大重构更容易搞垮生产环境
模型提供商的版本更新不包含行为兼容性保证，因此每次版本变更都应像数据库迁移一样进行分阶段发布：锁定评估、影子流量、金丝雀发布以及真实的回滚路径。
insiderllm-ops
4月28日12 min
弃权作为一种路由决策：为什么“我不知道”应该属于路由层，而不是提示词
将“我不知道”放在系统提示词中会让弃权行为变得不可测试、无归属且不可扩展。将其移动到路由层，你将获得 SLO、评估机制以及真实的升级路径。
llmagents
4月27日12 min
智能体凭据爆炸半径：你的 IAM 模型从未列举的主体类别
智能体继承了平台所能发放的最广泛 OAuth 范围，然后因一段提示词产生漂移——让安全团队花费 10 年才消灭的高权限服务账号死灰复燃。这是一份关于逐工具范围划分、即时凭据、动作级审计以及负责连接这些环节的 IAM 所有者的实战指南。
ai-agentssecurity
4月27日12 min

较新的博文

较旧的博文

Page 38

将 Eval 作为 Pull Request 评论而非任务：在代码审查中嵌入 LLM 质量门禁

评估集腐化：为什么评估分数在上升，而用户满意度在下降

分层内存压缩：你的智能体内存缺失的四个层级

多步 Agent 的延迟预算：为什么 P50 会说谎，而 P99 才是用户的真实感受

你的 LLM 账单只占 Agent COGS 的一半 —— 另一半是无人监控的部分

无人测试的隐私边界：为什么“无状态”工具是 AI 时代的 IDOR

为什么你的提示词库应该是 Monorepo，而不是 Cookbook

工具调用顺序是偏序，而非集合

作为 Cron 任务的智能体：当定时触发优于对话循环时

Semver 的谎言：为什么 LLM 的次要更新比重大重构更容易搞垮生产环境

弃权作为一种路由决策：为什么“我不知道”应该属于路由层，而不是提示词

智能体凭据爆炸半径：你的 IAM 模型从未列举的主体类别

关于 Tian Pan