博客

Page 36

12 articles

对话历史是信任边界，而非文本块
对话历史是多源反馈流，而非仅可追加的状态。为每一轮对话的来源打上标签，使用 HMAC 锚定用户回合，并将工具输出封装在信任区内 —— 否则你的 Agent 攻击面将随对话轮数线性增长。
insiderai-security
5月12日12 min
Demo 到 Dogfood 的鸿沟：为什么你的 AI 功能死在了发布幻灯片与周一早晨之间
大多数企业级 AI 试点只留下了一个精彩的 demo 和一个沉寂的 Slack 频道。Dogfood 阶段是你所能运行的最廉价的生产级评估 —— 本文将介绍真实的准入标准是怎样的，以及为什么 demo 并不代表产品已准备就绪。
insiderai-engineering
5月12日12 min
嵌入模型迁移黑洞：向量模型升级如何悄然重写你的业务规则
嵌入模型升级表面上被宣传为基础设施替换，实则是一场重新校准事件。本文将深入探讨你需要重建的阈值、聚类和金标数据并行系统，以及一套能够经受生产环境考验的迁移方案。
embeddingsrag
5月12日12 min
Eval 回填税：为什么每一次模型能力发布成本都超出了你的预算
新的模型能力会引入历史评估套件从未设计捕捉的失败模式 —— 而回填这些评估的工作是每一次能力发布中被低估的关键路径。
insiderevals
5月12日11 min
评估总线因子：当定义“正确标准”的人离职时
在知道测试内容的人离职后很久，评估套件可能依然显示为绿色。这种损害是无声的，恢复成本极高，而且解决方案是组织层面的，而非技术层面的。
evalsai-engineering
5月12日12 min
评测分诊队列：为什么 FIFO 会错过那些至关重要的失败
评测失败的 FIFO 队列浪费了流程中最昂贵的资源 —— 评审员的时间。根据流量、严重程度和新鲜度对失败进行评分，按集群进行批处理，并保留对抗性配额。
evalsllmops
5月12日12 min
MCP 能力披露税：当每个连接的服务都在消耗你的上下文窗口
MCP 工具定义在每一轮规划时都会重新加载，每次调用悄然消耗 15-66K 个 token。随着连接的服务增多，这不仅会增加成本，还会降低工具选择的准确度。本文将探讨如何评估这种“披露税”，并通过渐进式披露、单服务成本归因和稳定 schema 来控制开销。
insidermcp
5月12日13 min
当你的禁止列表变成秘籍：提示词中负面示例的隐性成本
成熟的生产环境提示词往往会积累一长串“不要做”的列表，但这在无形中适得其反——既暴露了攻击面，又增加了原本想要禁止的内容的产出率。
prompt-engineeringllm-security
5月12日11 min
非工作时间成本曲线：为什么你的 AI 功能在周六和周二的开销不同
每周滚动平均成本掩盖了每个 AI 功能都存在的群组混合问题 —— 而那些在非工作时间产生的 3–5 倍单活跃用户成本，是一种结构性特征，而非边缘案例。
insiderai-engineering
5月12日11 min
每个客户的成本集中度：为什么 AI 成本仪表盘隐藏了幂律分布
聚合的 AI 成本仪表盘隐藏了幂律分布，其中前 1% 的客户贡献了 30–50% 的 Token 支出。在某个失控的智能体循环演变成利润危机之前，请构建基于每个客户的归因、基于斜率的异常检测以及基于预留的预算强制执行机制。
insiderai-cost
5月12日13 min
每个租户的提示词编译：当你的系统提示词变成构建产物时
多租户 AI 团队在面对每个租户的提示词差异时，会意外地变成编译器工程师 —— 而运营账单会在第 6 个月如约而至。本文探讨了为什么大规模的提示词应该是构建目标，而不是配置文件。
insiderprompt-engineering
5月12日12 min
无需 PR 的 Prompt 修改：你的 AI 团队正在失效的交付速率指标
AI 产品中的行为变更不再通过 PR 进行。领导层信任的仪表盘忽略了产品变更的主要来源，这种误判正在重塑 AI 团队的评估方式。
ai-engineeringprompt-management
5月12日11 min

较新的博文

较旧的博文

Page 36

对话历史是信任边界，而非文本块

Demo 到 Dogfood 的鸿沟：为什么你的 AI 功能死在了发布幻灯片与周一早晨之间

嵌入模型迁移黑洞：向量模型升级如何悄然重写你的业务规则

Eval 回填税：为什么每一次模型能力发布成本都超出了你的预算

评估总线因子：当定义“正确标准”的人离职时

评测分诊队列：为什么 FIFO 会错过那些至关重要的失败

MCP 能力披露税：当每个连接的服务都在消耗你的上下文窗口

当你的禁止列表变成秘籍：提示词中负面示例的隐性成本

非工作时间成本曲线：为什么你的 AI 功能在周六和周二的开销不同

每个客户的成本集中度：为什么 AI 成本仪表盘隐藏了幂律分布

每个租户的提示词编译：当你的系统提示词变成构建产物时

无需 PR 的 Prompt 修改：你的 AI 团队正在失效的交付速率指标

关于 Tian Pan