博客

Page 43

12 articles

拒绝延迟税：为什么分层护栏会侵蚀你的 p95 延迟预算
分层安全流水线在长尾效应下会悄然使 p95 延迟和成本增加三倍。应将护栏视为一种受预算限制的资源，通过分层分类器、并行检查和诚实的延迟契约来进行管理。
llm-safetyguardrails
4月27日11 min
Reranker 是你 RAG 评估中从未衡量的“静默”第二个模型
大多数 RAG 流水线串联运行两个模型 —— 检索器和重排序器 —— 但评估套件通常只对生成器的输出进行评分。当 reranker 发生漂移时，仪表盘显示答案质量下降，却找不到因果关系。本文将介绍如何构建能够捕捉这些静默回归的 reranker 评估。
ragevaluation
4月27日12 min
停用 AI 功能是一次信任事件，而非简单的功能弃用
停用 AI 助手带来的破坏与弃用 API 不同 —— 你的执行手册需要包含分群分析、维护成本台账，以及针对“人际关系”而非“合同条款”进行校准的沟通方式。
ai-engineeringproduct-management
4月27日14 min
重试并非免费：大模型重试策略的 FinOps 数学逻辑
传统的重试策略假设成本有界且重试相互独立。大语言模型工作负载打破了这两点——在处理最糟糕的输入时，账单会呈复合式增长。这是一份为 Token 经济学重构重试预算的实战指南。
llmfinops
4月27日12 min
检索膨胀：当“加个 RAG 就行”变成架构上的干扰
通过添加检索步骤来修复每个模型失败看似是进步，直到你的系统变成一堆检索器的堆砌，拼凑出的提示词依然无法解决原始问题。本文提供了一套针对 RAG 的诊断框架、消融实验准则和复杂度预算。
ragai-engineering
4月27日12 min
你的审核队列是自主权承诺消亡之地
人机协同 (Human-in-the-loop) AI 正在悄无声息地失效：审核队列不断膨胀，延迟缓慢攀升，安全叙事正逐一崩塌。这是一份针对 AI 功能的 SLO、容量陷阱和分层审核的实战指南。
ai-engineeringhuman-in-the-loop
4月27日10 min
下午 3 点和凌晨 3 点的同一个 Prompt 并不是同一个 Prompt：LLM 评估中的昼夜漂移
LLM 调用的行为取决于挂钟时间 —— 批次大小、缓存状态和路由层级会随着供应商负载而变化。凌晨 2 点运行的评估是在生产环境永远不会遇到的条件下进行校准的。这里有五个实践，可以缩小非高峰期评估与高峰期现实之间的差距。
insiderai-engineering
4月27日13 min
70% 可靠性恐怖谷：AI 功能丧失用户信任的深渊
一个成功率为 70% 的 AI 功能可能比一个失败率为 70% 的功能更糟糕 —— 集中且不可预测的失败比持续的不稳健更快地摧毁用户信任。本文探讨了为什么综合准确率会误导人、为什么用户无法自我校准，以及如何针对“恐怖谷”地带进行设计。
ai-producttrust-calibration
4月27日13 min
结构化输出重试循环：你被忽视的算力浪费
98.4% 的结构化输出成功率背后，可能隐藏着一个悄悄消耗了 12–18% 推理预算的 2% 重试循环。本文提供了一份实用指南，涵盖重试 Token 预算、分字段失败仪表盘以及确保账单透明的备用路径。
insiderllm
4月27日13 min
Token-Per-Watt：你的仪表盘无法计算的 AI 可持续性指标
幻灯片上显示的总 GWh 并不是 AI 可持续性指标。与产品遥测数据结合的任务瓦特 (Task-watts) 才是 —— 而你的首席财务官 (CFO) 即将要求的仪表盘目前还无法计算它。
insiderai-engineering
4月27日12 min
分词器漂移：你的本地计数在撒谎，账单才说真话
本地分词器与供应商计费计数在 CI 从未测试的长尾内容上存在 5%–15% 的差异。这一差距正在吞噬你用户实际使用场景下的安全边界。
llmtokenization
4月27日10 min
工具重入：你的函数调用层尚未察觉的 Bug 类别
函数调用层默认采用“即发即弃”模式，既没有调用栈也没有环路检测器——其代价体现在随着工具库的增长，单个请求的 Token 消耗量会不断攀升。
insideragents
4月27日13 min

较新的博文

较旧的博文

Page 43

拒绝延迟税：为什么分层护栏会侵蚀你的 p95 延迟预算

Reranker 是你 RAG 评估中从未衡量的“静默”第二个模型

停用 AI 功能是一次信任事件，而非简单的功能弃用

重试并非免费：大模型重试策略的 FinOps 数学逻辑

检索膨胀：当“加个 RAG 就行”变成架构上的干扰

你的审核队列是自主权承诺消亡之地

下午 3 点和凌晨 3 点的同一个 Prompt 并不是同一个 Prompt：LLM 评估中的昼夜漂移

70% 可靠性恐怖谷：AI 功能丧失用户信任的深渊

结构化输出重试循环：你被忽视的算力浪费

Token-Per-Watt：你的仪表盘无法计算的 AI 可持续性指标

分词器漂移：你的本地计数在撒谎，账单才说真话

工具重入：你的函数调用层尚未察觉的 Bug 类别

关于 Tian Pan