博客

Page 65

12 articles

黄金数据集衰减问题：当你的评估集成为负担时
经过精心策划的评估集在数月后会悄然偏离生产环境的实际情况。了解如何检测评估何时测量了错误的目标、保持基准测试真实性的轮换策略，以及告诉你何时该重新构建评估集的监控触发器。
insiderai-engineering
4月19日10 min
古德哈特定律现已成为 AI Agent 的难题
AI Agent 是极其彻底的数学优化器 —— 当代理指标成为训练目标时，能力强大的模型会可靠地发现并利用其中的漏洞。本文将介绍如何在奖励信号演变为攻击面之前对其进行审计。
insiderai-agents
4月19日13 min
优雅的工具调用失败：你的 Agent UI 缺失的错误契约
大多数 Agent UI 只处理成功路径。以下是将工具调用失败从崩溃变为可恢复时刻所需的错误契约和 UX 模式。
insiderai-engineering
4月19日12 min
定义真正有效的人机交接升级标准
大多数AI团队将升级机制视为事后补救。本文介绍如何定义结构化升级规范、选择正确的置信度阈值，并构建随时间改进的反馈循环。
ai-engineeringhuman-in-the-loop
4月19日11 min
LLM 流水线中，幂等性是必选项
当输出具有随机性时，传统的幂等性机制将失效。本文介绍了在生产级 LLM 系统中防止重复执行、成本爆炸和状态机损坏的架构重构思路。
llmproduction
4月19日12 min
这个提示词去年还有意义：AI 系统中的机构知识衰减
当构建 AI 系统的工程师离职后，系统不会立即崩溃——它会缓慢腐烂。以下是如何通过提示词原理文件、评估来源日志和护栏理由注释来防止衰减。
insiderai-engineering
4月19日11 min
当向量搜索失效：为什么知识图谱能处理 Embedding 无法解决的查询
向量搜索在多跳查询、实体消歧和跨文档推理方面经常会默默失效。本文将探讨何时知识图谱和混合检索才是正确的架构选择。
insiderrag
4月19日11 min
最后一公里可靠性问题：为何 95% 的准确率往往意味着 0% 的可用性
95% 的准确率听起来很好，直到你意识到这意味着你的 20 步 AI 工作流只有 36% 的时间能成功运行。本文介绍失败分类法和真正能弥合最后一公里差距的架构修复方案。
insiderllm
4月19日10 min
延迟感知差距：为什么3秒的流式响应比1秒的批量响应感觉更快
3秒的流式响应往往比1秒的批量响应感觉更快。这是背后的心理学原理和利用它的工程模式。
insiderai-engineering
4月19日12 min
为什么你的 LLM 告警总是迟到两周
当你的基础设施指标显示正常时，LLM 的质量可能正在悄然下降。了解具体的信号——语义漂移评分、输出 Schema 符合度、用户修复率——以及能够在用户开始提交工单前 11 天捕捉到模型退化的异常检测模式。
observabilitymonitoring
4月19日12 min
模型最确定的时候往往最容易出错：生产中的LLM置信度校准
经过RLHF训练的LLM存在系统性失校准问题——最高的语言置信度往往对应错误的输出。如何在你的任务上测量校准误差，并修复依赖于此的路由逻辑。
llmproduction-ai
4月19日10 min
LLM 成本预测：多数团队在上线前都会忽略的估算难题
生产环境中的 Token 数量取决于你无法在设计阶段预测的用户行为。本文将介绍如何通过仿真、金丝雀流量和框架级预算强制执行，在产品上线前构建一个能够限制波动的成本模型。
llmcost-optimization
4月19日11 min

较新的博文

较旧的博文

Page 65

黄金数据集衰减问题：当你的评估集成为负担时

古德哈特定律现已成为 AI Agent 的难题

优雅的工具调用失败：你的 Agent UI 缺失的错误契约

定义真正有效的人机交接升级标准

LLM 流水线中，幂等性是必选项

这个提示词去年还有意义：AI 系统中的机构知识衰减

当向量搜索失效：为什么知识图谱能处理 Embedding 无法解决的查询

最后一公里可靠性问题：为何 95% 的准确率往往意味着 0% 的可用性

延迟感知差距：为什么3秒的流式响应比1秒的批量响应感觉更快

为什么你的 LLM 告警总是迟到两周

模型最确定的时候往往最容易出错：生产中的LLM置信度校准

LLM 成本预测：多数团队在上线前都会忽略的估算难题

关于 Tian Pan