博客

Page 63

12 articles

为什么 AI 功能开关不同于普通功能开关
部署 AI 模型时，传统的金丝雀分析会失效——错误率保持平稳，而质量却在悄无声息地下降。本文介绍了应该监测哪些指标，以及如何为概率性系统构建真正有效的回滚触发器。
insiderai-engineering
4月19日12 min
AI 功能生命周期衰减问题：如何在用户发现之前捕捉到性能下降
91% 的机器学习模型会随时间降级，但大多数团队只会在用户投诉后才发现。以下是如何在分布偏移演变为危机之前，对你的 AI 功能进行监控。
mlopsmonitoring
4月19日11 min
AI功能下线手册：如何在不损害信任的前提下淘汰表现不佳的AI
团队擅长上线AI功能，却不擅长下线它们。本文提供一套诊断框架，帮助判断何时应淘汰还是修复表现不佳的AI，克服沉没成本偏见，并优雅地完成废弃过渡。
aiengineering
4月19日11 min
AI 事故响应手册：为什么你的值班 Runbook 对 LLM 不管用
传统值班 Runbook 在 AI 系统中会失效，因为故障是非确定性的、质量下降没有错误码，根本原因排查需要一套完全不同的框架。本文介绍真正有效的做法。
insiderai
4月19日11 min
AI 事故复盘：当「模型导致的」成为根本原因
当故障具有随机性时，经典的五问分析法就会失效。本文介绍如何为 AI 事故撰写有价值的事后分析报告、在推理阶段应捕获哪些遥测数据，以及如何构建不止于「加强监控」的运行手册。
insiderai-engineering
4月19日11 min
对齐税：当安全功能让你的 AI 产品变得更糟
安全护栏和过于保守的拒绝会在完全无害的查询上降低用户满意度。这里介绍如何衡量误报率，并根据实际部署场景校准阈值。
safetyguardrails
4月19日10 min
摊销上下文：持久化智能体记忆 vs 长上下文窗口
长上下文模型诱使你将所有内容都塞进去 —— 但这会导致成本增加 15 倍，且生成的答案质量更差。本文介绍了一套决策框架，帮助你确定哪些内容应存入外部记忆、哪些内容需重新检索，以及哪些内容应保留在窗口内，并配合压缩模式，让记忆增强智能体在大规模应用中更便宜、更准确。
insiderai-engineering
4月19日10 min
真正衡量AI产品用户满意度的行为信号
点赞/点踩率只是噪声。本文介绍隐式行为信号的埋点方案——重试率、无编辑复制事件、下游操作完成情况——这些才是真正预测用户是否认可AI产品价值的指标。
ai-engineeringproduct-metrics
4月19日10 min
生产环境 AI 的偏差监测基础设施：超越上线前的审计
静态公平性测试只能发现已知数据集中的已知问题。本文将介绍如何构建实时监测基础设施，以捕捉那些你甚至不知道该去寻找的潜在问题。
aimachine-learning
4月19日12 min
AI缓存失效：为什么答案可以改变时每个缓存层都更难处理
传统的TTL和基于标签的缓存失效机制在AI系统中失效了。本文逐层拆解每个缓存层——语义缓存、RAG知识库、提示缓存和嵌入索引——各层特有的故障模式，以及在生产中保持一致性的设计模式。
insiderai-engineering
4月19日11 min
LLM 升级的金丝雀发布：为什么模型上线与代码部署的失效方式完全不同
替换 LLM 版本并非简单的代码部署。输出语义会发生偏移，下游解析器会因为细微的结构差异而崩溃，等你的监控告警响起时，成千上万的用户可能已经遭遇了失败。本文将介绍让模型升级变得可预测的工程规范。
insiderllm
4月19日12 min
AI智能体的CAP定理：当LLM成为瓶颈时，选择一致性还是可用性
当AI智能体的工具调用失败或LLM超时，你面临的权衡与分布式系统工程师从CAP定理中熟悉的如出一辙。大多数智能体框架默默选择了可用性——并在生产中为此付出代价。
ai-engineeringagents
4月19日11 min

较新的博文

较旧的博文

Page 63

为什么 AI 功能开关不同于普通功能开关

AI 功能生命周期衰减问题：如何在用户发现之前捕捉到性能下降

AI功能下线手册：如何在不损害信任的前提下淘汰表现不佳的AI

AI 事故响应手册：为什么你的值班 Runbook 对 LLM 不管用

AI 事故复盘：当「模型导致的」成为根本原因

对齐税：当安全功能让你的 AI 产品变得更糟

摊销上下文：持久化智能体记忆 vs 长上下文窗口

真正衡量AI产品用户满意度的行为信号

生产环境 AI 的偏差监测基础设施：超越上线前的审计

AI缓存失效：为什么答案可以改变时每个缓存层都更难处理

LLM 升级的金丝雀发布：为什么模型上线与代码部署的失效方式完全不同

AI智能体的CAP定理：当LLM成为瓶颈时，选择一致性还是可用性

关于 Tian Pan