博客

Page 49

12 articles

负载降级是为人类设计的，而 Agent 会放大你正在抵御的风暴
Agent 会围绕 503 错误重新规划并以远超人类的速度重试，将上游的小幅波动演变成关联性停机。本文从实践者视角出发，探讨平台下一步需要的负载降级原语，以及 Agent 为了避免成为“风暴”而必须遵循的纪律。
insideragents
4月26日13 min
2026 年的长上下文 vs RAG：为什么它是基于功能的决策，而非架构信仰
在 2026 年，长上下文与 RAG 的选择不再是整个产品的架构抉择，而是由四个维度（新鲜度、归因、尾部风险、成本）驱动的基于功能的决策。本文深入剖析了这一原则，帮助你的 AI 功能在不断变化的数学模型中始终处于正确的一侧。
insiderllm
4月26日14 min
模型弃用跑步机：在收到停用通知邮件之前必须建立的规范
供应商的停用通知邮件通常只有 60 天的倒计时。要在邮件寄达之前（而非之后）建立起注册表、日程表、n+1 评估和合同条款，让每一次迁移都变成机械化的常规工作。
llm-opsmodel-migration
4月26日15 min
你的模型路由是基于评估集训练的，而不是你的真实流量
基于基准测试训练的路由器会带来隐蔽的质量退化：低成本路径在宏观数据上表现尚可，但在你的评估套件从未采样的少数关键用户群体中却会失败。本文探讨了为什么路由器是一个控制系统而非分类器，以及实现闭环处理究竟需要什么。
insiderllm-routing
4月26日12 min
多模态评估漂移：为什么在文本表现稳定的情况下，图像和音频路径会出现回退
大多数团队将多模态作为其文本产品的薄扩展来发布，并沿用了一套系统性地无法察觉图像或音频回退的评估准则。解决方法是采用单模态评分标准、特定模态的黄金数据集，以及一个拒绝在不同输入类型间聚合质量指标的发布门控。
insidermultimodal
4月26日13 min
单租户推理隔离：当共享缓存、微调模型和嵌入在客户间泄露时
AI 功能在四个新层级上悄然打破了多租户隔离的规则：Prompt 缓存、微调、嵌入索引和 KV 缓存重用。我们将探讨发生了什么变化，以及生产团队需要重新建立的规范。
multi-tenancyai-security
4月26日15 min
30 天 Prompt 见习计划：当“阅读代码”失效时，如何入职工程师
一段 200 行的系统 Prompt 没有函数签名，没有测试，且 diff 历史完全没有说明为什么每一行代码会出现在那里。这份为期 30 天的课程——涵盖失败案例集、消融实验、PR 重构和受控编辑——旨在教导新工程师通过询问其行为来“阅读”一个 Prompt。
insiderprompt-engineering
4月26日14 min
提示词资产贬值：你团队中缺失的 AI 维护时间表
生产环境中的提示词会随着底层模型、分词器（tokenizer）和产品规则的更迭而悄然失效。请将每一个提示词都视为会贬值的资产，为其指定负责人、重验证日期以及评估偏差（eval delta）—— 否则，你只能接受那些团队里没人想发布、却真实发生的质量回退。
prompt-engineeringllmops
4月26日10 min
Prompt Bisect：通过二分查找定位破坏 Eval 的修改
一夜之间 eval 分数下降了两个百分点，而包含 17 处修改的提示词 PR 应该是一个二分查找问题，而不是一场猜谜游戏。本文将介绍如何像内核维护者通过 bisect 调试内核一样来调试提示词 —— 以及这种方法对团队提交粒度要求的强制规范。
llmprompt-engineering
4月26日12 min
Prompt-Eligibility：数据分类中缺失的那一列
大多数数据分类方案从未将提示层（Prompt Layer）建模为厂商出口通道。增加一个 Prompt-Eligibility 层级——以及填充该层级的模板审计——可以填补你的 DLP 方案所默认忽略的合规漏洞。
insiderprivacy
4月26日13 min
你的系统提示词终会泄露：针对提示词提取进行设计
提示词提取是对 LLM 产品的一种隐蔽攻击。应将系统提示词视为公开内容，将秘密移出上下文，并为其构建评估体系。
insiderllm-security
4月26日12 min
跨区域 Prompt 版本偏差：你的 CDN 误运行了六小时的 A/B 测试
通过类似 CDN 的发布系统推送 prompt 时，如果一个区域领先于另一个区域，就会产生隐形的地理分割 A/B 测试。这里介绍了保持 prompt 版本全球一致性的发布规范、可观测性维度和回滚模型。
llmmlops
4月26日12 min

较新的博文

较旧的博文

Page 49

负载降级是为人类设计的，而 Agent 会放大你正在抵御的风暴

2026 年的长上下文 vs RAG：为什么它是基于功能的决策，而非架构信仰

模型弃用跑步机：在收到停用通知邮件之前必须建立的规范

你的模型路由是基于评估集训练的，而不是你的真实流量

多模态评估漂移：为什么在文本表现稳定的情况下，图像和音频路径会出现回退

单租户推理隔离：当共享缓存、微调模型和嵌入在客户间泄露时

30 天 Prompt 见习计划：当“阅读代码”失效时，如何入职工程师

提示词资产贬值：你团队中缺失的 AI 维护时间表

Prompt Bisect：通过二分查找定位破坏 Eval 的修改

Prompt-Eligibility：数据分类中缺失的那一列

你的系统提示词终会泄露：针对提示词提取进行设计

跨区域 Prompt 版本偏差：你的 CDN 误运行了六小时的 A/B 测试

关于 Tian Pan