博客

Page 84

12 articles

你从未闭合的反馈回路：将用户行为转化为 AI 真值
显式的点赞评分可能是表象。编辑率、重试模式和会话中断能更真实地反映 AI 的质量 —— 而且你可以在没有标注预算的情况下，将它们转化为评估数据集。
insiderai-engineering
4月18日12 min
基准污染：为什么那个90% MMLU分数并不意味着你想象的那样
前沿模型在标准基准上表现亮眼，但污染——测试数据泄漏到预训练中——会显著虚高这些数字。本文揭示实际差距有多大，以及如何设计能给出诚实信号的评估。
insiderai-engineering
4月18日9 min
为何"修改提示词"是根因谬误：为 AI 系统打造无责事后复盘
「修提示词」的反射动作正在取代 AI 事件复盘中真正的根因分析。本文解释为何如此，以及如何将无责 SRE 文化应用于非确定性系统。
ai-engineeringsre
4月18日10 min
董事会级别的 AI 治理：只有高管才能做的五个决策
大多数 AI 治理文章面向 MLOps 团队。但有五项战略决策只能由董事会做出——而搞错的监管风险正在快速增长。
aiengineering-leadership
4月18日10 min
生产环境中的浏览器 Agent：DOM 脆弱性税
浏览器和计算机使用型 AI Agent 的失败方式，既不在基准测试中出现，也不在演示中暴露。本文揭示生产环境中真正导致失败的原因，以及保持系统稳定运行的架构模式。
insiderbrowser-agents
4月18日14 min
AI 推理的突发容量规划：当黑色星期五遇上你的 KV Cache
AI 推理负载对流量峰值的响应与传统 API 截然不同——冷 KV Cache、长达数分钟的冷启动、受内存限制的并发，使得响应式自动扩缩容方案完全失效。本文介绍实用的容量规划计算方法、预热策略，以及真正有效的优雅降级模式。
insiderai-engineering
4月18日12 min
能力激发差距：升级到更新模型为何会破坏你的产品
当你升级到更新的前沿模型时，你的产品所依赖的特定能力可能会悄然退化。以下是安全训练导致这一现象的原因、如何检测它，以及在无需微调的情况下恢复被抑制行为的技巧。
insiderllm
4月18日10 min
AI 工作负载的容量规划：当 Token 成为你的核心资源时，传统方法为何失效
传统供应模型在 LLM 工作负载下会失效。本文介绍了一套考虑 Token 突发性、KV 缓存压力的预测方法，并解释了为何 GPU 利用率是一个误导性信号。
ai-engineeringinfrastructure
4月18日12 min
认知负载倒置：为什么 AI 建议让你感觉有帮助却精疲力竭
实时 AI 建议通过将工作从生成转向验证，反而增加了认知负载。这里有相关研究和真正有效的设计模式。
insiderai-engineering
4月18日10 min
压缩陷阱：为什么长时运行的智能体会忘记已经尝试过的事情
上下文压缩会悄无声息地丢弃失败记录和约束信息——而这些信息正是防止智能体重复尝试已知无效操作的关键。本文介绍如何在架构设计上规避这一问题。
ai-agentscontext-engineering
4月18日10 min
复合 AI 系统：当你的流水线比任何单一模型都更智能
将检索器、重排序器、代码解释器、分类器和 LLM 组合成流水线，使其性能可靠地超越任何单一组件 —— 以及当你没有针对衔接处进行工程化处理时出现的涌现性故障模式。
insiderai-engineering
4月18日11 min
上下文窗口不是免费存储：显式驱逐策略的必要性
工程团队习惯性地把代码库、历史记录和文档塞进上下文，默默承受成本上升和质量下降，却从不进行度量。本文阐述为何 LLM 上下文需要像 CPU 寄存器一样进行显式管理，以及如何构建切实可行的驱逐策略。
insiderllm-engineering
4月18日11 min

较新的博文

较旧的博文

Page 84

你从未闭合的反馈回路：将用户行为转化为 AI 真值

基准污染：为什么那个90% MMLU分数并不意味着你想象的那样

为何"修改提示词"是根因谬误：为 AI 系统打造无责事后复盘

董事会级别的 AI 治理：只有高管才能做的五个决策

生产环境中的浏览器 Agent：DOM 脆弱性税

AI 推理的突发容量规划：当黑色星期五遇上你的 KV Cache

能力激发差距：升级到更新模型为何会破坏你的产品

AI 工作负载的容量规划：当 Token 成为你的核心资源时，传统方法为何失效

认知负载倒置：为什么 AI 建议让你感觉有帮助却精疲力竭

压缩陷阱：为什么长时运行的智能体会忘记已经尝试过的事情

复合 AI 系统：当你的流水线比任何单一模型都更智能

上下文窗口不是免费存储：显式驱逐策略的必要性

关于 Tian Pan