博客

Page 72

12 articles

AI 推理的突发容量规划：当黑色星期五遇上你的 KV Cache
AI 推理负载对流量峰值的响应与传统 API 截然不同——冷 KV Cache、长达数分钟的冷启动、受内存限制的并发，使得响应式自动扩缩容方案完全失效。本文介绍实用的容量规划计算方法、预热策略，以及真正有效的优雅降级模式。
insiderai-engineering
4月18日12 min
能力激发差距：升级到更新模型为何会破坏你的产品
当你升级到更新的前沿模型时，你的产品所依赖的特定能力可能会悄然退化。以下是安全训练导致这一现象的原因、如何检测它，以及在无需微调的情况下恢复被抑制行为的技巧。
insiderllm
4月18日10 min
AI 工作负载的容量规划：当 Token 成为你的核心资源时，传统方法为何失效
传统供应模型在 LLM 工作负载下会失效。本文介绍了一套考虑 Token 突发性、KV 缓存压力的预测方法，并解释了为何 GPU 利用率是一个误导性信号。
ai-engineeringinfrastructure
4月18日12 min
认知负载倒置：为什么 AI 建议让你感觉有帮助却精疲力竭
实时 AI 建议通过将工作从生成转向验证，反而增加了认知负载。这里有相关研究和真正有效的设计模式。
insiderai-engineering
4月18日10 min
压缩陷阱：为什么长时运行的智能体会忘记已经尝试过的事情
上下文压缩会悄无声息地丢弃失败记录和约束信息——而这些信息正是防止智能体重复尝试已知无效操作的关键。本文介绍如何在架构设计上规避这一问题。
ai-agentscontext-engineering
4月18日10 min
复合 AI 系统：当你的流水线比任何单一模型都更智能
将检索器、重排序器、代码解释器、分类器和 LLM 组合成流水线，使其性能可靠地超越任何单一组件 —— 以及当你没有针对衔接处进行工程化处理时出现的涌现性故障模式。
insiderai-engineering
4月18日11 min
上下文窗口不是免费存储：显式驱逐策略的必要性
工程团队习惯性地把代码库、历史记录和文档塞进上下文，默默承受成本上升和质量下降，却从不进行度量。本文阐述为何 LLM 上下文需要像 CPU 寄存器一样进行显式管理，以及如何构建切实可行的驱逐策略。
insiderllm-engineering
4月18日11 min
上下文窗口悬崖：长对话的应用层管理策略
当 LLM 上下文在会话中途耗尽时究竟会发生什么，为什么大多数框架处理得很糟糕，以及能让长对话保持连贯的摘要、选择性保留和外部化模式。
llmcontext-management
4月18日11 min
AI 模型的持续部署：你的回滚信号是错误的
HTTP 错误率无法检测 LLM 升级中的行为退化。本文将介绍如何以行为差异作为真正的回滚信号，进行蓝绿部署和金丝雀部署。
ai-engineeringmlops
4月18日11 min
对话设计师在 AI 产品质量中的隐形角色
系统提示词、错误提示和能力披露中的 UX 写作直接影响模型行为和用户信任——而大多数工程团队从未衡量这一点。
insiderai-engineering
4月18日11 min
RAG 语料库架构：决定检索质量的索引决策
大多数 RAG 失败发生在查询时被诊断出来，但根本原因在索引时就已埋下。本文深入讲解分块大小、重叠、层级结构和元数据决策如何悄无声息地决定检索质量。
insiderrag
4月18日13 min
实战交叉编码器重排序：余弦相似度遗漏了什么
向量ANN搜索找到的是语义相邻的块，而不一定是最有用的块。通过叠加交叉编码器重排序、MMR和BM25混合评分来弥合检索质量差距——附上告诉你何时值得投入的延迟计算。
ragretrieval
4月18日11 min

较新的博文

较旧的博文

Page 72

AI 推理的突发容量规划：当黑色星期五遇上你的 KV Cache

能力激发差距：升级到更新模型为何会破坏你的产品

AI 工作负载的容量规划：当 Token 成为你的核心资源时，传统方法为何失效

认知负载倒置：为什么 AI 建议让你感觉有帮助却精疲力竭

压缩陷阱：为什么长时运行的智能体会忘记已经尝试过的事情

复合 AI 系统：当你的流水线比任何单一模型都更智能

上下文窗口不是免费存储：显式驱逐策略的必要性

上下文窗口悬崖：长对话的应用层管理策略

AI 模型的持续部署：你的回滚信号是错误的

对话设计师在 AI 产品质量中的隐形角色

RAG 语料库架构：决定检索质量的索引决策

实战交叉编码器重排序：余弦相似度遗漏了什么

关于 Tian Pan