博客

Page 56

12 articles

微调数据饱和：为何增加训练样本反而让模型变差
增加训练数据是应对微调平台期的默认反应，却往往是错误的选择。如何提前检测数据饱和，以及真正能突破瓶颈的四种替代方案。
fine-tuningllm
5月4日10 min
AI 的先发劣势：AI 功能发布时机的决策框架
在 AI 领域快速行动可能比任何竞争对手都更快地摧毁你的产品。本文基于差距与层级的区分、护城河积累以及模型改进速度，提供一套 AI 功能发布时机的实用决策框架。
ai-strategyproduct
5月4日10 min
固化功能陷阱：当你的 AI 差异化优势沦为维护累赘
随着基础模型的改进，早期的 AI 差异化优势——如定制化微调、特定的检索流水线、手工编写的提示词链——往往会固化为技术债。本文将探讨如何识别这一转变，并建立一套淘汰这些功能的框架。
ai-engineeringtechnical-debt
5月4日10 min
函数调用 vs 代码生成的智能体动作：无人基准测试的权衡
大多数智能体基准论文衡量函数选择准确性。真正在生产中重要的权衡——安全暴露面、调试成本、解析失败和不可逆性——几乎从未被比较。这是工程师需要的决策框架。
insiderai-agents
5月4日11 min
泛化悬崖：微调如何导致隐性的能力退化
在狭窄任务上微调模型会悄然降低你的团队从未测试过的相邻任务的能力。本文将介绍如何检测、衡量和预防“泛化悬崖”。
fine-tuningllm
5月4日10 min
幽灵上下文：矛盾信念如何破坏长期运行智能体的记忆
持久化智能体记忆库会随时间积累相互矛盾的事实——而大多数系统会在不加警告的情况下同时检索它们。以下是该故障在生产环境中的表现及预防模式。
insiderai-agents
5月4日12 min
乐于助人但却出错：生产环境 AI Agent 中的操作性幻觉问题
事实性幻觉常上头条，但还有一种更隐蔽的失败模式：AI Agent 在方向上看起来合理，但在操作上却是错误的。错误的 API 参数、过时的方法签名、正确的概念配上了错误的实例 —— 而你的评估系统根本无法察觉。
insiderai-agents
5月4日11 min
AI功能的隐性税：你的推理账单没有告诉你的事
推理仅占生产环境中运行AI功能真实成本的20-30%。以下是核算完整成本栈的方法——从向量数据库和嵌入，到人工审核和提示工程人力成本。
aicost
5月4日11 min
人力瓶颈问题：当人机协作成为你系统中最慢的微服务
人机协作审核通常是正确的安全设计——直到你的审核人员成为系统中最慢的微服务。本文是一份关于队列设计、多信号路由和 SLO 的实用指南，旨在确保在大规模场景下人工监管依然具有实际意义。
ai-engineeringsystem-design
5月4日11 min
超参数幻觉：为什么 Temperature 和 Top-P 应该最后才调
当 LLM 输出感觉不对劲时，工程师会第一时间去调 temperature。这几乎从来都不是正确的做法。这里是真正能改变结果的、有据可查的调优顺序。
insiderllm
5月4日10 min
接手 AI 系统审计：如何掌控一个非你亲手构建的 LLM 功能
为接手没有文档的 LLM 功能的工程师提供的实用指南——如何重构意图、审计护栏并安全地进行重构。
insiderllm
5月4日12 min
AI 流水线中的惰性评估：不到万不得已，不要调用 LLM
在典型的 AI 流水线中，实际上只有 4.9% 的 Token 需要大模型处理。通过语义缓存、复杂度路由、早期退出和延迟生成等分层惰性评估策略，可以在不牺牲质量的情况下将 LLM 成本降低 30–70%。
llmai-infrastructure
5月4日13 min

较新的博文

较旧的博文

Page 56

微调数据饱和：为何增加训练样本反而让模型变差

AI 的先发劣势：AI 功能发布时机的决策框架

固化功能陷阱：当你的 AI 差异化优势沦为维护累赘

函数调用 vs 代码生成的智能体动作：无人基准测试的权衡

泛化悬崖：微调如何导致隐性的能力退化

幽灵上下文：矛盾信念如何破坏长期运行智能体的记忆

乐于助人但却出错：生产环境 AI Agent 中的操作性幻觉问题

AI功能的隐性税：你的推理账单没有告诉你的事

人力瓶颈问题：当人机协作成为你系统中最慢的微服务

超参数幻觉：为什么 Temperature 和 Top-P 应该最后才调

接手 AI 系统审计：如何掌控一个非你亲手构建的 LLM 功能

AI 流水线中的惰性评估：不到万不得已，不要调用 LLM

关于 Tian Pan