博客

Page 90

12 articles

模型账单仅占你推理成本的 30%
Token 支出仅仅是六项预算中的一项。通过对检索、可观测性、重试和人工审核的真实拆解，我们将揭示为什么通过更换模型来实现的成本节省往往并不真实。
llm-costfinops
4月22日10 min
“每周模型”路线图：当厂商承诺变成确定性依赖
将厂商未发布的模型能力视为确定性的路线图依赖，会将 12 个月的计划变成 30 个月的重建。这是一份关于延迟、准入及重新调整范围风险的实战指南 —— 以及基于现成可用模型进行规划的原则。
insiderai-strategy
4月22日10 min
多模型可靠性并非 2 倍：引入第二个 LLM 服务商的非线性成本
团队引入第二个 LLM 服务商通常期望以 2 倍的成本获得近乎完美的可用性。但在生产环境中，运维成本往往是 4-5 倍，相关性故障削弱了可用性增益，而单一服务商内设计良好的降级模式通常更具优势。
insiderllm
4月22日16 min
无结果并不代表不存在：为什么智能体将检索失败视为证明
那些回答“无结果”的智能体很少是在对现实世界做出陈述。它们只是将一个空数组描述为一种证明——而这正是隐性生产事故产生的原因。
ai-agentsrag
4月22日11 min
你的 OAuth 令牌在任务执行途中过期：长时运行 Agent 的隐形故障模式
OAuth 最初是为短请求设计的，而 Agent 循环的运行时间往往超过了令牌的有效期。本文将深入探讨长时运行 Agent 在其生命周期中面临的故障模式、刷新模式，以及能够经受住 Agent 时间尺度考验的凭据生命周期架构。
oauthai-agents
4月22日12 min
孤儿适配器难题：当你的微调模型寿命超过其基础模型时
绑定在已弃用基础模型上的微调适配器会变成生产环境中的“僵尸”——既承担核心负载又无法复现。一个持久的适配器生命周期需要与基础模型同步的重训频率、行为指纹测试，以及能够在团队更迭中存续的机构记忆。
insiderfine-tuning
4月22日14 min
输出承诺问题：为什么流式自我纠正比原始错误更损害用户信任
即便最终答案正确，流式输出中途的修改也会被视为无能。解决方案是采用“先规划再承诺”协议、清晰的细化层面分类，以及有意识地选择何时隐藏思考过程。
insiderai-ux
4月22日12 min
模式匹配失败：当你的 LLM 流利地解决了错误的问题时
流利且扣题的 LLM 回答如果解决了错误的问题，是生产环境中最难处理的 Bug 类型。本文提供了一套实用的指南，用于检测表面特征过拟合，并设计能够揭示这些问题的提示词。
insiderllm
4月22日12 min
“规划并执行”只是营销而非契约：将计划依从度作为一等 SLI
“规划并执行”智能体生成的计划看起来像契约，但在实际表现中更像是预测。你应该将计划依从度视为一项 SLI，具备测量、强制执行和有限的重新规划预算，而不是一个每季度评分一次、可有可无的质量指标。
insiderai-agents
4月22日10 min
你的规划器知道用户无法调用的工具
在执行时才限制工具列表已经太晚了。如果规划器看到了完整的目录，它的拒绝信息、澄清提问和推理轨迹都会将原本不该让未授权用户知晓的能力存在性泄露出去。
ai-agentssecurity
4月22日10 min
向量检索中的流行度偏见：为什么相同的五个文本块总是主导每个查询
为什么少数文本块会主导每个 RAG 查询 —— 高维中心点（Hubness）和 ANN 图结构如何默默地瓦解了检索多样性，以及保持长尾内容活力的诊断方法与缓解策略。
ragvector-search
4月22日13 min
提示词所有权问题：当康威定律盯上你的 Prompt 时
提示词往往同时横跨四个团队：编写者、评估者、部署者和技术支持。当没有单一角色负责整个闭环时，康威定律必然会导致静默的质量流失。本文探讨了 RACI 缺口、共享库陷阱，以及如何通过治理角色来确保模型行为的一致性。
prompt-engineeringai-governance
4月22日13 min

较新的博文

较旧的博文

Page 90

模型账单仅占你推理成本的 30%

“每周模型”路线图：当厂商承诺变成确定性依赖

多模型可靠性并非 2 倍：引入第二个 LLM 服务商的非线性成本

无结果并不代表不存在：为什么智能体将检索失败视为证明

你的 OAuth 令牌在任务执行途中过期：长时运行 Agent 的隐形故障模式

孤儿适配器难题：当你的微调模型寿命超过其基础模型时

输出承诺问题：为什么流式自我纠正比原始错误更损害用户信任

模式匹配失败：当你的 LLM 流利地解决了错误的问题时

“规划并执行”只是营销而非契约：将计划依从度作为一等 SLI

你的规划器知道用户无法调用的工具

向量检索中的流行度偏见：为什么相同的五个文本块总是主导每个查询

提示词所有权问题：当康威定律盯上你的 Prompt 时

关于 Tian Pan