博客

Page 37

12 articles

提示词组合：管理一组提示词，而非单一的最佳提示词
生产环境中的提示词管理通常只选取单一的最优解。应当将其视为一个投资组合：通过加权变体、感知分段的分配以及每周再平衡来进行管理。
insiderprompt-engineering
5月12日12 min
Prompt 回滚不像代码：为什么 git revert 是错误的原子操作
git revert 恢复的是确定的过去状态。而 Prompt 回滚必须处理缓存、对话历史、评估基准以及错误的 Prompt 已经形成的 A/B 测试分群——大多数团队都是在遭受挫折后才意识到这一点。
insiderllmops
5月12日10 min
量化衰减：你的评估集从未预见到的能力税
将 LLM 从 fp16 量化到 int4 实际上是发布了一个披着相同权重外壳的不同模型。针对原模型校准的评估套件会无声地给出错误的评分——在客户发现之前，你需要为这些能力衰减做好预算。
insiderllm-quantization
5月12日13 min
推理模型套利：在处理难题时，慢速昂贵模型反而更省钱
按 Token 计价仅反映了中位请求的成本，而非你产品实际服务分布的全额成本。一旦重试、人工介入和信任损失计入损益表，将复杂提示词路由至推理模型便会胜过默认使用通用模型。
insiderllm-routing
5月12日11 min
重跑反模式：为什么再次运行并不能发现 Bug
重跑失败的 AI 提示词（prompt）感觉像是在进行方差探测，但实际效果却如同幸存者偏差 —— 在消耗预算外 token 的同时掩盖了确定性的 Bug。取而代之的应该是追踪优先调试和 N-of-K 准则。
insiderai-engineering
5月12日11 min
自我批判税：让模型检查自己的工作如何导致成本翻倍却收益甚微
Self-Refine、验证链（Chain-of-Verification）和反思提示词在基准测试中承诺了巨大的质量提升 —— 但在生产环境中，它们会使成本增加三倍，导致延迟激增，而实际收益却远低于宣传水平。本文将教你如何在上线前评估这项 “自我批判税”。
insiderllm
5月12日12 min
滑动窗口税：为什么 30 轮对话的成本远超单次对话的 30 倍
多轮 AI 功能在仪表板上按调用次数计费，但在实际支出中却遵循对话增长曲线。其长尾效应呈超线性增长，而这正是账单激增的根源。
insiderai-engineering
5月12日11 min
快照评估衰减：当绿色的 CI 不再意味着你的产品仍然可用
一个运行了六个月的绿色评估套件可能正在用昨天的现实测试昨天的产品 —— 本文将探讨快照评估衰减是如何在众目睽睽之下隐藏的，以及如何保持评估集的生命力。
insiderevals
5月12日12 min
流式响应追踪模式鸿沟：为什么你的 APM 在 LLM 延迟上撒了谎
流式 LLM 响应打破了请求/响应的 Span 模型。duration 字段具有误导性；故障发生在边界之间——如 TTFT 回归、中途停顿、内容死循环——而解决方案是采用基于检查点的 Token 时间事件，并建立真正的尾部事件分类体系。
llm-observabilitystreaming
5月12日12 min
少样本示例造成的租户泄露：当你的提示词库变成跨客户数据存储库
从生产追踪中挖掘少样本示例，会悄无声息地将你的系统提示词变成一个未经审计的多租户数据存储库。本文将介绍这种泄露是如何发生的，为什么它属于违反合同，以及在客户发现之前捕捉此类问题的规范流程。
insiderai-engineering
5月12日13 min
Agent 烙印：当市场部负责命名，而工程部支付运维账单时
市场部将工作流称为 Agent，而工程部则继承了无人规划的可观测性、工具预算和升级处理工作——这是一个包装成命名选择的领导层决策。
ai-agentsproduct-management
5月12日11 min
Token 账单漂移：当你的追踪日志与供应商发票不一致时
每个在托管 LLM 上构建产品的团队最终都会发现，其追踪日志中的 Token 计数与月度发票并不匹配。这种差距很少是因为欺诈，而是一个由六个复合原因导致的结构性测量问题。
llmfinops
5月12日10 min

较新的博文

较旧的博文

Page 37

提示词组合：管理一组提示词，而非单一的最佳提示词

Prompt 回滚不像代码：为什么 git revert 是错误的原子操作

量化衰减：你的评估集从未预见到的能力税

推理模型套利：在处理难题时，慢速昂贵模型反而更省钱

重跑反模式：为什么再次运行并不能发现 Bug

自我批判税：让模型检查自己的工作如何导致成本翻倍却收益甚微

滑动窗口税：为什么 30 轮对话的成本远超单次对话的 30 倍

快照评估衰减：当绿色的 CI 不再意味着你的产品仍然可用

流式响应追踪模式鸿沟：为什么你的 APM 在 LLM 延迟上撒了谎

少样本示例造成的租户泄露：当你的提示词库变成跨客户数据存储库

Agent 烙印：当市场部负责命名，而工程部支付运维账单时

Token 账单漂移：当你的追踪日志与供应商发票不一致时

关于 Tian Pan