博客

Page 141

12 articles

结构化输出与约束解码：消除生产LLM系统中的解析脆弱性
约束解码在token级别保证LLM输出符合schema，从生产流水线中移除重试逻辑和解析启发式方法——但研究显示存在17%的创造力成本，需要明确的决策框架。
insiderstructured-outputs
4月11日11 min
不会崩溃的合成数据管道：大规模生成训练数据
模型崩溃会悄然降低在自身输出上训练的 LLM 的性能。了解累积混合、多源生成、验证堆栈和多样性监控等管道架构，让合成训练数据保持高效而非自我中毒。
insidersynthetic-data
4月11日10 min
AI 包装器陷阱：当你的护城河是别人的一个 API 调用
为什么薄包装层 AI 创业公司在每个模型发布周期都面临生存风险——以及将幸存者与前车之鉴区分开来的三个防御性层次（专有数据飞轮、领域特定评估集、工作流集成）。
insiderai-product-strategy
4月11日11 min
自主性旋钮：安全交付 AI 功能的五个层级
一个将 AI 功能从建议阶段逐步提升到完全自主的五级框架，包含每次转换的具体指标、回调的前导指标，以及将决策风险映射到监督级别的有界自主性模式。
ai-autonomyhuman-in-the-loop
4月11日12 min
校准差距：你的 LLM 说有 90% 的把握，但实际上只有 60% 的准确率
LLM 的置信度分数惯常将准确率高估 30 到 80 个百分点。本文介绍如何用可靠性图和 ECE 度量校准差距、用温度缩放与自适应重校准来修复它，以及如何设计即使在置信度失真时仍能保持可靠的生产系统。
insiderllm-calibration
4月11日12 min
遗忘问题：无限膨胀的 Agent 记忆如何拖垮性能
无限制的 agent 记忆存储会随着过时信息、跨上下文污染和错误传播的积累而悄然降级性能。本文介绍切实可行的遗忘策略——基于时间的衰减、访问频率强化、选择性添加和主动整合——以及衡量记忆是否有益的评测方法。
insideragent-memory
4月11日10 min
指令遵循悬崖：为什么在系统提示中多加一条规则会破坏另外三条
LLM的合规性并非线性退化——它会触及一个悬崖，多加一条规则就会让其他规则失稳。研究显示，即便是前沿模型在高指令密度下准确率也只有68%。本文解析规则为何相互冲突，以及如何通过分解模式让系统提示保持可靠。
llmprompt-engineering
4月11日9 min
可观测性税：当监控 AI 的成本超过运行 AI 本身
AI 工作负载产生的遥测数据是传统服务的 10-50 倍，导致监控费用超过推理成本。本文提供分层采样、保留策略和工具整合的实用指南，可将可观测性支出降低 50-90%，同时不丢失信号。
observabilityllm-ops
4月11日10 min
规划税：为什么你的智能体把更多 Token 花在思考上而非执行上
LLM 智能体在执行第一个工具调用之前，会将 40-70% 的 token 预算消耗在规划上。本文拆解推理 token 的流向，分析为何更多思考并不总能带来更好的结果，并介绍 ReWOO、计划缓存、层次分解等可以收回预算的架构模式。
insiderai-agents
4月11日12 min
AI 中的第二系统效应：为什么你的智能体 v2 重写大概率会失败
Fred Brooks 在 1975 年就警告过第二系统效应——如今它已成为 AI 智能体重写失败的首要原因。68% 的多智能体部署用单智能体系统同样能取得等效甚至更好的结果，但团队仍不断追求并不需要的架构复杂性。
insiderai-agents
4月11日10 min
信任校准曲线：用户如何学习（误）信任 AI
这种“过度信任 -> 失败 -> 过度修正”的生命周期正在扼杀 AI 产品的采用。本文探讨了为什么单一的高显著性错误会不成比例地瓦解信任，以及如何通过设计模式建立持久且校准的用户信任。
ai-engineeringproduct
4月11日11 min
生产级 AI 流水线中的视觉输入：无人记录的预处理决策
图像分辨率、压缩伪影、OCR 预处理和长宽比处理是如何在生产环境中悄无声息地降低视觉模型准确度的 —— 以及区分模型故障与输入故障的归一化流水线。
visionmultimodal
4月11日12 min

较新的博文

较旧的博文

Page 141

结构化输出与约束解码：消除生产LLM系统中的解析脆弱性

不会崩溃的合成数据管道：大规模生成训练数据

AI 包装器陷阱：当你的护城河是别人的一个 API 调用

自主性旋钮：安全交付 AI 功能的五个层级

校准差距：你的 LLM 说有 90% 的把握，但实际上只有 60% 的准确率

遗忘问题：无限膨胀的 Agent 记忆如何拖垮性能

指令遵循悬崖：为什么在系统提示中多加一条规则会破坏另外三条

可观测性税：当监控 AI 的成本超过运行 AI 本身

规划税：为什么你的智能体把更多 Token 花在思考上而非执行上

AI 中的第二系统效应：为什么你的智能体 v2 重写大概率会失败

信任校准曲线：用户如何学习（误）信任 AI

生产级 AI 流水线中的视觉输入：无人记录的预处理决策

关于 Tian Pan