博客

Page 99

12 articles

推理模型经济学：思维链何时物有所值
深度思考模型的单次查询成本高出 10–50 倍。本文提供了一套任务分类法，告诉你何时这笔溢价是值得的，以及如何构建自动应用该策略的路由架构。
insiderllm
4月19日11 min
重排序器（Reranker）鸿沟：为什么大多数 RAG 流水线忽略了最重要的一层
大多数 RAG 流水线在向量相似性搜索之后就停止了，并疑惑为什么准确率停滞不前。重排序器（Reranker）就是那层缺失的关键——本文将探讨跳过它的代价，以及如何判断这种权衡是否值得。
ragretrieval
4月19日11 min
串行工具调用瀑布：Agent循环中隐藏的延迟税
Agent框架默认串行执行工具调用，即使这些调用在逻辑上相互独立，造成与N+1查询问题如出一辙的延迟级联。本文介绍如何识别并修复这一问题。
insiderai-agents
4月19日10 min
从影子模式到自动驾驶：AI功能自主性的准备框架
将AI从影子模式逐步推进到咨询、副驾驶和自动驾驶阶段，需要明确的质量门控和监控机制，而不仅仅是组织层面的勇气。这里是工程框架。
insiderai-engineering
4月19日11 min
无共享智能体：为水平可扩展性设计 AI 智能体
大多数 AI 智能体无法水平扩展，因为它们积累了将其绑定到单一机器的隐式状态。本文介绍解决这一问题的架构规范。
insideragent-architecture
4月19日13 min
六个月悬崖：为什么生产环境中的 AI 系统会在没有一行代码改动的情况下发生退化
你的 AI 功能在发布时表现优异，通过了所有测试。但六个月后，它在悄无声息中退化了 20–40% —— 而你的仪表盘却从未发出警告。本文将探讨这种情况发生的原因以及如何阻止它。
llmproduction
4月19日11 min
当你的模型偶尔出错时，99.9% 的可用性意味着什么
传统的 SLA 对于成功与否具有概率性的 AI 功能而言毫无意义。本文将介绍合同用语和内部 SLO 设计，让工程团队在不承担无限责任的情况下发布 AI 功能。
insiderai-engineering
4月19日11 min
生产环境中的结构化输出可靠性：为什么 JSON 模式并非契约
JSON 模式保证了合法的语法 —— 但不能保证正确的答案。本文深入剖析了摧毁生产级 AI 流水线的三种故障模式，并介绍了一个能真正捕获这些问题的三层验证架构。
insiderllm
4月19日9 min
生产AI中的子群体公平性测试：为何聚合准确率会撒谎
聚合准确率掩盖了特定人口统计和语言子群体的系统性失败。本文介绍子群体评估方法论、差异SLO以及在用户规模化之前捕获偏见的生产监控模式。
ai-engineeringevaluation
4月19日12 min
谄媚陷阱：为何 AI 验证工具在应该反驳时却选择赞同
经过 RLHF 训练的模型存在系统性的赞同偏差，这使它们在代码审查、事实核查和决策支持场景中极为危险。本文探讨如何衡量这一问题，并恢复模型应有的反驳能力。
insiderllm
4月19日13 min
合成评估冷启动：在没有标注数据的情况下如何构建基准数据集
如何在零标注数据的情况下，利用合成测试生成、人工验证锚点、跨模型分歧和行为不变量构建可用的LLM评估流水线——以及合成评估与被测模型共享的失效模式。
evaluationllm
4月19日11 min
系统提示词蔓延：当你的 AI 指令变成 Bug 的源头
随着系统提示词从几百个 token 增长到几千个，内部矛盾不断积累，模型行为变得难以预测。本文将介绍如何在产生损失之前，检测、控制并重构你的提示词。
insiderprompt-engineering
4月19日11 min

较新的博文

较旧的博文

Page 99

推理模型经济学：思维链何时物有所值

重排序器（Reranker）鸿沟：为什么大多数 RAG 流水线忽略了最重要的一层

串行工具调用瀑布：Agent循环中隐藏的延迟税

从影子模式到自动驾驶：AI功能自主性的准备框架

无共享智能体：为水平可扩展性设计 AI 智能体

六个月悬崖：为什么生产环境中的 AI 系统会在没有一行代码改动的情况下发生退化

当你的模型偶尔出错时，99.9% 的可用性意味着什么

生产环境中的结构化输出可靠性：为什么 JSON 模式并非契约

生产AI中的子群体公平性测试：为何聚合准确率会撒谎

谄媚陷阱：为何 AI 验证工具在应该反驳时却选择赞同

合成评估冷启动：在没有标注数据的情况下如何构建基准数据集

系统提示词蔓延：当你的 AI 指令变成 Bug 的源头

关于 Tian Pan