博客

Page 81

12 articles

当你的模型偶尔出错时，99.9% 的可用性意味着什么
传统的 SLA 对于成功与否具有概率性的 AI 功能而言毫无意义。本文将介绍合同用语和内部 SLO 设计，让工程团队在不承担无限责任的情况下发布 AI 功能。
insiderai-engineering
4月19日11 min
生产环境中的结构化输出可靠性：为什么 JSON 模式并非契约
JSON 模式保证了合法的语法 —— 但不能保证正确的答案。本文深入剖析了摧毁生产级 AI 流水线的三种故障模式，并介绍了一个能真正捕获这些问题的三层验证架构。
insiderllm
4月19日9 min
生产AI中的子群体公平性测试：为何聚合准确率会撒谎
聚合准确率掩盖了特定人口统计和语言子群体的系统性失败。本文介绍子群体评估方法论、差异SLO以及在用户规模化之前捕获偏见的生产监控模式。
ai-engineeringevaluation
4月19日12 min
谄媚陷阱：为何 AI 验证工具在应该反驳时却选择赞同
经过 RLHF 训练的模型存在系统性的赞同偏差，这使它们在代码审查、事实核查和决策支持场景中极为危险。本文探讨如何衡量这一问题，并恢复模型应有的反驳能力。
insiderllm
4月19日13 min
合成评估冷启动：在没有标注数据的情况下如何构建基准数据集
如何在零标注数据的情况下，利用合成测试生成、人工验证锚点、跨模型分歧和行为不变量构建可用的LLM评估流水线——以及合成评估与被测模型共享的失效模式。
evaluationllm
4月19日11 min
系统提示词蔓延：当你的 AI 指令变成 Bug 的源头
随着系统提示词从几百个 token 增长到几千个，内部矛盾不断积累，模型行为变得难以预测。本文将介绍如何在产生损失之前，检测、控制并重构你的提示词。
insiderprompt-engineering
4月19日11 min
多智能体系统中的温度治理：为什么方差是一类预算
以相同的温度运行你的所有智能体组件，就像给它们设置相同的超时时间一样错误。本指南将介绍如何设计基于角色的采样策略，使输出方差与每个流水线阶段的实际需求相匹配。
insiderai-engineering
4月19日13 min
时间上下文注入：让 LLM 真正知道今天是几号
LLM 没有时钟。你发布的每一个日期敏感功能，默认都是坏的——除非你显式地注入时间上下文。本文介绍如何在不破坏提示缓存的前提下做到这一点。
llmproduction-ai
4月19日12 min
生产环境中的Text-to-SQL：自然语言查询为何在Schema边界失败
为什么Text-to-SQL的供应商演示效果完美，而生产部署却一团糟——以及真正能缩小这一差距的工程技术。
ai-engineeringllm
4月19日10 min
多轮工具调用的Token经济学：为什么你的Agent成本比你想象的高5倍
基于单次调用数学建立的Agent成本估算从设计上就是错误的。本文解释多轮工具调用如何以非线性方式复合Token成本——以及保持长任务Agent经济可行的具体设计杠杆。
insiderai-engineering
4月19日11 min
破坏生产级 LLM 系统的分词器盲点
为什么 “1000 个 Token ≈ 750 个单词” 的假设在最关键的情况下会失效：多语言文本、结构化输出和代码密集型工作负载 —— 以及随之而来的生产环境 Bug。
insiderllm
4月19日11 min
工具输出压缩：决定上下文质量的注入策略
AI智能体管道中的工具结果Token密度相差100倍。你选择的注入策略——原始注入、压缩还是提取——从根本上决定了智能体在规模化后的准确率上限、成本上限和延迟下限。
insiderllm-agents
4月19日11 min

较新的博文

较旧的博文

Page 81

当你的模型偶尔出错时，99.9% 的可用性意味着什么

生产环境中的结构化输出可靠性：为什么 JSON 模式并非契约

生产AI中的子群体公平性测试：为何聚合准确率会撒谎

谄媚陷阱：为何 AI 验证工具在应该反驳时却选择赞同

合成评估冷启动：在没有标注数据的情况下如何构建基准数据集

系统提示词蔓延：当你的 AI 指令变成 Bug 的源头

多智能体系统中的温度治理：为什么方差是一类预算

时间上下文注入：让 LLM 真正知道今天是几号

生产环境中的Text-to-SQL：自然语言查询为何在Schema边界失败

多轮工具调用的Token经济学：为什么你的Agent成本比你想象的高5倍

破坏生产级 LLM 系统的分词器盲点

工具输出压缩：决定上下文质量的注入策略

关于 Tian Pan