博客

Page 123

12 articles

为 Agentic 写入路径构建数据质量门禁：输入是垃圾，输出是不可逆的操作
拥有写入权限工具的 Agent 会将上游的数据质量问题直接转化为现实世界的副作用。本文将介绍防止此类问题的验证架构。
insiderai-engineering
4月15日13 min
凌晨三点调试 AI：LLM 驱动系统的故障响应指南
500 错误有堆栈跟踪，而糟糕的生成结果有概率分布。本文介绍如何在 AI 事故毁掉你的一周之前，对其进行分类、调试和事后复盘。
insiderobservability
4月15日11 min
AI 应用中的依赖注入模式：编写经得起模型切换的代码
将业务逻辑直接与 OpenAI 或 Anthropic SDK 耦合，会使每次模型废弃都变成长达一个月的重构。本文将介绍如何将依赖注入应用于 AI 组件，从而让模型切换简化为配置更改。
ai-engineeringarchitecture
4月15日11 min
AI 的依赖注入：在不损失测试保真度的情况下模拟模型调用
在测试中模拟 LLM 调用看起来是一个简洁的抽象，但幼稚的桩代码 (stub) 会悄然失效，变成关于生产环境行为的谎言。通过分层 Fixture 架构 —— 桩模拟、录制回放、实时调用 —— 加上刻意的接缝设计，可以在不为每一次 commit 消耗高昂成本的情况下恢复测试保真度。
insiderllm-testing
4月15日12 min
记录概率性功能：模型行为与开发者引导之间缺失的一层
由 AI 驱动的功能没有稳定的输入输出契约可供记录。本文介绍了如何为每次表现都不同的功能编写 API 文档、变更日志和运维手册 —— 利用行为包络（behavioral envelopes）、版本控制纪律和可观测性作为动态文档。
llmdocumentation
4月15日12 min
嵌入漂移问题：语义搜索的静默退化
嵌入模型将语言冻结在训练时刻。随着新术语的涌现，你的语义搜索正在悄然失准——没有错误触发，没有告警响起。本文教你如何检测并应对这一问题。
embeddingsvector-search
4月15日10 min
Eval 异味目录：让你的 LLM 评估套件比没有评估还糟糕的反模式
一份关于毒害 LLM 评估套件的反模式实战指南 —— 包括数据污染、脆弱的断言、评估腐化、评委合谋、虚荣聚合指标 —— 以及在无需重写整个测试框架的情况下恢复有效信号的重构模式。
insiderai-engineering
4月15日15 min
用稀疏标注构建 LLM 评估体系：你不需要一万个样本
大多数团队以等待足够标注数据为由，迟迟不投入评估体系建设。已有证据表明，通过主动学习、弱监督和 LLM 自动标注精心挑选的 50–200 个样本，完全能够产生可靠的评估信号。本文介绍如何在数据集尚小时就构建值得信赖的评估体系。
evaluationllm
4月15日14 min
少样本饱和曲线：为什么添加更多示例最终会适得其反
向提示中添加更多少样本示例看起来是免费的收益——其实不然。这里有经验数据说明曲线在何处开始对你不利、为何发生以及该怎么做。
insiderprompt-engineering
4月15日10 min
微调数据集溯源：六个月后你无法回答的审计问题
大多数生产中的微调模型无法可靠回答训练样本的来源问题。这里提供溯源注册表模式和审计工作流，让你在监管机构询问之前就有答案。
insiderfine-tuning
4月15日11 min
优雅地下架 AI 功能：如何在不损害用户信任的情况下弃用模型驱动的功能
弃用一个 AI 功能不像删除一个按钮——用户围绕模型个性、输出结构和行为特征构建了工作流。这里提供了一个四阶段生命周期，用于在不引发用户流失的情况下退出模型驱动的功能。
ai-engineeringllm
4月15日12 min
语法约束生成：大多数团队忽视的输出可靠性技术
约束解码在token级别保证LLM输出符合schema——从根本上消除验证重试循环。本文介绍其工作原理、大多数团队为何忽视它，以及它真正存在问题的场景。
llmstructured-outputs
4月15日11 min

较新的博文

较旧的博文

Page 123

为 Agentic 写入路径构建数据质量门禁：输入是垃圾，输出是不可逆的操作

凌晨三点调试 AI：LLM 驱动系统的故障响应指南

AI 应用中的依赖注入模式：编写经得起模型切换的代码

AI 的依赖注入：在不损失测试保真度的情况下模拟模型调用

记录概率性功能：模型行为与开发者引导之间缺失的一层

嵌入漂移问题：语义搜索的静默退化

Eval 异味目录：让你的 LLM 评估套件比没有评估还糟糕的反模式

用稀疏标注构建 LLM 评估体系：你不需要一万个样本

少样本饱和曲线：为什么添加更多示例最终会适得其反

微调数据集溯源：六个月后你无法回答的审计问题

优雅地下架 AI 功能：如何在不损害用户信任的情况下弃用模型驱动的功能

语法约束生成：大多数团队忽视的输出可靠性技术

关于 Tian Pan