博客

Page 126

12 articles

提示熵预算：将输出方差作为生产环境的核心指标
大多数生产环境的 LLM 系统只追踪准确率，却忽视了方差。衡量相同输入的输出分布——即提示熵预算——是决定用户体验一致性的缺失指标。
llmproduction
4月15日12 min
推理模型的提示词用法大不同：为何你现有的模式在 o1、o3 和 Claude 扩展思考上会失效
o1、o3 和带扩展思考的 Claude 等推理模型处理提示词的方式，与指令跟随模型有着本质区别。那些在 GPT-4 上有效的模式，反而会主动损害思考模型的性能——本文提供一套适配框架。
prompt-engineeringreasoning-models
4月15日11 min
公开幻觉应对指南：当你的 AI 在公众场合说出蠢话时该怎么办
为面临公开 AI 幻觉事件的工程师和产品团队提供的实战指南——涵盖分类、根因分析、面向用户的沟通，以及真正能防止再次发生的事件后评估工作。
aillm
4月15日11 min
RAG 特有的提示词注入：对抗性文档如何劫持你的检索管道
在数百万文档的语料库中，仅需五份精心构造的文档，就能在 90% 的情况下操控 RAG 系统的响应——而你的输入验证层对此毫无察觉。本文解析为何 RAG 的威胁模型从根本上有别于传统注入，以及真正有效的防御措施。
securityrag
4月15日11 min
你的 RAG 系统缺少的查询改写层
大多数 RAG 调优工作集中在分块策略和嵌入模型上。而最高杠杆的干预点其实在流水线更前端：在查询命中向量索引之前对其进行变换。
ragretrieval
4月15日11 min
检索空洞问题：为什么你的 RAG 拒绝说“我不知道”
向量搜索总是返回前 K 个结果，无论匹配质量如何，这会将缺失的信息转化为自信的虚构。修复这一问题不仅需要提高阈值——弃权机制必须成为一等输出。
insiderrag
4月15日12 min
研究型 Agent 设计：为何科学工作流会打破编码 Agent 的底层假设
编码 Agent 收敛于唯一正确答案。研究型 Agent 必须探索开放式的假设空间，而成功标准在事先并不明确。本文探讨这一差异在架构层面的具体要求。
ai-agentsresearch
4月15日11 min
LLM Agent 的重试预算：为什么 20% 的单步失败率会让你的 Token 账单翻倍
在链式 LLM Agent 中，20% 的单步重试率很少只增加 20% 的成本 —— 由于上下文回放，成本往往会攀升至 2 倍左右。本文将介绍如何通过预算限制重试、在 CI 中捕获成本爆炸，并停止为失败支付双倍费用。
insiderllm-agents
4月15日10 min
设计不拖垮延迟的 AI 安全层
串行安全检查会在响应到达用户之前叠加出数百毫秒的开销。本文介绍如何设计既能维持安全态势、又不破坏用户体验的护栏架构。
insiderguardrails
4月15日10 min
SFT、RLHF 与 DPO：垂直领域应用中的模型对齐方法决策矩阵
一个实用的决策框架，用于在垂直领域应用中对 LLM 进行对齐时，在有监督微调 (SFT)、RLHF 和 DPO 之间进行选择——包括如何诊断你的对齐差距是数据问题、奖励问题还是能力缺失。
insiderfine-tuning
4月15日12 min
影子提示词库：治理一个无人拥有的资产类别
提示词驱动着生产环境中的 AI 功能，却往往缺乏代码审查、部署流水线或明确的所有者。在监管机构强制执行要求之前，你需一套实用的治理栈 —— 包含注册表、变更审查、模型兼容性和审计追踪。
prompt-engineeringai-governance
4月15日14 min
在受监管行业落地 AI：当合规成为工程约束
默认的 AI 技术栈在医疗和金融场景中行不通。本文介绍当可审计性、可解释性和数据驻留成为硬性约束时，真正能落地 LLM 特性的技术架构。
compliancehealthcare
4月15日12 min

较新的博文

较旧的博文

Page 126

提示熵预算：将输出方差作为生产环境的核心指标

推理模型的提示词用法大不同：为何你现有的模式在 o1、o3 和 Claude 扩展思考上会失效

公开幻觉应对指南：当你的 AI 在公众场合说出蠢话时该怎么办

RAG 特有的提示词注入：对抗性文档如何劫持你的检索管道

你的 RAG 系统缺少的查询改写层

检索空洞问题：为什么你的 RAG 拒绝说“我不知道”

研究型 Agent 设计：为何科学工作流会打破编码 Agent 的底层假设

LLM Agent 的重试预算：为什么 20% 的单步失败率会让你的 Token 账单翻倍

设计不拖垮延迟的 AI 安全层

SFT、RLHF 与 DPO：垂直领域应用中的模型对齐方法决策矩阵

影子提示词库：治理一个无人拥有的资产类别

在受监管行业落地 AI：当合规成为工程约束

关于 Tian Pan