博客

Page 34

12 articles

Prompt 即文档：当系统 Prompt 成为唯一可信的交付物时
当 PM、支持团队和销售开始通过阅读系统 Prompt 来了解产品功能时，这既是一种褒奖，也是一种结构性失效。本文将介绍如何保留有效的部分并修复其余问题。
insiderai-engineering
5月13日11 min
Prompt 作者身份问题：三个角色同时编辑同一个文件
每个生产环境的系统 prompt 都有三个作者 —— 工程、产品和 ML —— 而且他们对什么是“变更”各执一词。这里有一套结构化的解决方案。
prompt-engineeringai-engineering
5月13日14 min
Agent 内部的提示词图谱：无人绘制的跨提示词回归链
规划器中四个词的修改，会导致下游验证器的通过率波动三个百分点。解决方案是将你的 Agent 提示词组合视为微服务网格——关注图谱、边、契约、爆炸半径 PR 审查、逐边回归评估以及边负责人。
insiderai-agents
5月13日13 min
季度模型迁移：将其变成日程安排，而非消防演习
基础模型提供商退役模型的节奏往往不在你团队的计划之内。将每次迁移视为一次性项目，意味着每年要支付三到四次相同的设置成本。相反，应该进行季度演练——指定负责人 (DRI)、候选模型、回归测试重跑、运行手册更新——这样当下一次弃用邮件寄达时，它只是团队既定节奏中的一部分。
insiderllm-ops
5月13日13 min
针对幻影库存的 RAG：当你的语料库描述产品已删除的功能时
一个 RAG 系统检索到了关于你四个月前已删除功能的文档，并自信地引导客户点击一个根本不存在的按钮。评估指标依然显示绿色。本文将探讨为什么检索和归因指标会错过这类失败，以及为了解决这个问题，组织层面需要做出哪些改变。
ragai-engineering
5月13日12 min
评估员吞吐量是评估流水线中隐藏的瓶颈
在任何重视人工评分的 AI 系统中，评估员的吞吐量都限制了评估速度。本文介绍了一套运营规范——包括校准周期、感知队列的优先级排序以及评分标准反馈循环——旨在将标注产能视为一个 SRE 问题，而非招聘问题。
insiderevals
5月13日11 min
重复问题检测：你的单轮评估无法察觉的会话级盲点
单轮评估分数可以保持在绿色状态，但用户可能在三次重新表述同一个问题后流失。这种失败发生在会话层面——这里告诉你如何检测和评分。
insiderai-engineering
5月13日12 min
“重新生成”按钮作为一项产品决策：当“再生”功能让用户不再信任你
“重新生成”按钮看起来是一个唾手可得的 UX 优化，但它实际上改变了用户的行为，引导他们像对待老虎机一样对待你的模型。本文将探讨设计空间——包括分页、分支、引导式生成、重新生成预算——以及如何将“重新生成率”作为产品中最高带宽的质量信号进行监测。
ai-uxllm-products
5月13日12 min
检索引用税：为什么合规性会增加 30% 的 RAG Token 账单
在 RAG 系统中添加引用看起来只是改一行系统提示词。但在受监管的租户中，它会悄无声息地让推理成本增加 25%–40%。本文将探讨为什么这种“税收”是结构性的，以及哪些架构层面的调整可以帮你挽回大部分成本。
insiderrag
5月13日12 min
二稿 Agent 模式：为什么“先探索再交付”优于“自我批判”
一种双阶段的 Agent 架构 —— 先进行发散性的初稿探索，再在受限上下文中进行精简执行 —— 在质量和成本上通常都优于 n-of-k 的自我批判循环。
insiderai-agents
5月13日13 min
影子评估：当私有切片取代了你的评估汇总
私有的评估 Notebook 看起来效率很高，但会让组织缺乏统一的评估汇总。解决方案是建立合并门控契约：共享框架、验证过的切片、明确的负责人，以及任何人都能重新运行的排行榜。
evalsai-engineering
5月13日11 min
过时的 Few-Shot 示例以及你的提示词仓库所忽略的半衰期
你系统提示词中的经典示例正在悄悄地教导模型一个已不存在的产品。评估分数之所以保持绿色，是因为评估集也随之腐化了。
ai-engineeringprompt-engineering
5月13日11 min

较新的博文

较旧的博文

Page 34

Prompt 即文档：当系统 Prompt 成为唯一可信的交付物时

Prompt 作者身份问题：三个角色同时编辑同一个文件

Agent 内部的提示词图谱：无人绘制的跨提示词回归链

季度模型迁移：将其变成日程安排，而非消防演习

针对幻影库存的 RAG：当你的语料库描述产品已删除的功能时

评估员吞吐量是评估流水线中隐藏的瓶颈

重复问题检测：你的单轮评估无法察觉的会话级盲点

“重新生成”按钮作为一项产品决策：当“再生”功能让用户不再信任你

检索引用税：为什么合规性会增加 30% 的 RAG Token 账单

二稿 Agent 模式：为什么“先探索再交付”优于“自我批判”

影子评估：当私有切片取代了你的评估汇总

过时的 Few-Shot 示例以及你的提示词仓库所忽略的半衰期

关于 Tian Pan