博客

Page 15

12 articles

你的财务团队构建的那个排除了 Embedding 重新索引成本的成本仪表盘
按功能划分的仪表盘跟踪 Token 消耗。按供应商划分的仪表盘跟踪发票。而每季度的 Embedding 重新索引成本则介于两者之间，最终落入无人认领的基础设施桶中 —— 在那里，40% 的 AI 支出在未经审查的情况下悄然流失。
insiderfinops
6月2日12 min
服务商在 API 边界遵守但在缓存处违反的数据驻留契约
区域 API 终端节点承诺了你的请求去向，但未承诺满足该请求的缓存前缀字节存放地。可审计边界与缓存部署边界受不同的 SLA 约束 —— 而这一差距正是合规态势失效之处。
ai-engineeringdata-residency
6月2日10 min
那个将你的系统提示词泄露到客户审计日志中的调试日志器
你的平台团队为了排查故障而添加的一个字段，最终出现在了租户的审计导出中 —— 这次泄露不需要任何攻击者，仅仅是两个“正确”的决定组合在了一起。
llm-securityobservability
6月2日11 min
那个在你待办事项中悄悄更改的弃用日期
供应商可以在不发布差异对比、不发送通知的情况下直接修改弃用日期。当初将原始日期放入延期池的团队，直到收到支持工单时才发现大事不妙。
llm-opsvendor-risk
6月2日10 min
当用户取消对话后，下游 API 却仍在继续写入
点击停止按钮可以干净地关闭 LLM 流。但这并不会停止工具已经向第三方开启的 HTTP 请求，而第三方并不知道对话已经结束。本文将解释为什么 AbortSignal 止步于套接字，以及你应该在提交边界构建什么来替代它。
insideragents
6月2日11 min
那场无需部署就让你检索召回率减半的 Embedding 弃用事件
一个被弃用的 Embedding 端点如果悄悄地路由到某个 “兼容性” 继任者，可能会在无需部署的情况下让你的检索召回率减半。本文将探讨为什么查询/文档 Embedding 不匹配是 RAG 的隐形杀手，以及如何将端点与其生成的语料库进行锚定。
ragembeddings
6月2日12 min
团队上线了新提示词模板，评估框架却还在测昨天的旧版本
如果评估套件在给错误的提示词版本评分，即使发布版本已损坏，报告仍会显示通过。解决方案不在于更快的缓存失效，而在于使用基于内容的提示词哈希，从而从根本上杜绝评估与生产环境出现偏差的可能性。
llm-evalsprompt-engineering
6月2日10 min
权重并列语气与正确性的评估准则：如何悄无声息地筛选掉正确答案
将帮助性、清晰度、共情力和准确性进行等权重组合，会悄悄地奖励“模棱两可的错误”，而非“直截了当的正确”。本文将探讨为什么仪表盘显示一片大绿而产品质量却在倒退，以及如何设计评估准则模式，让优化梯度回到你预期的方向。
llm-evalsai-engineering
6月2日11 min
那些被你的提示词工程师转变为生产环境 Few-Shot 示例的评估集
当提示词工程师将精心挑选的评估示例重新用作 Few-shot 演示时，一种团队级的数据泄漏正潜伏在指标不断攀升的评估仪表盘背后。本文将探讨为什么这种污染是隐形的，真正的独立性究竟需要什么，以及谁必须被赋予说“不”的权力。
insiderai-engineering
6月2日12 min
系统提示词为他人调优的备选模型
当主模型宕机时，故障转移能保证你的 LLM 应用可用 —— 但备选模型读取的是为其他模型调优的系统提示词，而你的用户会察觉到这种差异。
llm-reliabilityfailover
6月2日12 min
被你的模型视为“约束性判例”的 Few-Shot 示例
Few-shot 示例并非中立的演示 —— 它们是“判例法”。模型会通过表面 Token 绑定到最接近的示例，并继承其约束，从而输出评估套件无法察觉的、充满自信的错误答案。
insiderllm
6月2日11 min
离职工程师带走的微调产物
微调模型不仅仅是注册表中的一个文件；它是流水线在训练集上的闭包。那些只交付权重的团队，会在需要进行基础模型迁移而原工程师已经离职的那天，发现他们的公交车指数有多低。
mlopsfine-tuning
6月2日12 min

较新的博文

较旧的博文

Page 15

你的财务团队构建的那个排除了 Embedding 重新索引成本的成本仪表盘

服务商在 API 边界遵守但在缓存处违反的数据驻留契约

那个将你的系统提示词泄露到客户审计日志中的调试日志器

那个在你待办事项中悄悄更改的弃用日期

当用户取消对话后，下游 API 却仍在继续写入

那场无需部署就让你检索召回率减半的 Embedding 弃用事件

团队上线了新提示词模板，评估框架却还在测昨天的旧版本

权重并列语气与正确性的评估准则：如何悄无声息地筛选掉正确答案

那些被你的提示词工程师转变为生产环境 Few-Shot 示例的评估集

系统提示词为他人调优的备选模型

被你的模型视为“约束性判例”的 Few-Shot 示例

离职工程师带走的微调产物

关于 Tian Pan