博客

Page 44

12 articles

你的工具结果缓存是一份你从未签署过的过期数据契约
链路追踪中看似正常的缓存工具结果，正在悄无声息地产生言之凿凿的错误答案。请将缓存视为一种单工具的新鲜度契约 —— 根据波动性设置 TTL、在结果中包含新鲜度元数据、建立绕过层，并增加过期缓存评估切片。
ai-engineeringagents
4月27日12 min
工具 Schema 是提示词，而非 API 合约
从 OpenAPI 规范自动生成的 LLM 工具 Schema，本质上是将你的 API 文档作为提示词发布 —— 而你的智能体将为此付出代价，在测试中难以察觉的误用会频频发生。
insiderllm-tools
4月27日12 min
翻译并非本地化：多语言 AI 正面临的文化校准债务违约
仅仅发布翻译后的提示词和评估集并不等同于多语言产品的上线。失败的模式往往是文化层面的，而非语言层面的，且你的仪表盘无法识别这些风险。
insidermultilingual
4月27日13 min
12 个月的 AI 功能悬崖：为什么你的生产模型在无人标记的日历上悄然衰减
AI 功能发布时通过率为 92%，但在没有进行任何更改的情况下，12 个月后却下滑至 78%。五个复合时钟——模型弃用、权重轮换、输入漂移、提示词补丁债务、评判模型校准——产生了一个大多数团队只有在模型弃用截止日期前才会发现的悬崖。这是你必须在产品发布前就列入日历的维护节奏。
ai-engineeringllm-ops
4月27日13 min
双语问题：为什么类型安全会在提示词边界失效
静态类型系统在提示词边界会失效。本文探讨了三种失败模式——插值、描述式 Schema、输出解析——以及当编译器无法识别接缝时，弥合这一差距的工程规范。
ai-engineeringtype-safety
4月27日11 min
两个 PM 的难题：当提示词所有权与产品所有权发生偏离时
大多数 AI 团队将提示词所有权与产品所有权分开，并在无人负责的回归问题中支付协调税。本文介绍了这种失败模式以及让这种分工得以存续的仪式——共享发布日历、统一仪表板、联合事故频道以及包含四个产出物的 RACI 模型。
insiderai-product
4月27日12 min
你的向量数据库也有热点 Key：为什么 ANN 索引在生产成本上“撒了谎”
公开的 ANN 基准测试通常运行均匀的查询负载，但在生产环境中检索是齐夫分布（Zipfian）的 —— 这种差异表现为分片过载、RAM 浪费以及超出预期的 p99 延迟。
insidervector-database
4月27日12 min
厂商基准测试是你的天花板，而非预测
厂商基准测试数据描述的是受控环境下的表现，而非你的技术栈。你的产品所获得的实际增益在结构上会更小——而唯一值得据此批准预算的预测，是你自己的影子评估。
llmevaluation
4月27日12 min
80 问之墙：企业级 AI 安全调查问卷的真实需求
企业 CISO 现在针对 AI 开展专门的安全审查，涉及训练数据、提示词日志、租户隔离和拒绝行为等 80 多个问题。这是一份关于他们真实需求的实战指南。
ai-securityenterprise
4月26日12 min
方差正在吞噬实验：为什么传统的 A/B 测试功效计算不适用于 LLM 功能
经典的 A/B 测试数学模型假设每个用户的行为是确定的。LLM 功能两次打破了这一假设，导致标准的样本量模板在两个方向上都给出了错误的判断 —— 本文介绍了修复这一问题的四个转变。
insiderexperimentation
4月26日12 min
智能体完成任务时房间已空：异步后台任务中的过时上下文交付
延迟 90 秒完成任务的异步智能体往往会交付用户已经不再关心的答案。解决方法在于“交付时相关性网关”，而非更快的模型。
insideragents
4月26日10 min
Agent 飞行记录仪：在第一次事故发生前必须捕获的字段
当 Agent 脱轨时，大多数团队拥有的取证记录都是徒劳的。这里列出了飞行记录仪在第一次事故发生前必须捕获的字段，以及与之配套的存储、采样和隐私规范。
insiderai-engineering
4月26日14 min

较新的博文

较旧的博文

Page 44

你的工具结果缓存是一份你从未签署过的过期数据契约

工具 Schema 是提示词，而非 API 合约

翻译并非本地化：多语言 AI 正面临的文化校准债务违约

12 个月的 AI 功能悬崖：为什么你的生产模型在无人标记的日历上悄然衰减

双语问题：为什么类型安全会在提示词边界失效

两个 PM 的难题：当提示词所有权与产品所有权发生偏离时

你的向量数据库也有热点 Key：为什么 ANN 索引在生产成本上“撒了谎”

厂商基准测试是你的天花板，而非预测

80 问之墙：企业级 AI 安全调查问卷的真实需求

方差正在吞噬实验：为什么传统的 A/B 测试功效计算不适用于 LLM 功能

智能体完成任务时房间已空：异步后台任务中的过时上下文交付

Agent 飞行记录仪：在第一次事故发生前必须捕获的字段

关于 Tian Pan