博客

Page 114

12 articles

对齐税：衡量交付安全 AI 的真实成本
你在生产级 AI 系统中添加的每一层安全措施，都会在延迟、Token 和用户摩擦方面产生可衡量的成本。本文将介绍如何量化这些成本并做出有原则的权衡。
ai-safetyllm
4月16日11 min
环境 AI 架构：设计不会被用户关掉的常驻智能体
大多数环境 AI 功能在上线两周内就会被用户关掉——不是因为模型不好，而是因为打扰阈值设置错误。本文提供一套防止这种情况发生的架构与 UX 框架。
insiderai-engineering
4月16日10 min
你的标注流水线才是 AI 产品的真正瓶颈
团队在反馈采集 UI 上投入大量精力，而下游的标注流水线 —— 架构版本管理、IAA 评分、队列优先级 —— 却无休止地滞后两个迭代。本文将告诉你如何解决这一问题。
insidermlops
4月16日12 min
标注人力工程：你的标注员就是生产基础设施
大多数 ML 团队把标注当作采购问题来对待，实际上这是一个基础设施问题。本文介绍如何用与生产系统同等的严谨度来运营标注工作。
insidermachine-learning
4月16日12 min
评估基准真相中的标注者偏差：当你的标签系统性地将你引向歧途
探讨标注者的选择、人口统计学特征以及系统性错误模式是如何在训练开始前就破坏你的评估基准真相的，并介绍捕获这些问题的审计方法论。
insiderevaluation
4月16日13 min
非确定性服务的 API 契约：随机输出下的版本管理
传统 API 契约在封装 LLM 的服务中会失效。本文介绍如何对概率性系统进行版本管理、测试并维护向后兼容性。
insiderllm
4月16日11 min
AI 驱动端点的 API 设计：为不可预测性建立版本控制
当你升级 API 背后的 AI 模型时，虽然 JSON 架构保持不变，但语气、拒绝行为和推理风格都可能发生变化。本文介绍了快照固定、结构化输出、行为包络和阴影部署等模式，这些模式能够确保 AI 端点对调用者保持稳定。
api-designllm
4月16日10 min
AI 驱动型 API 的行为 SLA：为非确定性输出编写协议
当你的 API 封装了 LLM 时，传统的 SLA 就会失效。学习如何定义行为协议 —— 包括格式保证、拒绝率、延迟 p95、幻觉预算 —— 以及如何在不破坏用户体验的情况下，对行为变更进行版本管理和沟通。
ai-engineeringapi-design
4月16日12 min
浏览器原生 LLM 推理：你不知道自己需要的 WebGPU 工程化实践
通过 WebGPU 在浏览器中直接运行 LLM 将改变你的整个应用架构。本文将探讨其实际的能力上限，以及在哪些场景下混合路由方案优于纯云端方案。
insiderllm
4月16日12 min
Monorepo 中的编程智能体：为什么上下文窗口与 50 个服务的代码库无法兼容
编程智能体在大型 Monorepo 中遇到了硬伤：任何跨服务更改的相关代码所跨越的包，都超出了任何上下文窗口的承载能力。本文将探讨实际有效的解决方案。
ai-engineeringcoding-agents
4月16日10 min
AI 产品中的冷启动陷阱
AI 功能需要用户数据才能运作，但又需要运作良好才能吸引用户。这里介绍了如何在不浪费数月时间进行机器学习研发的情况下，在你的产品赢得这一权利之前跳出冷启动陷阱。
ai-engineeringproduct
4月16日13 min
置信度-准确率倒置：为什么大语言模型在听起来最确信的地方往往最容易出错
前沿大语言模型在用户最信任的领域表现出最差的校准性。本文介绍如何量化这一问题，并构建能在真实损害发生前处理过度自信错误答案的系统。
llmreliability
4月16日11 min

较新的博文

较旧的博文

Page 114

对齐税：衡量交付安全 AI 的真实成本

环境 AI 架构：设计不会被用户关掉的常驻智能体

你的标注流水线才是 AI 产品的真正瓶颈

标注人力工程：你的标注员就是生产基础设施

评估基准真相中的标注者偏差：当你的标签系统性地将你引向歧途

非确定性服务的 API 契约：随机输出下的版本管理

AI 驱动端点的 API 设计：为不可预测性建立版本控制

AI 驱动型 API 的行为 SLA：为非确定性输出编写协议

浏览器原生 LLM 推理：你不知道自己需要的 WebGPU 工程化实践

Monorepo 中的编程智能体：为什么上下文窗口与 50 个服务的代码库无法兼容

AI 产品中的冷启动陷阱

置信度-准确率倒置：为什么大语言模型在听起来最确信的地方往往最容易出错

关于 Tian Pan