博客

Page 46

12 articles

AI 面试毫无区分度：为什么你的流程无法识别能交付 LLM 产品的人才
标准的工程面试流程往往只筛选确定性系统的技能，却忽略了预测谁能交付 LLM 产品的核心能力——包括评测设计、成本直觉、提示词调试和容错思维。解决方案是重构面试流程，而不是生硬地增加一个 AI 面试环节。
insiderhiring
4月26日12 min
五面分诊树：当常规操作手册不再适用时的 AI 轮值指南
如果报警显示模型开始撒谎，那么为“重启服务”设计的传统操作手册就不再适用了。本文介绍了五面分诊树、冻结按钮以及重放测试框架，正是这些工具让 AI 轮值成为了一门独立的学科。
ai-oncallsre
4月26日14 min
批次层推理之问：当 50% 的折扣重塑你的架构时
提供商的批次 API 将推理成本降低了一半，但也重塑了工程契约：作业级幂等性、新鲜度边界、延迟结果的可观测性，以及一个分层感知的决策矩阵——它能将 30–50% 的 LLM 支出重新路由到那些用户从未在等待的工作负载上。
insiderllm-ops
4月26日13 min
护栏系统的自研与外购：内容审查 API 已成为安全关键路径上的核心依赖
托管的内容审查 API 将你的安全控制转变为一个同步的外部依赖 —— 本文将探讨自研与外购的决策、故障开启 (fail-open) 与故障关闭 (fail-closed) 之间的权衡，以及如何通过集成规范确保处于安全关键路径上的供应商不会绑架你的事件响应流程。
llmguardrails
4月26日11 min
校准弃答：你的 LLM 技术栈每一层都在惩罚的能力
LLM 技术栈中的每一项默认设置——预训练、RLHF、裁判 LLM、用户反馈——都在促使模型给出自信的错误答案。只有当你构建了愿意为此付费的评估体系、评分标准和 UI 时，校准弃答才能真正落地。
llmevaluation
4月26日13 min
取消安全的智能体：你的“停止”按钮背后已经产生的副作用
“停止”只是一种 UI 手段，而非系统保证。这是一份针对取消安全智能体的从业者指南：持久化副作用账本、作用域授权、补偿操作，以及取消 UI 究竟应该显示什么。
insideragents
4月26日12 min
复合型 AI 系统中的内部结算账本
复合型 AI 系统成本分摊指南 —— 涵盖 per-span 账本、on-behalf-of 标头、结算货币不匹配，以及决定谁为工具调用买单的治理策略。
finopsai-agents
4月26日11 min
聊天历史是数据库。别再把它当成滚动回溯了。
将对话历史视为滚动回溯（Scrollback），是智能体在第 8 轮对话后就开始跑题，以及上下文费用呈超线性增长的原因。解决办法是回归其本质——一个读密集型数据库——并据此进行设计。
insiderllm
4月26日12 min
编程智能体自主曲线：阅读是免费的，合并是事故级的
对于编程智能体来说，单一的自主开关是错误的抽象方式。应该将每个工具映射到特定的爆炸半径层级，根据层级调整审批闸门，并使智能体的执行速度与你的回滚速度相匹配。
insidercoding-agents
4月26日13 min
LLM 工具表面的契约测试：当供应商更改字段而你的智能体静默适应时
当供应商重命名工具响应字段时，你的智能体不会崩溃 —— 它会自行适应并交付一个质量下降的答案。为什么微服务契约测试必须迁移到智能体技术栈，以及如何进行配置。
contract-testingllm-agents
4月26日12 min
反事实日志：通过今天的充足记录，在明年的模型上重放昨天的流量
生产环境中的 LLM 日志能很好地回答“模型说了什么”，却难以回答“模型看到了什么” —— 正是这种差距导致了数月后的模型迁移评估宣告失败。本文介绍了一种用于可重放追踪的实用模式。
insiderai-engineering
4月26日14 min
你的智能体有两条发布流水线，而非一条
智能体提示词和智能体工具在磁盘上看起来像是同一种资产，但它们的失效方式完全不同 —— 通过同一条流水线发布它们，是导致大多数智能体事故的根本性架构错误。
insiderai-agents
4月26日12 min

较新的博文

较旧的博文

Page 46

AI 面试毫无区分度：为什么你的流程无法识别能交付 LLM 产品的人才

五面分诊树：当常规操作手册不再适用时的 AI 轮值指南

批次层推理之问：当 50% 的折扣重塑你的架构时

护栏系统的自研与外购：内容审查 API 已成为安全关键路径上的核心依赖

校准弃答：你的 LLM 技术栈每一层都在惩罚的能力

取消安全的智能体：你的“停止”按钮背后已经产生的副作用

复合型 AI 系统中的内部结算账本

聊天历史是数据库。别再把它当成滚动回溯了。

编程智能体自主曲线：阅读是免费的，合并是事故级的

LLM 工具表面的契约测试：当供应商更改字段而你的智能体静默适应时

反事实日志：通过今天的充足记录，在明年的模型上重放昨天的流量

你的智能体有两条发布流水线，而非一条

关于 Tian Pan