博客

Page 51

12 articles

影子 MCP：你的安全团队从未听说过的工具服务器已经在工程师的笔记本电脑上运行了
MCP 使得将开发者的笔记本电脑连接到准生产系统变得极其廉价。其产物是一个使用工程师现有凭据的环回套接字（loopback socket）——这对采购、CASB 和 SSO 日志来说是不可见的。在发生第一次数据泄露披露之前，必须建立发现和治理规程。
insiderai-agents
4月26日14 min
共享提示词的“夺旗日”：当一次修改引发三十个团队的性能回归
将安全前导语（safety preamble）集中化管理看起来像是典型的 DRY 原则胜利，直到第一次修改发布，导致三十个下游团队的评估指标暴跌。本文将探讨为什么共享提示词的行为类似于分布式系统，以及如何构建能够经受住“夺旗日”考验的治理框架。
insiderllmops
4月26日12 min
投机采样（Speculative Decoding）是一项流式传输协议决策，而非推理优化
投机采样（Speculative Decoding）承诺在保持模型输出一致的前提下实现 3-6 倍的加速，但这种保证仅限于离开推理引擎的 Token —— 而非已经展示给用户的字节。当你通过流式传输尚未验证的草稿 Token 时，被拒绝的后缀必须撤回。哪些界面能够容忍撤回是一项产品决策，而推理团队往往很少考虑到这一范围。
speculative-decodingllm-inference
4月26日14 min
AI 功能指标陷阱：为什么 DAU 和留存率在随机化表面 (Stochastic Surfaces) 上会产生误导
DAU、转化率和留存率是为点击流设计的。而 AI 功能产生的是任务弧 (Task Arcs) —— 请求、响应、后续、解决 —— 你从确定性策略指南中引入的仪表盘会告诉你该功能表现优异，但实际上用户正在绕过它。
ai-engineeringproduct-metrics
4月26日13 min
你的 stop_reason 在说谎：构建生产环境故障排查真正需要的停止分类法
厂商提供的 stop_reason 值只给了你四个分类，但生产环境的故障排查通常需要八个。本文将介绍如何构建并行停止分类法，将黑盒式的终止转换为可调试的信号。
llmobservability
4月26日14 min
流式 JSON 解析器：Token 与类型化对象之间的鸿沟
JSON.parse 是全量或全无的，但 LLM 的 Token 流并非如此。为什么流式结构化输出是 API 和 SDK 必须共同解决的设计难题，以及一个真正的部分解析器必须具备哪些功能。
insiderllm
4月26日13 min
并行工具扇出的结构化并发：谁来负责部分失败？
大多数智能体框架将并行工具调用作为分离的 goroutine 运行，然后重新发现了结构化并发在二十年前就已经解决的失败模式 —— 部分失败、响应取消以及成本失控。
insideragents
4月26日13 min
用于多轮 Agent 评估的合成用户：当你的测试固件需要“反击”时
单轮评估往往会忽略那些关键的多轮失败模式。具备人格、耐心预算和放弃阈值的 LLM 驱动用户模拟器每晚可以运行数千次对话 —— 但前提是模拟器与生产环境之间的差距是经过校准的，而非臆断。
llm-agentsevaluation
4月26日11 min
系统提示词作为代码、配置或数据：影响全局的架构决策
大多数团队在选择系统提示词的存储位置时非常随意，随后却要在数年内为此承担后果。在代码、配置和数据存储之间的选择会直接影响部署频率、评估范围和租户灵活性 —— 这里有一套在 MVP 阶段前就应应用的框架。
llmai-engineering
4月26日13 min
AI 工程师的三种品味：为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中
Prompt 品味、Eval 品味和 Guardrail 品味是 AI 工程师这一职位头衔下隐藏的三种截然不同的直觉。如果你将它们视为同一种技能来进行招聘和晋升，你将交付一个失衡的系统——即便所有的指标都显示正常（全绿），用户却在流失。
hiringai-engineering
4月26日13 min
小费罐问题：当 5% 的用户消耗了 80% 的推理预算时
针对以 token 计费的 AI 产品，固定费率定价会导致用量的幂律分布，极少数的“推理大户”会摧毁你的利润空间。传统的解决方法——如用量限制、降速、公平使用条款——会疏远那些如果你允许，他们本愿意支付更多费用的高参与度用户。本文将介绍真正符合 token 成本行为的分层架构、计量前期工作以及单位经济效益规范。
ai-pricingunit-economics
4月26日14 min
Token 放大：烧掉你账单的提示词注入攻击
大多数提示词注入威胁模型都集中在数据泄露上。更隐蔽的一类攻击是账单放大 —— 0.01 美元的请求变成了 40 美元的推理发票。这里是阻止该攻击的防御准则。
insiderai-engineering
4月26日11 min

较新的博文

较旧的博文

Page 51

影子 MCP：你的安全团队从未听说过的工具服务器已经在工程师的笔记本电脑上运行了

共享提示词的“夺旗日”：当一次修改引发三十个团队的性能回归

投机采样（Speculative Decoding）是一项流式传输协议决策，而非推理优化

AI 功能指标陷阱：为什么 DAU 和留存率在随机化表面 (Stochastic Surfaces) 上会产生误导

你的 stop_reason 在说谎：构建生产环境故障排查真正需要的停止分类法

流式 JSON 解析器：Token 与类型化对象之间的鸿沟

并行工具扇出的结构化并发：谁来负责部分失败？

用于多轮 Agent 评估的合成用户：当你的测试固件需要“反击”时

系统提示词作为代码、配置或数据：影响全局的架构决策

AI 工程师的三种品味：为什么 Prompt、Eval 和 Guardrail 往往无法共存于一个大脑中

小费罐问题：当 5% 的用户消耗了 80% 的推理预算时

Token 放大：烧掉你账单的提示词注入攻击

关于 Tian Pan