博客

Page 146

12 articles

你的 try/catch 漏掉的 LLM 请求生命周期
将 LLM 调用封装在 try/catch 中只能捕获简单的失败。采用状态机方法可以将重试、降级、校验和升级路径变为一等可观测状态 —— 并揭示那些返回 HTTP 200 的失败模式。
insiderllm
4月9日12 min
长周期评估鸿沟：为什么你的智能体通过了所有基准测试却仍在生产环境中失败
单轮基准测试为生产环境中的 AI 智能体提供了一种虚假的安全感。在 SWE-Bench Verified 上得分 75% 的模型，在真实的工程任务中往往会骤降至 25% 以下——本文将探讨这种差距的结构性原因，以及如何构建能够捕捉这些问题的评估体系。
ai-agentsevaluation
4月9日13 min
MCP 服务端供应链风险：当你的智能体工具成为攻击向量
第三方 MCP 服务端是 AI 智能体领域的新一代 npm left-pad 问题。从 Postmark 邮件外泄到 mcp-remote 命令注入，真实的漏洞案例揭示了五种攻击向量以及在不破坏可组合性的前提下降低风险的分层防御模式。
insidermcp
4月9日11 min
生产环境中的 MoE 模型：稠密模型基准测试所掩盖的服务特性
稀疏 MoE 模型所需的 GPU 显存是其激活参数量的 8.6 倍，且表现出稠密模型监控容易忽略的延迟波动，并打破了朴素的批处理假设。本文将深入分析基准测试中经常忽略的服务端细节。
insidermoe
4月9日13 min
模型指纹识别：在后端模型静默切换破坏你的评估系统前发现它
当你的 LLM 供应商在稳定的 API 端点背后静默更新模型时，你的评估测试可能依然通过，但用户却能感觉到差异。本文介绍一套指纹识别和漂移检测技术栈，帮助你第一时间捕获这类变动。
insiderllm
4月9日13 min
模型迁移指南：如何在不破坏生产环境的情况下更换基座模型
一份在生产环境中安全迁移基座模型的分步指南 —— 涵盖影子测试、嵌入向量重新索引、提示词适配、金丝雀发布，以及区分两周完成更换与两个月完成更换的组织协调工作。
insiderllm-migration
4月9日15 min
模型迁移指南：如何在不冻结功能开发的情况下更换基础模型
一份分阶段的生产环境指南，用于更换 LLM 基础模型——涵盖了影子部署、跨供应商的提示词重构、嵌入模型重新索引策略，以及为什么仅凭你的评估套件无法捕捉到那些至关重要的回归问题。
insiderllm-ops
4月9日13 min
生产环境中的多模态大模型：没人会预先计算的成本账
视觉、音频和视频输入如何改变你的大模型 Token 预算 —— 本文详细分析了各模态的成本公式、那些悄悄增加生产账单的乘数，以及团队用于控制成本的架构模式。
multimodalllm
4月9日14 min
N+1 查询问题已经感染了你的 AI Agent
ORM 时代的 N+1 查询问题在 AI Agent 工具调用层重新出现 —— 顺序单项获取、冗余重新获取和过度获取正默默地增加你的延迟和 Token 成本。本文将介绍如何诊断并修复这一问题。
ai-agentstool-use
4月9日12 min
非确定性税：在概率性基础设施上构建可靠的流水线
Temperature=0 并不能让 LLM 变得确定。批次组合、张量并行以及浮点数非结合性会导致高达 72 个百分点的性能波动。本文将介绍如何衡量这种方差，并构建即便在这种情况下依然稳定的应用逻辑。
llmproduction
4月9日11 min
代理系统的非确定性 CI：为什么二进制的通过/失败模式会失效，以及取而代之的是什么
当每次测试运行都具有非确定性时，二进制的通过/失败 CI 就会失效。统计判定、分级阈值、轨迹指纹识别和序列分析可以在不让团队陷入虚假失败的情况下，捕捉真实的代理回归。
insiderai-agents
4月9日11 min
LLM Agent 中的并行工具调用：你可能尚未意识到的耦合测试
在 LLM Agent 中启用并行工具执行会暴露工具设计中隐藏的耦合问题 —— 本文探讨了三种静默失败模式、如何为安全并行对工具进行分类，以及何时应该合并工具而非并行化。
insiderllm-agents
4月9日11 min

较新的博文

较旧的博文

Page 146

你的 try/catch 漏掉的 LLM 请求生命周期

长周期评估鸿沟：为什么你的智能体通过了所有基准测试却仍在生产环境中失败

MCP 服务端供应链风险：当你的智能体工具成为攻击向量

生产环境中的 MoE 模型：稠密模型基准测试所掩盖的服务特性

模型指纹识别：在后端模型静默切换破坏你的评估系统前发现它

模型迁移指南：如何在不破坏生产环境的情况下更换基座模型

模型迁移指南：如何在不冻结功能开发的情况下更换基础模型

生产环境中的多模态大模型：没人会预先计算的成本账

N+1 查询问题已经感染了你的 AI Agent

非确定性税：在概率性基础设施上构建可靠的流水线

代理系统的非确定性 CI：为什么二进制的通过/失败模式会失效，以及取而代之的是什么

LLM Agent 中的并行工具调用：你可能尚未意识到的耦合测试

关于 Tian Pan