博客

Page 3

12 articles

离职工程师带走的微调产物
微调模型不仅仅是注册表中的一个文件；它是流水线在训练集上的闭包。那些只交付权重的团队，会在需要进行基础模型迁移而原工程师已经离职的那天，发现他们的公交车指数有多低。
mlopsfine-tuning
6月2日12 min
JSON Schema 校验通过了，但下游消费者因语义漂移拒绝了你的输出
JSON Schema 验证的是数据的形状而非含义。当 LLM 升级导致在符合 Schema 的情况下数值分布发生偏移时，下游消费者会遭遇崩溃，而生产者的监控面板却依然显示正常。
insiderllm
6月2日11 min
KV Cache 驱逐：供应商称其为“缓存压力”，而你的账单则称其为“双倍前缀费用”
Prompt 缓存看起来像是一种配置好的折扣，但在共享 LLM 基础设施上的 KV Cache 驱逐使其变成了一种概率性的折扣 —— 在不更改任何代码的情况下，同一个对话在繁忙时段的成本可能会高出数倍。
insiderprompt-caching
6月2日13 min
KV 缓存预热 Cron 任务只在蓝环境运行而从未进入绿环境，原因竟是主机绑定从未迁移
一次蓝绿部署导致固定在旧环境颜色的 Cron 任务孤立，Prompt 缓存变冷，账单悄然翻了三倍 —— 本文剖析了这一静默回归的始末，并提出了四个闭合缝隙的最佳实践。
insiderprompt-caching
6月2日12 min
法律免责声明如何从答案泄露到工具调用参数中
添加到你的系统提示词中的安全免责声明并不仅仅停留在面向用户的回复中。它还会渗透进模型生成的每一个工具调用参数里 —— 并进入这些调用所触发的下游系统中。
llm-agentsprompt-engineering
6月2日10 min
达成共识的 LLM-as-Judge 集成：只因评委都来自同一家族
一个由同一供应商家族构成的 LLM-as-judge 集成，测量的是家族内部的一致性，而非判断质量。所谓的高一致性评分，不过是某种无人提及的供应商选择偏差的产物。
llm-as-judgeevaluation
6月2日11 min
供应商移除的 Logprobs 字段如何静默地破坏了你的置信度路由
一个不再升级低置信度回答的置信度路由，导致该问题的供应商静默层级变更，以及响应结构契约、群体级告警和针对错误故障模式编写的回退机制是如何共同掩盖问题的。
insiderllm
6月2日13 min
供应商上调 max_tokens 默认值，导致你的尾部响应长度翻倍
一家 LLM 供应商悄悄调高了 max_tokens 的默认值，导致你的 p99 输出长度在一夜之间翻了一倍。那些你没有显式传递的参数，往往就是背后发生变化的配置 —— 本文将介绍如何停止继承那些你无法控制的默认设置。
insiderllm
6月2日13 min
那些你的团队遗忘在后台且正使用生产环境凭据运行的 MCP 服务器
在一个运行着 CI 级别 OAuth 令牌的开发人员笔记本电脑上，MCP 服务器就是一个生产环境的攻击面。本文将揭示 DNS 重绑定、错误的绑定以及共享令牌是如何将一个被攻陷的浏览器标签页演变成部署密钥泄露的。
insidermcp
6月2日12 min
模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移
基准测试数字是协议下的测量结果，而协议是由你的供应商控制的。请锁定方法论，或在合同中规定使用你自己的评估套件。
insiderllm
6月2日12 min
供应商将你的模型标识符重定向到特定租户的微调模型，而其他人使用的却是基础模型
如果将 LLM 模型标识符视为权重的名称而非路由决策的标签，那么供应商可能会在评估套件仍保持“绿色”通过状态时，静默地将你的租户从微调模型切换回基础模型，导致客户最先察觉到问题。
insiderllm
6月2日12 min
那个平台团队搭建却无人更新的模型注册表
模型注册表的晋级门槛只有在评审者拥有充足时间、独立证据以及一致的激励机制时才能发挥作用。大多数团队只完成了这套机制的前半部分，却忽略了其余部分，导致注册表沦为一种文书流水线，无论开发者交付什么都会被批准。
mlopsgovernance
6月2日13 min

较新的博文

较旧的博文

Page 3

离职工程师带走的微调产物

JSON Schema 校验通过了，但下游消费者因语义漂移拒绝了你的输出

KV Cache 驱逐：供应商称其为“缓存压力”，而你的账单则称其为“双倍前缀费用”

KV 缓存预热 Cron 任务只在蓝环境运行而从未进入绿环境，原因竟是主机绑定从未迁移

法律免责声明如何从答案泄露到工具调用参数中

达成共识的 LLM-as-Judge 集成：只因评委都来自同一家族

供应商移除的 Logprobs 字段如何静默地破坏了你的置信度路由

供应商上调 max_tokens 默认值，导致你的尾部响应长度翻倍

那些你的团队遗忘在后台且正使用生产环境凭据运行的 MCP 服务器

模型指标卡的基准测试：当你的合同引用该数字时，其方法论已发生偏移

供应商将你的模型标识符重定向到特定租户的微调模型，而其他人使用的却是基础模型

那个平台团队搭建却无人更新的模型注册表

关于 Tian Pan