跳到主要内容

720 篇博文 含有标签「llm」

查看所有标签

开源权重模型的生产实践:自托管何时真正优于 API

· 阅读需 10 分钟
Tian Pan
Software Engineer

每隔几个月,团队里就会有人转发一篇关于 Llama 或 Qwen 在某个基准测试上"媲美 GPT-4"的博客文章,然后不可避免地提出这个问题:"既然我们可以自己运行,为什么还要为 API 调用付费?"在草稿纸上算一算,这个数字看起来很有吸引力。但现实是,大多数尝试自托管的团队最终花费反而更多——不是因为模型不好,而是他们低估了模型之外的所有成本。

话虽如此,在某些特定场景下,自托管开源权重模型确实是明确正确的选择。关键在于认清你实际所处的场景,而不是你希望自己所处的场景。

后框架时代:用 API 客户端和 While 循环构建智能体

· 阅读需 8 分钟
Tian Pan
Software Engineer

当今生产环境中最有效的 AI 智能体看起来与框架演示完全不同。它们不是拥有十七种节点类型的有向无环图,也不是通过消息总线协调的多智能体集群。它们是一个提示词、一个工具列表和一个 while 循环——它们比框架重型的对手交付更快、故障更少、维护成本更低。

这不是为了标新立异。这是一个又一个团队在花费数周时间进行框架迁移、抽象调试和 DSL 考古之后得出的结论。这种模式如此一致,值得给它一个名字:后框架时代。

对非确定性 AI 功能进行 A/B 测试:为何你的实验框架假设了错误的零假设

· 阅读需 12 分钟
Tian Pan
Software Engineer

你的 A/B 测试框架是为按钮和横幅颜色而生的。它假设当你向用户展示变体 B 时,变体 B 每次的行为都相同。这个假设是如此根本,以至于没有人费心去明说它。然而对于 AI 功能而言,这个假设完全是错的。

当处理本身是非确定性的——当同一个提示每次请求都会产生不同的输出时——你试图测量的方差被你无意中制造的方差所掩盖。大多数团队都是经历了惨痛教训才意识到这一点:本应在一周内达到显著性的实验跑了一个月;周二看起来显著的结果到周四又逆转了;而"获胜"的变体在推广到 100% 流量后却毫无提升。

这不是一个小小的统计干扰问题,而是实验平台的工作方式与 LLM 驱动功能的实际行为之间的结构性错配。

AI 演示跳过的五个关卡:LLM 功能发布就绪清单

· 阅读需 14 分钟
Tian Pan
Software Engineer

AI 功能发布中存在一个重复出现的模式:演示(demo)惊艳全场,功能正式上线,两周内发生了一些灾难性的事情。不是宕机——那些很容易捕捉。而是一些更微妙的事情:模型自信地生成错误信息,成本飙升到预期三倍,或者在真实负载下延迟激增导致功能无法使用。团队手忙脚乱,功能被悄悄禁用,大家一致同意“下次做得更好”。

问题不在于演示做得不好。问题在于演示成了唯一被重视的测试。

AI 融入 SRE 循环:哪些有效、哪些失效,以及边界在哪里

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数线上故障的失败,并非因为缺乏工具,而是因为值班工程师在最需要的时刻无法快速获得足够的上下文。凌晨三点,工程师被一墙的触发告警惊醒,先花 20 分钟拼凑出到底哪里出了问题,再花 20 分钟判断该用哪份运维手册,等到真正开始执行修复时,故障已经持续了将近一个小时。而实际的修复动作可能只需要 5 分钟。

AI 能够将这个上下文收集窗口从 40 分钟压缩到 2 分钟以内。这才是真正摆在桌面上的价值。但"LLM 帮助值班工程师"并不是一个单一的产品决策,而是一系列决策的叠加,每一层都有其独特的失效模式,而某些失效模式的后果,远比客服聊天机器人幻觉严重得多。

构建多语言 AI 产品:没人衡量的质量悬崖

· 阅读需 13 分钟
Tian Pan
Software Engineer

你的 AI 产品在评估套件中获得了 82% 的分数。你向 40 个国家发布了产品。三个月后,法国和德国用户报告的质量与英语用户相似。印地语和阿拉伯语用户则悄悄停止了使用该功能。你的综合满意度评分几乎没有波动 —— 因为英语用户主导了指标池。悬崖一直都在。你只是没有测量它。

这是大多数发布多语言 AI 产品的团队都会遇到的典型情况。质量差距并非微乎其微。像 QwQ-32B 这样的最先进模型,在英语推理基准测试中分数为 70.7%,但在斯瓦希里语中则下降到 32.8% —— 这是 2025 年测试的最佳模型在性能上的 54% 相对崩溃。而且这还是 最佳 模型。这种差距并不会随着模型变大而消失。它在高资源语言中会缩小,但在其他语言中依然很大。

能力激发:让大语言模型用好它已知道的一切

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数提示工程的努力都集中在让指令更清晰上:更精准的动词、更好的格式、更明确的约束。这确实有效——在某种程度上。但生产级 AI 系统的瓶颈往往不是指令清晰度,而是模型明明拥有相关知识和能力,却根本没有将其激活。

这就是提示工程与能力激发的本质区别。提示工程优化的是你如何提问,能力激发优化的是模型在回答时从自身权重中调取了什么。这一区别至关重要,因为两者的失败方式截然不同:提示工程失败时,你得到的是格式混乱或答非所问的回复;激发失败时,你得到的是格式完美、措辞自信,却错过了模型明明具备的洞察力的回复。

能力激发 vs. 提示工程:让模型调用它已经掌握的知识

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数团队在优化 LLM 提示词时,其实在解决一个错误的问题。他们花好几周打磨指令的措辞——调整用词、重排约束条件、改变语气——而真正的瓶颈却在于:模型其实已经知道如何完成这个任务,只是你的提示词从未触发正确的能力路径。

这就是提示工程与能力激发之间的本质区别。提示工程解决的是"如何表达你想要什么",而能力激发解决的是"如何唤醒模型已有的能力"。这一区分至关重要,因为两者的修复方式截然不同——误判问题所在,会让你在错误的方向上白白迭代数月。

AI 系统中的差分隐私:'我们添加了噪声'究竟意味着什么

· 阅读需 13 分钟
Tian Pan
Software Engineer

大多数将"差分隐私"视为合规复选框的团队实际上并没有得到保护。他们在流水线的某个环节添加了噪声——也许是在微调时添加到梯度上,也许是在检索时添加到查询嵌入上——然后得出结论认为问题已经解决。合规文档写着"已启用 DP",工程团队继续前进。

他们没有做的是:定义 epsilon 预算、核算系统将服务的每一次查询所消耗的预算,或者验证其隐私损失是否受到有效约束。在实践中,"我们添加了噪声"与"我们拥有有意义的隐私保证"之间的差距,正是大多数现实世界 AI 隐私事件发生的地方。

本文就是关于这个差距的:差分隐私对 LLM 实际承诺了什么,这些承诺在哪里失效,以及团队做出的工程决策——通常是隐性的——如何决定他们的 DP 部署是真正的保护还是表面文章。

动态少样本检索:为什么你的静态示例正在损耗准确率

· 阅读需 12 分钟
Tian Pan
Software Engineer

当一个团队在系统提示开头硬编码三个示例输入输出对时,这看起来是合理的工程决策。这些示例经过人工验证,格式统一,模型行为也可预期地有所改善。六个月后,同样这三个示例还在那里——能很好地覆盖 30% 的输入查询,其余的则是敷衍了事,而且没有人去统计到底哪些是哪些。

静态少样本提示是生产 LLM 系统中最被忽视的性能黑洞。另一种方案——根据查询的语义相似度按需选择示例——在各类任务中的质量表现持续优于固定示例,差距往往达到两位数百分比。但这个迁移过程既不免费,也不无风险,而且动态方案的失败模式比静态方案更难察觉。

本文将介绍研究数据的实际结论、生产中检索栈的工作方式、大多数从业者忽视的排序和投毒风险,以及静态示例应该获胜的具体场景。

大规模 LLM 内容审核:为什么它不仅仅是另一个分类器

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数团队构建内容审核的方式都是错误的:他们将单个 LLM 或微调后的分类器连接到每一条用户生成内容,眼睁睁地看着延迟飙升至平台可接受的阈值之上,然后手忙脚乱地添加缓存。问题不在于缓存——而在于架构。生产规模的内容审核需要的是级联(cascade)系统,而不是单一系统,而这些阶段之间的边界决策才是大多数生产事故的根源。

这里有一个具体的数据,它将改变你对这一问题的看法:在生产级联系统中,将 97.5% 的安全内容通过轻量级检索步骤进行路由,同时仅针对风险最高的 2.5% 样本调用前沿 LLM,可以将推理成本降低到朴素全 LLM 部署的 1.5% 左右,同时还能将 F1 分数提高 66.5 点。这不仅仅是一个边际优化,而是一个架构上的必然选择。

LLM 输出即 API 契约:为下游消费者版本化结构化响应

· 阅读需 11 分钟
Tian Pan
Software Engineer

2023 年,斯坦福大学和加州大学伯克利分校的研究团队做了一项受控实验:他们在 3 月和 6 月分别向 GPT-4 提交了完全相同的提示词,任务非常基础——判断一个数字是否为质数。3 月时,GPT-4 的准确率为 84%。到了 6 月,使用完全相同的 API 端点和完全相同的模型别名,准确率已跌至 51%。没有变更日志,没有通知,没有传统意义上的破坏性变更。

这项实验清晰地揭示了一个在多服务架构中部署 LLM 的团队迟早都会遇到的问题:模型别名不是稳定的契约。当你的下游支付处理器、推荐引擎或合规系统依赖 LLM 生成的结构化 JSON 时,你就建立了一个隐式的 API 契约——而隐式契约会悄无声息地崩溃。