3 篇博文含有标签「self-hosting」

大多数团队都会搞错的 LLM 基础设施“自研还是购买”决策

2026年4月15日 · 阅读需 12 分钟

Software Engineer

一家金融科技团队基于 GPT-4o 构建了他们的 AI 聊天机器人。第一个月：1.5 万美元。第二个月：3.5 万美元。第三个月：6 万美元。预计年支出将达到 70 万美元，他们慌了，并决定转向自托管。六个月后，在耗尽了一名工程师的精力后，他们每月在基础设施、一名兼职 DevOps 工程师以及三次导致生产环境宕机的 CUDA 事故上花费 8.5 万美元。他们最终将开支降到了每月 8000 美元 —— 但并不是通过全盘自托管实现的，而是通过智能路由。

这两个决定都是错误的。真正的失败在于他们从未进行过实际的成本核算。

开源权重模型的生产实践：自托管何时真正优于 API

2026年4月13日 · 阅读需 10 分钟

Tian Pan

Software Engineer

每隔几个月，团队里就会有人转发一篇关于 Llama 或 Qwen 在某个基准测试上"媲美 GPT-4"的博客文章，然后不可避免地提出这个问题："既然我们可以自己运行，为什么还要为 API 调用付费？"在草稿纸上算一算，这个数字看起来很有吸引力。但现实是，大多数尝试自托管的团队最终花费反而更多——不是因为模型不好，而是他们低估了模型之外的所有成本。

话虽如此，在某些特定场景下，自托管开源权重模型确实是明确正确的选择。关键在于认清你实际所处的场景，而不是你希望自己所处的场景。

生产环境下的自托管 LLM：没人告诉你的 GPU 显存计算公式

2026年4月10日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数决定自托管 LLM 的工程师都会从同样的计算开始：模型有 70B 参数，FP16 每参数 2 字节，所以是 140 GB。他们检查发现两块 A100-80GB GPU 能容纳 160 GB，感到很满意，于是订购了硬件。然后进入生产环境，却发现还没服务一个真实用户，显存（VRAM）就已经耗尽了。

模型权重只是故事的一部分。让几乎每个团队都感到意外的部分是 KV 缓存（KV cache）—— 理解它会改变你的每一个决定，从量化选择到推理框架，再到你实际需要的 GPU 数量。

关于 Tian Pan