跳到主要内容

27 篇博文 含有标签「evaluation」

查看所有标签

将 LLM 系统落地生产的血泪经验

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数使用 LLM 构建产品的工程师都经历过相同的轨迹:两天内跑通 demo,六周后生产环境一片混乱。这项技术在真实负载、真实用户和真实数据下的表现截然不同。从中得出的教训不是哲学层面的,而是操作层面的。

在观察了众多公司的团队发布(有时也放弃)LLM 驱动产品之后,一些规律反复出现。这些不是边缘案例,而是普遍经历。

构建生产级 LLM 应用:实际会遇到什么问题

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数 LLM 演示都能正常运行。但大多数生产环境中的 LLM 应用却并非如此——至少不稳定。一个引人注目的原型与能够承受真实用户流量的应用之间的差距,比我接触过的任何其他软件类别都要大,而且故障很少发生在你的预期之中。

这是一份关于容易出现故障的环节的指南:成本、一致性、组合和评估。这不是理论,而是导致团队在首次成功演示三个月后悄然搁置项目的具体问题。

构建生成式 AI 应用的常见陷阱

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数生成式 AI 项目都以失败告终——并非因为模型本身不好,而是因为团队在技术栈的每个层面都犯了相同且可预测的错误。一项 2025 年的行业分析发现,42% 的公司放弃了他们大部分的 AI 计划,而 95% 的生成式 AI 试点项目未能产生可衡量的业务影响。这些并非模型故障,而是团队本可以避免的工程和产品失败。

本文将列举那些最容易导致 AI 项目失败的陷阱——从问题选择到评估——并结合生产系统中的具体案例进行阐述。