跳到主要内容

19 篇博文 含有标签「ai-engineering」

查看所有标签

LLM作为裁判:构建真正有效的评估器实用指南

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数 AI 团队都在错误地衡量事物,使用错误的方式,并且让错误的人参与其中。典型的评估设置是这样的:一个 1 到 5 的李克特量表,少量示例,以及一个初级工程师进行数据统计。然后有人会构建一个 LLM 评判者来自动化这个过程——六个月后却想不明白为什么整个系统漏洞百出。

如果方法得当,将 LLM 用作评判者是一种强大的模式。但“方法得当”这个词在句子中承载了大量工作。本文是一个具体的指南,教你如何构建与实际质量相关联、捕获真实回归问题并经受住生产环境考验的评估器。

使用 LLM 构建的一年:该领域的实战经验总结

· 阅读需 11 分钟
Tian Pan
Software Engineer

如今大多数使用 LLM 构建产品的团队都在重复别人一年前犯过的错误。最代价昂贵的错误就是将模型误认为是产品。

在 LLM 驱动的系统(代码生成工具、文档处理器、面向客户的助手、内部知识系统)上线生产环境一年后,从业者积累了一系列辛苦换来的知识,这些知识与炒作周期所暗示的大相径庭。这些教训不在于选择哪个基础模型,或者 RAG 是否优于微调,而在于构建可靠系统的那些枯燥工作:如何评估输出、如何构建工作流、何时投资于基础设施、何时继续迭代提示词,以及如何思考差异化。

这是对这些实战经验的总结。

超越 RAG:混合搜索、智能体检索以及真正重要的数据库设计决策

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数团队将 RAG 上线并称之为检索策略。他们将文档分块、嵌入、存储向量,并在查询时运行最近邻搜索。这在演示中效果足够好。然而在生产环境中,用户开始报告系统找不到他们知道存在的文章、遗漏文档中字面意义上的错误代码,或者返回语义相似但事实错误的内容。

问题不在于 RAG。问题在于将检索视为一个一维问题,而它实际上一直都是多维的。

将 LLM 系统落地生产的血泪经验

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数使用 LLM 构建产品的工程师都经历过相同的轨迹:两天内跑通 demo,六周后生产环境一片混乱。这项技术在真实负载、真实用户和真实数据下的表现截然不同。从中得出的教训不是哲学层面的,而是操作层面的。

在观察了众多公司的团队发布(有时也放弃)LLM 驱动产品之后,一些规律反复出现。这些不是边缘案例,而是普遍经历。

构建生产级 LLM 应用:实际会遇到什么问题

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数 LLM 演示都能正常运行。但大多数生产环境中的 LLM 应用却并非如此——至少不稳定。一个引人注目的原型与能够承受真实用户流量的应用之间的差距,比我接触过的任何其他软件类别都要大,而且故障很少发生在你的预期之中。

这是一份关于容易出现故障的环节的指南:成本、一致性、组合和评估。这不是理论,而是导致团队在首次成功演示三个月后悄然搁置项目的具体问题。

构建能在生产环境中真正运行的 LLM 系统的七种模式

· 阅读需 12 分钟
Tian Pan
Software Engineer

演示总是有效的。用精选的例子提示模型,获得清晰的输出,将截图发给利益相关者。六周后,系统面对真实用户,而演示中的例子却一个都没有出现在生产流量中。

这是每个LLM产品团队最终都会遇到的鸿沟:从“它在我的输入上有效”到“它在我未曾预料的输入上都有效”的飞跃。弥合这一鸿沟的模式并非关于模型选择或提示词的巧妙,而是关于系统设计。七种模式解释了功能原型与可靠生产系统之间的大部分差异。

构建生成式 AI 应用的常见陷阱

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数生成式 AI 项目都以失败告终——并非因为模型本身不好,而是因为团队在技术栈的每个层面都犯了相同且可预测的错误。一项 2025 年的行业分析发现,42% 的公司放弃了他们大部分的 AI 计划,而 95% 的生成式 AI 试点项目未能产生可衡量的业务影响。这些并非模型故障,而是团队本可以避免的工程和产品失败。

本文将列举那些最容易导致 AI 项目失败的陷阱——从问题选择到评估——并结合生产系统中的具体案例进行阐述。