跳到主要内容

134 篇博文 含有标签「evals」

查看所有标签

使用 LLM 构建的一年:该领域的实战经验总结

· 阅读需 11 分钟
Tian Pan
Software Engineer

如今大多数使用 LLM 构建产品的团队都在重复别人一年前犯过的错误。最代价昂贵的错误就是将模型误认为是产品。

在 LLM 驱动的系统(代码生成工具、文档处理器、面向客户的助手、内部知识系统)上线生产环境一年后,从业者积累了一系列辛苦换来的知识,这些知识与炒作周期所暗示的大相径庭。这些教训不在于选择哪个基础模型,或者 RAG 是否优于微调,而在于构建可靠系统的那些枯燥工作:如何评估输出、如何构建工作流、何时投资于基础设施、何时继续迭代提示词,以及如何思考差异化。

这是对这些实战经验的总结。

AI 智能体评估就绪清单

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数构建 AI 智能体的团队犯了同一个错误:他们在理解失败是什么样子之前,就开始着手评估基础设施。他们构建仪表盘、选择指标、连接评估器——然后发现他们的评估完全测量错了东西。六周后,他们得到了一份绿色的记分卡,但智能体却是坏的。

解决方法不是更多的工具。它是一系列特定的步骤,在你自动化任何事情之前,将你的评估建立在现实基础之上。以下就是这些步骤。