跳到主要内容

83 篇博文 含有标签「llm」

查看所有标签

使用 LLM 构建的一年:该领域的实战经验总结

· 阅读需 11 分钟
Tian Pan
Software Engineer

如今大多数使用 LLM 构建产品的团队都在重复别人一年前犯过的错误。最代价昂贵的错误就是将模型误认为是产品。

在 LLM 驱动的系统(代码生成工具、文档处理器、面向客户的助手、内部知识系统)上线生产环境一年后,从业者积累了一系列辛苦换来的知识,这些知识与炒作周期所暗示的大相径庭。这些教训不在于选择哪个基础模型,或者 RAG 是否优于微调,而在于构建可靠系统的那些枯燥工作:如何评估输出、如何构建工作流、何时投资于基础设施、何时继续迭代提示词,以及如何思考差异化。

这是对这些实战经验的总结。

AI Agent 的工作原理:架构、规划和失败模式

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数智能体故障都是架构故障。当任务偏离轨道时,模型往往会受到指责,但十有八九,真正的问题在于没有人充分思考规划、工具使用和反思应该如何协同工作。即使你换一个更好的模型,仍然可能会遇到同样的崩溃——因为模型周围的支架从未被设计成处理模型被要求完成的任务。

本文是一份关于智能体内部实际工作原理的实用指南:核心组件是什么,规划在哪里出错,反思循环如何帮助(以及何时会损害),以及当你为生产而非演示构建多智能体系统时它们会是什么样子。

将 LLM 系统落地生产的血泪经验

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数使用 LLM 构建产品的工程师都经历过相同的轨迹:两天内跑通 demo,六周后生产环境一片混乱。这项技术在真实负载、真实用户和真实数据下的表现截然不同。从中得出的教训不是哲学层面的,而是操作层面的。

在观察了众多公司的团队发布(有时也放弃)LLM 驱动产品之后,一些规律反复出现。这些不是边缘案例,而是普遍经历。

构建生产级 LLM 应用:实际会遇到什么问题

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数 LLM 演示都能正常运行。但大多数生产环境中的 LLM 应用却并非如此——至少不稳定。一个引人注目的原型与能够承受真实用户流量的应用之间的差距,比我接触过的任何其他软件类别都要大,而且故障很少发生在你的预期之中。

这是一份关于容易出现故障的环节的指南:成本、一致性、组合和评估。这不是理论,而是导致团队在首次成功演示三个月后悄然搁置项目的具体问题。

LLM 驱动的自主智能体:实现真正自主的架构

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数声称在“生产环境中有智能体”的团队其实没有。调查一致显示,大约 57% 的工程组织已经部署了 AI 智能体——但当你应用严格的标准(LLM 必须能够规划、行动、观察反馈并根据结果进行调整)时,只有 16% 的企业部署和 27% 的初创公司部署符合真正的智能体标准。其余的只是加装了工具调用功能的“美化版”聊天机器人。

这种差距不在于模型能力,而在于架构。真正的自主智能体需要三个相互关联、协同工作的子系统:规划、记忆和工具使用。大多数实现只正确地完成了其中一个,部分实现了第二个,却忽略了第三个。结果是系统在演示中表现出色,但在生产环境中却会不可预测地失败。

构建能在生产环境中真正运行的 LLM 系统的七种模式

· 阅读需 12 分钟
Tian Pan
Software Engineer

演示总是有效的。用精选的例子提示模型,获得清晰的输出,将截图发给利益相关者。六周后,系统面对真实用户,而演示中的例子却一个都没有出现在生产流量中。

这是每个LLM产品团队最终都会遇到的鸿沟:从“它在我的输入上有效”到“它在我未曾预料的输入上都有效”的飞跃。弥合这一鸿沟的模式并非关于模型选择或提示词的巧妙,而是关于系统设计。七种模式解释了功能原型与可靠生产系统之间的大部分差异。

构建生成式 AI 应用的常见陷阱

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数生成式 AI 项目都以失败告终——并非因为模型本身不好,而是因为团队在技术栈的每个层面都犯了相同且可预测的错误。一项 2025 年的行业分析发现,42% 的公司放弃了他们大部分的 AI 计划,而 95% 的生成式 AI 试点项目未能产生可衡量的业务影响。这些并非模型故障,而是团队本可以避免的工程和产品失败。

本文将列举那些最容易导致 AI 项目失败的陷阱——从问题选择到评估——并结合生产系统中的具体案例进行阐述。

AI 智能体评估就绪清单

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数构建 AI 智能体的团队犯了同一个错误:他们在理解失败是什么样子之前,就开始着手评估基础设施。他们构建仪表盘、选择指标、连接评估器——然后发现他们的评估完全测量错了东西。六周后,他们得到了一份绿色的记分卡,但智能体却是坏的。

解决方法不是更多的工具。它是一系列特定的步骤,在你自动化任何事情之前,将你的评估建立在现实基础之上。以下就是这些步骤。

Agent 驾驭系统剖析

· 阅读需 10 分钟
Tian Pan
Software Engineer

多数构建 AI 代理的工程师将 80% 的时间花在思考使用哪种模型上,20% 的时间花在其他所有事情上。这个比例应该反过来。模型在这一点上几乎是可以互换的——决定你的代理是否能在生产环境中实际工作的是“线束(harness)”。

这个等式很简单:**代理 = 模型 + 线束。**如果你不是模型,你就是线束。而几乎所有真正的工程工作都存在于线束中。

例程与交接:每个可靠多智能体系统背后的两个基本原语

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数多智能体系统的失败,不是因为模型出了问题,而是因为"管道"存在漏洞。智能体在任务执行中途丢失上下文,将任务移交给错误的专家,或者因为不知道如何退出而陷入无限循环。根本原因几乎总是相同的:系统设计只关注每个智能体能做什么,却没有清晰定义工作如何在它们之间流转

两个原语可以解决大部分问题:例程(routines)和交接(handoffs)。它们看似简单,但把它们做对,是一个能演示的系统和一个能上线的系统之间的关键区别。

构建高效AI智能体:真正能在生产环境落地的架构模式

· 阅读需 11 分钟
Tian Pan
Software Engineer

大多数AI智能体项目失败,并非因为模型能力不足——而是因为构建这些系统的工程师在尚未积累足够经验时就急于引入复杂性。通过对数十个生产环境部署案例的深入研究,一个清晰的规律浮现出来:那些成功落地可靠智能体的团队,都从最简单的系统出发,只有在指标数据确实需要时才增加复杂度。

本文将系统梳理那些能将稳健智能体系统与容易幻觉、陷入循环、在真实负载下崩溃的系统区分开来的核心思维模型、架构模式和实践技巧。