跳到主要内容

2 篇博文 含有标签「llm-engineering」

查看所有标签

AI 智能体是如何随时间真正学习的

· 阅读需 9 分钟
Tian Pan
Software Engineer

大多数构建 AI 智能体的团队都将模型视为固定不变的产物。你选择一个基础模型,编写提示,连接一些工具,然后发布。如果智能体开始出错,你会调整系统提示或切换到更新的模型。在这种框架下,学习发生在“上游”——在 AI 实验室中,在预训练和 RLHF 阶段——而不是在你的技术栈中。

这是一种错误的思维模型。随着时间推移而改进的智能体,是在三个不同的架构层面上实现这一点的,其中只有一个层面涉及修改模型权重。了解这一区别的团队能够构建出质量持续提升的系统;不了解的团队则会不断手动修补相同的故障模式。

生产环境中的 AI Agent 自主性度量:数据实际揭示了什么

· 阅读需 8 分钟
Tian Pan
Software Engineer

大多数构建 AI Agent 的团队花费数周时间进行部署前评估,却几乎不测量 Agent 在生产环境中实际的行为。这正好本末倒置了。真正重要的指标——Agent 无监督运行的时长、寻求帮助的频率、承担的风险程度——只有在运行时,跨越数千个真实会话之后才能浮现。不去衡量这些,等于盲目飞行。

一项针对数千次生产部署和软件工程会话的大规模研究,揭示了一些真正令人意想不到的发现。呈现出来的图景,与大多数构建者的预期大相径庭。