研究型 Agent 设计:为何科学工作流会打破编码 Agent 的底层假设
大多数构建 LLM 驱动科学工具的团队都犯了同一个架构错误:他们直接套用编码 Agent 框架,换上领域专用工具,便将其称作研究型 Agent。事实并非如此。编码 Agent 与研究型 Agent 在表面机制上颇为相似——两者都调用工具,都反复迭代——但它们对成功标准、状态管理和终止条件的底层假设几乎截然相反。将编码 Agent 架构部署到科学工作流中,不仅会产生更差的结果,还会产生看似自信却实为错误的结论,而且这类错误事后几乎无从发现。
这一区别如今尤为紧迫——研究型 Agent 的基准测试正在激增,各团队竞相构建科学 AI,而"直接用编码 Agent"的捷径正在催生大量表面上可信的工具,它们在真实科学场景中失效,而构建者往往并不完全理解失效的原因。
收敛性问题
编码 Agent 以收敛为目标。经典的编码 Agent 循环会持续运行,直到代码通过测试、编译成功或输出符合规格说明。成功是一个布尔值:仓库要么能构建,要么不能。Agent 的任务是缩小状态空间,直到找到那个不动点。
科学研究遵循截然相反的原则。假设不是程序,它不会在测试套件变绿时"通过"——它会随着证据的积累而变得更可信或更不可信。Agent 的任务不是收敛,而是探索,并在证据足够充分时知道何时可以据此行动,何时还需要进一步调查。
这几乎改变了 Agent 循环的全部结构逻辑。当编码 Agent 找到可行方案后终止,其设计是正确的。而当研究型 Agent 找到一个"看似合理"的答案便终止,其设计本质上是危险的——科学史上充满了看似合理却最终被证伪的答案,而研究过程的全部意义正在于突破这些表象。
由此产生三个实践层面的影响:
- 终止标准是开放式的。 你无法为"此假设是否得到充分支持"编写确定性检查。终止需要置信度评分、不确定性量化,通常还需要一个人工介入的关口。
- 矛盾证据必须被追踪,而非消解。 当编码 Agent 遭遇两个相互冲突的工具结果时,其中一个必然是错的,应当丢弃。当研究型 Agent 遭遇两项相互矛盾的研究时,两者都可能是有效的,而这一矛盾本身就具有信息价值。
- 回溯不是失败,而是过程本身。 编码 Agent 回退一项更改是在从错误中恢复。研究型 Agent 放弃一个假设、以不同框架重新出发,恰恰是在做它应该做的事。
编排层的真实面貌
目前生产环境中最成功的研究型 Agent 架构共享一个清晰的模式:一个管理假设状态的粗粒度外部循环,以及一个或多个处理工具执行和证据收集的内部循环。
外部循环维护一个假设库——一份结构化记录,包含候选解释、当前置信度评分,以及影响这些评分的实验。每次迭代要么强化一个假设(补充支持证据)、削弱一个假设(补充反驳证据)、衍生新的候选(证据表明需要换一种框架),要么终止(置信度已足够高且覆盖度充足)。
内部循环是并行或串行工作的专用 Agent:
- 文献 Agent:检索并综合相关论文。这不是简单的 RAG;Agent 需要理解引用的语境(这篇论文是在支持一个论断,还是正是那篇被反驳的论文?)、同时过滤相关性与时效性,并区分共识性发现与争议性论断。
- 实验设计 Agent:将假设转化为可测试的方案——无论是计算机模拟、数据库查询,还是湿实验室场景下给人工操作员的指令。
- 分析 Agent:解读结果并更新假设置信度评分,在结果模糊时明确标记,而不是强行归类。
- 批评 Agent:其唯一职责是寻找当前主导假设可能有误的理由。在生产科研系统中,批评者角色往往最有价值——其他 Agent 因为在推进特定假设而存在隐性的确认偏误,你需要一个对抗性信号来加以平衡。
FutureHouse 的 Robin 系统运行了完整的端到端药物发现工作流,是这一架构的典型示例:三个专用子 Agent(文献综合、分子评估、数据分析)通过一个迭代循环协调——该循环生成假设、验证假设,并在多轮中持续精化。关键的架构选择是:外部循环是显式的——没有任何单一 Agent 能决定研 究是否"完成"。这一判断存在于编排层,而非某个 Agent 内部的推理之中。
引用完整性是一等公民需求
在编码 Agent 设计中,引用的类比物是注释或文档字符串——对人类有用,但不影响正确性。在研究型 Agent 设计中,引用至关重要。它们是溯源链,让人类(或下游 Agent)能够验证某个论断来自真实证据,而非来自模型压缩后的训练数据。
这一区别并非理论层面的。2025 年一项对 NeurIPS 论文的审计发现,53 篇已接收论文中存在超过 100 处幻觉引用——AI 辅助写作生成了"意味正确"的引用(作者、标题、期刊均看似合理),实则并不对应任何真实论文。GPTZero 将这一失效模式命名为"幻觉引用"(vibe citing)。这些引用感觉是对的,但并不是真实的。
在自主运行的研究型 Agent 中,这一问题在结构上比 LLM 辅助写作更为严重。LLM 辅助写作至少有人类在循环中核验引用。而自主研究型 Agent 将幻觉引用传递给下游分析 Agent 后,会产生复合性错误:分析将幻觉论文视为真实证据,后续假设修订将该证据视为有效,最终输出的结论建立在虚无之上。
修复方案是架构层面的,而非单纯的提示工程:
- 落地核查必须在摄取时运行,而非在输出时。 文献 Agent 检索到的每篇论文,在其内容进入假设库之前,都应在真实数据库(Semantic Scholar、PubMed、arXiv)中核验。
- 假设库中的每一个论断都需要溯源指针——不是"文献表明 X",而是"DOI:10.xxxx/xxxx 第 3.2 节指出 X"。
- 分析 Agent 应当标记无法核验的论断,而非无声地将其吸收。一个明确的不确定性注释("该论断无法追溯到主要来源")远比一个事后被证明是幻觉的自信陈述更有价值。
这与编码 Agent 设计有实质性的不同——在编码 Agent 中,你可以直接信任工具输出,因为工具执行是确定性的。通过 LLM 进行文献检索并非确定性的,不能将其当作确定性对待。
"正确答案"的陷阱
研究型 Agent 最深层的失效模式很微妙:它看起来像是成功。
编码 Agent 对照真实结果评估:测试通过或不通过。研究型 Agent 通常对照质量标准评估——报告是否论证合理?是否引用了相关文献?是否识别了关键机制?这些标准在表面上很容易满足。一个模型能够自信地综合出一段听起来合理的叙述,配上看似合理的引用和连贯的论证结构,就能在评分标准上表现良好——而实际上在关键方面是错误的。
PIES 研究型 Agent 幻觉分类(规划、隐性、显性、摘要错误)对此有详细记录。规划错误——Agent 在所有后续阶段中连贯地追求一个错误的假设——最难被发现,因为每一个下游步骤在内部都是一致的。Agent 在任何单次工具调用中都没有犯错;它在初始框架上犯了错,然后无懈可击地执行了那个错误框架。
架构层面的缓解措施是:将假设生成与假设执行分离,并在两者之间插入对抗性验证。不要让生成假设的同一个 Agent 也来评估该假设的证据。这在结构上类比于学术发表中作者与审稿人角色的分离——原因也相同:对一个假设最执着的人,是评估反对证据时最不可靠的人。
真正有效的方法:研究型 Agent 的设计模式
以下是一些在生产环境研究型 Agent 实现中经得起考验的模式:
显式状态机优于无界循环。 与其使用"迭代直到完成"的循环,不如将研究工作流建模为有显式转换的有限状态机:文献综述 → 假设生成 → 实验设计 → 分析 → 假设修订。这使得从检查点恢复、审计运行在失败时所处的状态成为可能,并可在状态转换处强制执行领域约束(例如"在没有至少 N 篇支持性论文的情况下,不得进入实验设计阶段")。
熵感知规划。 早期研究阶段应最大化探索——高温度、宽泛的工具调用、众多候选假设。后期阶段应收敛——低温度、定向工具调用、假设之间的正面比较。一个在整个过程中使用相同温度和探索宽度的研究型 Agent,要么探索不足(早期错过可行假设),要么无法收敛(后期无法聚焦)。将阶段切换内置到编排逻辑中,而非提示词中。
置信度评分是一等公民数据。 假设库中的每个假设都应携带一个置信度评分,该评分随每条证据更新。评分应由专门的评分 Agent 更新,该 Agent 明确推理证据强度——而非从分析 Agent 碰巧使用的语言中推断。"这项研究提供了强有力的支持"不是置信度 评分。0.73 ± 0.12,附有评分标准的指针,才是。
为不确定性证据设置死信队列。 当一个实验产生模糊结果时,研究型 Agent 不应强行归类。将不确定性证据路由到暂挂状态,标记为需要人工审核,并将其追踪为未解决问题,而非将其压缩为二元结论。不确定性证据也是信号——一个持续产生模糊实验的假设,弱于一个产生清晰反驳的假设。
评估需要领域级真实数据
最后一个架构差异:研究型 Agent 需要编码 Agent 不需要的领域专用评估基础设施。
编码 Agent 可以使用通用基准(SWE-bench、HumanEval)进行评估,因为正确性标准——代码是否有效——是领域无关的。研究型 Agent 则不然。生成药物靶点假设的研究型 Agent,需要对照药理学数据库中已知的药物靶点关系进行评估。生成材料科学假设的研究型 Agent,需要对照已知材料属性进行评估。基准本身需要领域专业知识来构建,评估流水线需要特定于研究领域的数据库集成。
这往往是团队在首次部署研究型 Agent 时跳过的环节。他们将基准问题视为次要关切——等 Agent 运转起来再考虑评估。但没有真实数据基准,你无法判断 Agent 是在变得更好,还是只是变得更自信。两者并不相同,而在科学研究中,把一个误认为另一个,正是你最需要避免的错误。
构建研究型 Agent 不是一个叠加在编码 Agent 架构之上的提示工程问题。它需要不同的状态管理、不同的评估基础设施、不同的失效检测,以及对"完成"意味着什么的根本不 同的理解。目前构建最有效科学 Agent 的团队,将这些差异视为一阶设计约束,而非事后补救。
- https://agentlaboratory.github.io/
- https://arxiv.org/abs/2503.24047
- https://arxiv.org/abs/2601.22984
- https://www.futurehouse.org/research-announcements/demonstrating-end-to-end-scientific-discovery-with-robin-a-multi-agent-system
- https://arxiv.org/html/2504.18765v1
- https://aclanthology.org/2025.naacl-long.342.pdf
- https://nature.com/articles/d41586-026-00969-z
- https://gptzero.me/news/neurips/
- https://arxiv.org/html/2503.08979v1
