研究型 Agent 设计：为何科学工作流会打破编码 Agent 的底层假设

2026年4月16日 · 阅读需 11 分钟

Software Engineer

大多数构建 LLM 驱动科学工具的团队都犯了同一个架构错误：他们直接套用编码 Agent 框架，换上领域专用工具，便将其称作研究型 Agent。事实并非如此。编码 Agent 与研究型 Agent 在表面机制上颇为相似——两者都调用工具，都反复迭代——但它们对成功标准、状态管理和终止条件的底层假设几乎截然相反。将编码 Agent 架构部署到科学工作流中，不仅会产生更差的结果，还会产生看似自信却实为错误的结论，而且这类错误事后几乎无从发现。

这一区别如今尤为紧迫——研究型 Agent 的基准测试正在激增，各团队竞相构建科学 AI，而"直接用编码 Agent"的捷径正在催生大量表面上可信的工具，它们在真实科学场景中失效，而构建者往往并不完全理解失效的原因。

收敛性问题

编码 Agent 以收敛为目标。经典的编码 Agent 循环会持续运行，直到代码通过测试、编译成功或输出符合规格说明。成功是一个布尔值：仓库要么能构建，要么不能。Agent 的任务是缩小状态空间，直到找到那个不动点。

科学研究遵循截然相反的原则。假设不是程序，它不会在测试套件变绿时"通过"——它会随着证据的积累而变得更可信或更不可信。Agent 的任务不是收敛，而是探索，并在证据足够充分时知道何时可以据此行动，何时还需要进一步调查。

这几乎改变了 Agent 循环的全部结构逻辑。当编码 Agent 找到可行方案后终止，其设计是正确的。而当研究型 Agent 找到一个"看似合理"的答案便终止，其设计本质上是危险的——科学史上充满了看似合理却最终被证伪的答案，而研究过程的全部意义正在于突破这些表象。

由此产生三个实践层面的影响：

终止标准是开放式的。 你无法为"此假设是否得到充分支持"编写确定性检查。终止需要置信度评分、不确定性量化，通常还需要一个人工介入的关口。
矛盾证据必须被追踪，而非消解。 当编码 Agent 遭遇两个相互冲突的工具结果时，其中一个必然是错的，应当丢弃。当研究型 Agent 遭遇两项相互矛盾的研究时，两者都可能是有效的，而这一矛盾本身就具有信息价值。
回溯不是失败，而是过程本身。 编码 Agent 回退一项更改是在从错误中恢复。研究型 Agent 放弃一个假设、以不同框架重新出发，恰恰是在做它应该做的事。

编排层的真实面貌

目前生产环境中最成功的研究型 Agent 架构共享一个清晰的模式：一个管理假设状态的粗粒度外部循环，以及一个或多个处理工具执行和证据收集的内部循环。

外部循环维护一个假设库——一份结构化记录，包含候选解释、当前置信度评分，以及影响这些评分的实验。每次迭代要么强化一个假设（补充支持证据）、削弱一个假设（补充反驳证据）、衍生新的候选（证据表明需要换一种框架），要么终止（置信度已足够高且覆盖度充足）。

内部循环是并行或串行工作的专用 Agent：

文献 Agent：检索并综合相关论文。这不是简单的 RAG；Agent 需要理解引用的语境（这篇论文是在支持一个论断，还是正是那篇被反驳的论文？）、同时过滤相关性与时效性，并区分共识性发现与争议性论断。
实验设计 Agent：将假设转化为可测试的方案——无论是计算机模拟、数据库查询，还是湿实验室场景下给人工操作员的指令。
分析 Agent：解读结果并更新假设置信度评分，在结果模糊时明确标记，而不是强行归类。
批评 Agent：其唯一职责是寻找当前主导假设可能有误的理由。在生产科研系统中，批评者角色往往最有价值——其他 Agent 因为在推进特定假设而存在隐性的确认偏误，你需要一个对抗性信号来加以平衡。

FutureHouse 的 Robin 系统运行了完整的端到端药物发现工作流，是这一架构的典型示例：三个专用子 Agent（文献综合、分子评估、数据分析）通过一个迭代循环协调——该循环生成假设、验证假设，并在多轮中持续精化。关键的架构选择是：外部循环是显式的——没有任何单一 Agent 能决定研究是否"完成"。这一判断存在于编排层，而非某个 Agent 内部的推理之中。

引用完整性是一等公民需求

在编码 Agent 设计中，引用的类比物是注释或文档字符串——对人类有用，但不影响正确性。在研究型 Agent 设计中，引用至关重要。它们是溯源链，让人类（或下游 Agent）能够验证某个论断来自真实证据，而非来自模型压缩后的训练数据。

这一区别并非理论层面的。2025 年一项对 NeurIPS 论文的审计发现，53 篇已接收论文中存在超过 100 处幻觉引用——AI 辅助写作生成了"意味正确"的引用（作者、标题、期刊均看似合理），实则并不对应任何真实论文。GPTZero 将这一失效模式命名为"幻觉引用"（vibe citing）。这些引用感觉是对的，但并不是真实的。

在自主运行的研究型 Agent 中，这一问题在结构上比 LLM 辅助写作更为严重。LLM 辅助写作至少有人类在循环中核验引用。而自主研究型 Agent 将幻觉引用传递给下游分析 Agent 后，会产生复合性错误：分析将幻觉论文视为真实证据，后续假设修订将该证据视为有效，最终输出的结论建立在虚无之上。

修复方案是架构层面的，而非单纯的提示工程：

落地核查必须在摄取时运行，而非在输出时。 文献 Agent 检索到的每篇论文，在其内容进入假设库之前，都应在真实数据库（Semantic Scholar、PubMed、arXiv）中核验。
假设库中的每一个论断都需要溯源指针——不是"文献表明 X"，而是"DOI:10.xxxx/xxxx 第 3.2 节指出 X"。
分析 Agent 应当标记无法核验的论断，而非无声地将其吸收。一个明确的不确定性注释（"该论断无法追溯到主要来源"）远比一个事后被证明是幻觉的自信陈述更有价值。

这与编码 Agent 设计有实质性的不同——在编码 Agent 中，你可以直接信任工具输出，因为工具执行是确定性的。通过 LLM 进行文献检索并非确定性的，不能将其当作确定性对待。

"正确答案"的陷阱

研究型 Agent 最深层的失效模式很微妙：它看起来像是成功。

编码 Agent 对照真实结果评估：测试通过或不通过。研究型 Agent 通常对照质量标准评估——报告是否论证合理？是否引用了相关文献？是否识别了关键机制？这些标准在表面上很容易满足。一个模型能够自信地综合出一段听起来合理的叙述，配上看似合理的引用和连贯的论证结构，就能在评分标准上表现良好——而实际上在关键方面是错误的。

PIES 研究型 Agent 幻觉分类（规划、隐性、显性、摘要错误）对此有详细记录。规划错误——Agent 在所有后续阶段中连贯地追求一个错误的假设——最难被发现，因为每一个下游步骤在内部都是一致的。Agent 在任何单次工具调用中都没有犯错；它在初始框架上犯了错，然后无懈可击地执行了那个错误框架。

架构层面的缓解措施是：将假设生成与假设执行分离，并在两者之间插入对抗性验证。不要让生成假设的同一个 Agent 也来评估该假设的证据。这在结构上类比于学术发表中作者与审稿人角色的分离——原因也相同：对一个假设最执着的人，是评估反对证据时最不可靠的人。

真正有效的方法：研究型 Agent 的设计模式

以下是一些在生产环境研究型 Agent 实现中经得起考验的模式：

显式状态机优于无界循环。 与其使用"迭代直到完成"的循环，不如将研究工作流建模为有显式转换的有限状态机：文献综述 → 假设生成 → 实验设计 → 分析 → 假设修订。这使得从检查点恢复、审计运行在失败时所处的状态成为可能，并可在状态转换处强制执行领域约束（例如"在没有至少 N 篇支持性论文的情况下，不得进入实验设计阶段"）。

熵感知规划。 早期研究阶段应最大化探索——高温度、宽泛的工具调用、众多候选假设。后期阶段应收敛——低温度、定向工具调用、假设之间的正面比较。一个在整个过程中使用相同温度和探索宽度的研究型 Agent，要么探索不足（早期错过可行假设），要么无法收敛（后期无法聚焦）。将阶段切换内置到编排逻辑中，而非提示词中。

置信度评分是一等公民数据。 假设库中的每个假设都应携带一个置信度评分，该评分随每条证据更新。评分应由专门的评分 Agent 更新，该 Agent 明确推理证据强度——而非从分析 Agent 碰巧使用的语言中推断。"这项研究提供了强有力的支持"不是置信度评分。0.73 ± 0.12，附有评分标准的指针，才是。

为不确定性证据设置死信队列。 当一个实验产生模糊结果时，研究型 Agent 不应强行归类。将不确定性证据路由到暂挂状态，标记为需要人工审核，并将其追踪为未解决问题，而非将其压缩为二元结论。不确定性证据也是信号——一个持续产生模糊实验的假设，弱于一个产生清晰反驳的假设。

评估需要领域级真实数据

最后一个架构差异：研究型 Agent 需要编码 Agent 不需要的领域专用评估基础设施。

编码 Agent 可以使用通用基准（SWE-bench、HumanEval）进行评估，因为正确性标准——代码是否有效——是领域无关的。研究型 Agent 则不然。生成药物靶点假设的研究型 Agent，需要对照药理学数据库中已知的药物靶点关系进行评估。生成材料科学假设的研究型 Agent，需要对照已知材料属性进行评估。基准本身需要领域专业知识来构建，评估流水线需要特定于研究领域的数据库集成。

这往往是团队在首次部署研究型 Agent 时跳过的环节。他们将基准问题视为次要关切——等 Agent 运转起来再考虑评估。但没有真实数据基准，你无法判断 Agent 是在变得更好，还是只是变得更自信。两者并不相同，而在科学研究中，把一个误认为另一个，正是你最需要避免的错误。

构建研究型 Agent 不是一个叠加在编码 Agent 架构之上的提示工程问题。它需要不同的状态管理、不同的评估基础设施、不同的失效检测，以及对"完成"意味着什么的根本不同的理解。目前构建最有效科学 Agent 的团队，将这些差异视为一阶设计约束，而非事后补救。

References:

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

研究型 Agent 设计：为何科学工作流会打破编码 Agent 的底层假设

收敛性问题

编排层的真实面貌

引用完整性是一等公民需求

"正确答案"的陷阱

真正有效的方法：研究型 Agent 的设计模式

评估需要领域级真实数据

Recommended Reading

关于 Tian Pan

收敛性问题​

编排层的真实面貌​

引用完整性是一等公民需求​

"正确答案"的陷阱​

真正有效的方法：研究型 Agent 的设计模式​

评估需要领域级真实数据​

Recommended Reading

关于 Tian Pan

收敛性问题

编排层的真实面貌

引用完整性是一等公民需求

"正确答案"的陷阱

真正有效的方法：研究型 Agent 的设计模式

评估需要领域级真实数据