2 篇博文含有标签「llm-architecture」

你的工具目录遵循幂律分布，而你却在针对长尾进行优化

2026年4月27日 · 阅读需 13 分钟

Software Engineer

调取任何生产环境智能体（agent）的一周工具调用追踪（tool-call traces），你会发现其规律如出一辙：三四个工具处理了 90% 的调用，其余数十个工具则瓜分了剩下的 10%。工具目录呈现幂律分布（power law），但框架却将其视为均匀列表。每个工具描述都会出现在每个系统提示词（system prompt）中，每个选择准则都对工具一视同仁，每个评估（eval）在对目录进行采样时，都仿佛 search-files 调用和 refund-issue 调用来自同一分布。事实并非如此。

这种“扁平化”处理的代价在爆发前往往是隐形的。团队增加第 18 个工具，规划器（planner）对最初三个工具的准确率下降了两个百分点，却没人能将这种退化归因于特定变更，因为所有指标都同时发生了偏移。而评估套件本身在目录中也是均匀分布的，它将这些下滑平均成一个看起来依然正常的数字。与此同时，本轮对话中模型不会调用的工具描述所消耗的 token，已经超过了用户实际提示词的 token。

10倍提示工程师的神话：为什么系统设计比提示词打磨更重要

2026年4月13日 · 阅读需 9 分钟

Tian Pan

Software Engineer

在AI工程领域，有一种持久的信念：一个平庸的LLM应用和一个优秀的LLM应用之间的差距，归结于提示词的精心打磨。团队雇佣"提示工程师"，对措辞进行数十次A/B测试，花好几周纠结"你必须"是否比"请确保"表现更好。与此同时，检索管道输入的是垃圾上下文，没有输出验证，错误处理策略是"希望模型能搞定"。

数据讲述了一个不同的故事。典型LLM应用的前五小时提示词工作带来大约35%的提升。接下来的二十小时带来5%。再接下来的四十小时？大约1%。那些早期认识到这条曲线并将精力重新导向系统设计的团队，始终优于那些持续打磨提示词的团队。

关于 Tian Pan