何时选择 LLM，何时选择简单启发式规则：四因素决策框架

2026年5月7日 · 阅读需 10 分钟

Software Engineer

一家物流公司花费了 80 万美元、历时十二个月，尝试用 AI 优化路线规划。项目结束时，他们的路线效果仅比原有启发式规则略有提升。高管层随后否决了接下来三个 AI 提案。一家外卖公司面临同样的路线问题，却用一套显式业务规则在一个晚上就解决了。

两支团队都学到了一个代价高昂的教训：在实时约束、司机偏好和时间窗口交织的路线优化问题中，AI 并非正确的解法——这是一个组合调度问题。你想要学习的模式并不隐藏在数据里；它们是运营部门的人早就知道的显式领域逻辑。

这种情况在各行各业不断上演。2025 年麻省理工学院的一项研究发现，95% 的企业 AI 试点项目未能产生任何可衡量的业务影响，尽管总投资高达 300 至 400 亿美元。最主要的失败原因不是模型差或数据不足，而是团队在 AI 根本不是正确工具的问题上构建了 AI 解决方案。

"这是 AI 问题吗？"这个问题比看起来难得多。在写一行训练代码或调用一次 LLM 之前，团队需要评估四个不同的因素。跳过这一分析的团队不仅浪费了工程时间，还会在此后数年内损害组织对 AI 的信任。

因素一：信号质量——数据中是否存在可学习的模式？

最常被忽略的评估是：你想学习的模式是否真正存在于数据中。这听起来显而易见，但失败的方式很隐蔽：你的数据看起来很丰富，开发阶段指标也很好，但到了生产环境，模型却在拟合噪声。

信号质量有两个组成部分。第一，预测性特征是否根本存在。对于用户流失预测，会话深度、功能采用率、支持工单频率等行为信号确实与未来取消订阅相关。但对于约束条件不断变化的路线优化，历史训练数据反映的是某个时间点的交通模式和司机可用性快照，每天都在变化——根本没有足够稳定的信号可以学习。

第二，那些信号是否编码在你实际能访问的数据中。预测客户生命周期价值的模型需要丰富的行为历史，而不只是注册元数据。如果你的数据管道捕获了用户做了什么，却没有捕获为什么，那么当上下文发生变化时，模型学到的相关性就会失效。

实践检验方法：领域专家看几个例子能否一致地给出正确答案？如果可以，并且你能捕获让他们做出判断的特征，那就有信号。如果连专家也说不清楚哪些特征驱动了决策，你大概率是在拟合噪声。

在构建模型之前，你需要一个基准来衡量它。很多团队在这里犯了结构性错误：他们将模型与当前的自动化系统（通常很糟糕）比较，而不是与熟练的人类能达到的水平比较。

人类性能确立了该任务可学习内容的上限。如果专家人类达到 95% 的准确率，说明信号足够强，有学习的价值——同时也给出了努力的目标。如果专家人类只能达到 70% 的一致性，你面对的是一个本质上模糊的任务，即便提取了完美的信号也走不远。

更重要的是，人类性能与当前系统之间的差距告诉你 AI 是否在解决正确的问题。如果人类已经达到 94% 的准确率，而你的自动化系统只有 60%，这不是 AI 问题——这是需求捕获问题：达到人类水平性能的规则还没有被系统化整理。一个正确编码了专家判断的规则系统，以极低的成本就能弥补大部分差距。

这很重要，因为 AI 的杠杆来自于将已学习的模式识别规模化——而不是重新推导专家本来就能写下来的规则。后者是工程问题，不是机器学习问题。

数据可用性的评估，不能仅仅停留在"我们有数据"，还需要回答三个更具体的问题。

数量：有监督学习通常需要数千个标注样本，模式才能可靠地泛化。对于许多企业用例，这是可以实现的；对于利基的内部工作流，往往做不到。一个实用的经验法则是：标注样本不足几百个时，调优好的规则系统会胜过训练出的模型，且维护成本要低得多。

代表性：训练数据必须反映生产环境中将遇到的输入分布。这比团队预期的更容易出问题。在产品扩张之前用历史交易训练的欺诈检测模型，没有见过新用户群体的行为。用英文文本训练的内容审核模型，一旦用户开始用其他语言发帖就会立即退化。

标注质量：标注噪声对模型的伤害，往往比标注稀少更严重。如果你的训练数据是由本身存在系统性错误的流程标注的——大多数自动化标注管道都是如此——那么模型会忠实地学习这些错误。审查标注质量是枯燥的工作，大多数团队都拖到模型在生产中表现不佳之后才去做。

当这些维度中有任何一个不达标时，阻力最小的路径看起来是收集更多数据、增加更多标注预算或更精细的预处理——这些都会拖延项目，却很少能解决根本问题。

加载中…

References:

Let's stay in touch and Follow me for more thoughts and updates