为什么 LLM 在分析你的产品数据时会犯自信的错误
产品团队已经开始直接将分析问题路由给 LLM:“是什么导致了流失率激增?”“为什么重新设计后转化率下降了?”“我们应该把留存预算重点花在哪个群体上?”输出结果出现在高管汇报幻灯片中,驱动着路线图决策,并向投资者展示。模型以优雅的文字和具体的数字自信地作答。然而,这些答案中有很大一部分是以一种不易察觉的方式出错的。
这并不是对用 LLM 处理数据工作的全面批评。在某些任务中,它们确实很有帮助。问题在于其失败模式是隐形的——模型不会留有余地,不会说明局限性,也不会区分“我是根据你的数据计算出来的”和“我生成了一个听起来像这个数字应该是多少的东西”。了解故障发生位置的从业者可以捕捉到真正的价值并避开雷区。
分母问题
产品分析中最常见的错误是对分母处理不当。LLM 在计数问题上表现挣扎——具体来说,是难以理解某个比率或百分比适用于哪个群体。这表现为两种变体。
第一种是直接倒置。当要求 LLM 分析第四季度的购买行为时,它可能会报告“50% 的核心用户在第四季度购买了”,而实际数据却显示“第四季度购买者中有 50% 是核心用户”。数字虽然相同,意义却截然相反。模型生成了听起来符合模式的内容,却没有追踪条件化的方向。
第二种变体是过滤数据集盲区。如果你交给 LLM 一个仅包含查看过新结算流程用户的 CSV 文件,它就无法代表那些没有查看过的群体。它会把这个子集当作完整的用户基数进行分析。当它报告“45% 的转化率”时,实际的分母排除了在看到该功能之前就流失的用户、看到旧流程的用户以及在路由中遇到错误的用户。模型不知道它看不见的东西,而且它也不会问。
在实践中,这意味着 LLM 从过滤或预聚合数据集中报告的任何指标都需要进行显式的分母核实。不能信任模型会追踪哪些行被排除了,以及这些排除是否改变了对数据的解读。
自信的虚假相关性
LLM 会识别统计关联并将其表现为解释性的。当你向它们展示行为数据中的事件序列时,它们会将时间顺序映射为因果关系:功能 X 于 1 月 15 日上线。流失率在 1 月 20 日激增。结论:功能 X 导致了流失激增。
这就是“后此谬误”(post-hoc fallacy)。定量衡量这一点的研究显示,当事件按相反顺序叙述时,因果推理任务的准确率会下降约 32 个百分点。模型的自信程度并不会随着顺序的反转而改变——它在两个方向上都会给出一个自信的错误 答案。
更深层次的问题是混杂变量是隐形的。分析客户折扣数据的 LLM 可能会自信地断言“高折扣客户流失更多”,而没有建立模型来反映折扣是由于产品契合度本来就很差才不成比例地发放给这些客户的。模型看到了相关性并报告了结论。它看不见折扣分配本身是由预测流失的同一因素驱动的。
聚合反转——辛普森悖论(Simpson's Paradox)——加剧了这一问题。一个整体满意度高于竞争对手的产品,在每个单独区域的满意度可能都更低,其整体趋势完全由市场构成驱动。分析聚合数据的 LLM 会将整体趋势报告为发现,而不会按子组进行拆解,也不会提醒子组反转是有可能的。
模型看不见的选择偏见
当你查询行为数据时,你交给 LLM 的数据集总是较大群体中被过滤掉的一个切片。使用了某项功能的用户。提交了支持工单的客户。完成转化的会话。模型无法代表那些从未出现的用户、默默离开的用户或被上游过滤逻辑排除的用户。
这对于留存分析尤为重要。在已经留存了 90 天的用户数据集上执行“向我展示哪些功能与 90 天留存率相关”,这是幸存者分析(survivorship analysis),而不是留存分析。模型会分析幸存者并对导致留存的原因生成自信的结论,而不会指出整个分析群体都是根据结果变量筛选出来的。
调查和反馈数据也存在同样的问题。提交 NPS 评分、流失调查或功能请求的用户与不提交的用户有着系统性的差异。分析提交反馈的 LLM 会将你的用户群刻画为“提交反馈的子集”。如 果核心用户提交反馈而普通用户不提交,你将围绕核心用户的偏好构建产品故事,而你更广泛的用户群则在悄无声息地流失。
如果没有关于被排除内容的显式信息,模型无法自行修正这一点。缓解措施是在提示词中清晰描述数据集的构建方式,并要求模型在得出任何结论之前,先描述分析所适用的群体特征。大多数 LLM 在有明确约束时会遵守这一点;但没有一个会自发地执行它。
幻觉指标
这是一个不同于上述情况的失败模式:LLM 有时会生成数据中根本不存在的具体数字。这是最直接的幻觉类型,但在分析场景中特别危险,因为这些数字看起来非常合理。
“重新设计后转化率从 3.2% 提升到 4.8%”这类陈述很容易通过粗略的阅读。如果实际转化率是 3.5%,而模型根据符合重新设计后“应该”有的提升模式生成了第二个数字,错误将不会在输出本身中显现出来。模型没有机制来区分“我是根据你的数据计算出的”和“我生成了一个符合叙事的数字”。
当 LLM 被用于编写关于预先计算好的仪表板的报告时,风险较低,因为指标是由确定性工具计算的,而 LLM 只是在进行解释。当要求 LLM 直接从原始数据计算指标或描述它们看到的趋势时,风险要高得多。在进入任何决策环节之前,请务必将 LLM 生成的分析中的任何具体数字与源数据进行核实。
当 SQL Gets Generated
- https://arxiv.org/html/2510.04023
- https://arxiv.org/html/2410.23884v1
- https://arxiv.org/html/2406.12158v1
- https://arxiv.org/html/2405.19616v2
- https://pmc.ncbi.nlm.nih.gov/articles/PMC10287014/
- https://arxiv.org/html/2511.14591
- https://www.tinybird.co/blog/why-llms-struggle-with-analytics-and-how-we-fixed-that
- https://towardsai.net/p/machine-learning/engineering-the-semantic-layer-why-llms-need-data-shape-not-just-data-schema
- https://arxiv.org/html/2404.04326v1
- https://arxiv.org/html/2504.05496v1
- https://arxiv.org/html/2502.11028
- https://arxiv.org/html/2508.06225v1
- https://blogs.sas.com/content/iml/2023/03/27/simpsons-paradox.html
