为什么你的 AI 听起来不对劲，即使技术上完全正确

2026年5月4日 · 阅读需 10 分钟

Software Engineer

某物流聊天机器人收到了一位客户的消息——他的包裹已经丢失一周了。机器人的回复是："我没有被训练来关心这件事。"从事实角度看，这完全准确：系统正确解析了查询，正确识别出无法路由处理该问题，也正确传达了其局限性。这个答案在每一个可量化的维度上都是技术正确的。但它同时也是一场产品灾难。

这就是语域问题——而这几乎肯定是你的评估套件没有在衡量的失效模式。

语言学中的"语域"（Register），指的是适用于特定情境、关系和目的的语言变体。它不仅仅是礼貌程度，而是整个交流契约：你有多正式、表达多少共情、以多大把握断言信息、是先给事实还是先给感受。客服代理、法律审查员、医疗助手和面向开发者的命令行工具，听起来应该截然不同——不是因为它们掌握的知识不同，而是因为它们在不同的交流期待下运作。

工程师构建 LLM 驱动的产品时，几乎总是只针对"知识问题"进行优化：调整准确性、上下文检索、幻觉减少和任务完成率。语域被当作一种"感觉"——在系统提示中加一句"友好而专业"就算解决了。事实并非如此。语域不匹配是一个隐性的用户流失驱动因素，它藏在"感觉就是不对劲"或"机器人好像不懂我"之类的反馈背后，几乎不会出现在你的定量评估套件中。

为什么你的评估套件对此视而不见

评估 LLM 输出的标准工具——BLEU、ROUGE、准确率分数、事实正确性检查——都是为了衡量一件事而构建的：正确信息是否出现在输出中。这些指标计算词汇重叠、检查关键事实的存在，以及验证答案是否与参考输出匹配。它们对信息如何传达完全无感。

一个回复"你的订单因供应链中断而延误"和一个回复"嘿！你的订单好像出了点供应链的状况——会晚一点，抱歉 :)"在大多数自动化指标下得分完全相同。两者在事实上毫无差异。哪个更合适，完全取决于具体情境——平台、用户的情绪状态、品牌声音、问题的严重程度——这些都是 BLEU 看不到的。

研究明确地证实了这一盲点。关于 LLM 评估的研究发现，衡量准确性的指标不足以用于对话式 AI 评估，因为它们对语气、多轮对话连贯性和情感共鸣视而不见。人工评估者能始终捕捉到自动化指标遗漏的问题：令人不适的语气转变、正式程度不匹配、不同回复之间的语域不一致。这个差距是结构性的，而非偶然。

其后果是：团队发布的产品每项准确率 A/B 测试都通过了，每个事实评估都是绿色，用户却仍在流失。问题不在任何已记录的指标中，而存在于与产品交互的整体感受之中。

五种语域（以及 AI 产品在哪里失败）

社会语言学描述了正式程度谱系上的五种宽泛语域：凝固语域（仪式性、不变的）、正式语域（专业写作、法律文书）、咨询语域（协作性专业场合）、随意语域（朋友间的交谈）和亲密语域（亲密的个人关系）。大多数 AI 产品需要根据情境在咨询到随意之间运作。

失败模式主要集中在以下几种类型：

对情境而言过于正式。 一个说话像法律文书的消费者产品会制造距离感。用户感觉不是被帮助，而是被处理。这在企业 SaaS 产品中很常见——它们的系统提示经过法务和合规审查后，系统性地将语言推向了回避、限定语和被动语态。

对风险而言过于随意。 一个用轻松对话语气回应的金融或医疗助手会削弱自身权威。用户本能地感觉到语气与所询问事项的严重性不符。即使每个答案都是正确的，这种语域也在传递系统没有认真对待情况的信号。

与情感情境不匹配。 当用户来报告服务中断时，聊天机器人用"嗨！😊 今天有什么我可以帮你做的？"来开场，造成的伤害比中性回复还要大。南佛罗里达大学 2026 年的一项研究发现，聊天机器人的共情回复实际上可能触发心理抗拒——当共情来自非人类系统时，用户会感知为一种侵入或操纵，反而降低满意度，而非提升。在任一方向上把握不好共情的"刻度盘"都会产生摩擦。

文本一致，但多轮对话中前后矛盾。 多轮对话会暴露单轮评估永远捕捉不到的语域不稳定性。聊天机器人可能开始正式，随着上下文窗口填满而变得随意；可能开始时富有共情，当提示中的情感支撑耗尽后转为临床冷淡。这些转变令人迷失方向，即使单独查看每个回复时看起来都还不错。

提示腐化问题

语域不一致往往不是模型问题，而是工程过程问题。系统提示会积累补丁。

这个轨迹人们都很熟悉：产品经理注意到机器人听起来很冷漠，于是添加"要温暖有共情"；法务添加免责条款；客服添加特定边缘情况的处理；工程修复格式化问题；市场加入品牌声音说明。每一个改动单独来看都有道理，整合在一起却将系统提示变成了一个充满矛盾指令的九头蛇，模型必须在每次请求时去协调。

一个同时管理五种不同行为关注点——语气、法务规避、品牌声音、格式化和特定任务边缘情况——的提示，在架构上已经不稳定了。模型没有一致的语域可供参照；它有的是一组相互竞争的指令，会根据具体输入以不同方式解决张力。结果是用户体验为机器人有着不可预测性格的不一致性。

这与模型能力问题有着可测量的区别。同一个基础模型，给定一个结构良好、语域规格清晰一致的系统提示，会产生可靠一致的语气；同一个模型，给定一个有五层冲突语气指令的提示，会产生语域层面的信号噪声。

这要求的工程纪律是：将语域视为提示中的一等架构关注点——不是你随手添加的一行，而是你以与任务指令同等严格程度维护的一个章节。当新的行为需求来临时，问题不应该是"我在哪里加这个？"而应该是"这符合现有语域吗？如果不符合，我们如何调和冲突？"

如何将语域规格化为需求

CO-STAR 提示框架做出了一个大多数其他框架会合并的有用区分：它将风格（结构性呈现——正式、新闻体、对话式）与语气（情感质量——自信、共情、紧迫、临床）分开。大多数系统提示把这两者当作一件事。分开处理给了你两个独立的调节杠杆。

对于客服工具：风格是"直接、第一人称、清晰句子，无行话"；语气是"耐心而就事论事，不过度温暖"。这与开发者文档助手不同——后者的风格可能是"精确的技术散文"，语气是"中性，假设用户有能力"。两者都是"专业的"，但在实践中听起来完全不同——将它们混为"专业点"这一笼统指令，两者都无法可靠实现。

对于语域控制，少样本示例比散文指令更可靠。告诉模型"温暖而权威"是模糊的——模型必须去解释这意味着什么，在不同输入上会产生不同的内插结果。展示三个你想要的语域的确切示例则模糊性小得多。模型会外推这个模式，而不是解读抽象指令。把你最强的示例放在最后——模型对后出现的示例赋予更大权重。

对于多轮语域一致性，值得在轮次序列而非仅单个回复上显式测试语气。一个以困难问题开始、经过沮丧的追问、以解决请求结束的对话，是测试系统提示语域在压力下是否成立的自然测试用例。如果它经不住考验，不稳定性通常要么在提示结构中，要么在用户情感语气渗入系统上下文的方式中。

评估你在衡量的东西

将语域纳入评估套件不需要对每个回复进行人工审查，尽管人工审查能捕捉到自动化遗漏的东西。对大多数团队来说，实用的路径是对代表性样本使用 LLM-as-judge（以 LLM 作为评判者）。

明确定义标准：不是"这是个好回复吗？"而是"这个回复是否为当前情境维持了正确的正式程度？"和"情感语气对用户所陈述的情况是否合适？"这些是可评估的维度。评判模型可以被提示，根据从你的风格指南中提炼的标准在李克特量表上对其评分。评分不完美，但对语域问题的敏感度远高于 BLEU 分数或准确率检查，也不需要每次运行都有人工评审。

然而，最有用的信号往往就在你已有的失败数据中。支持工单升级、低分回复，以及用户在其中脱离对话的具体交流——在大多数已部署产品中，这些比事实问题更多地集中在语气问题上。当用户说"机器人好像不懂我"而没有指出具体的事实错误时，他们描述的就是语域不匹配。将这类反馈导入语域专项分析，往往会揭示出提示修复可以解决的模式。

核心纪律

技术正确性是底线，而非天花板。一个事实正确但在情境中听起来不对劲的回复，即使通过了评估，也依然让用户互动失败。这两种失效模式是正交的——你可以只有其中之一——而只有其中一种会出现在大多数团队追踪的指标中。

语域所要求的纪律，是将交流适当性视为与事实准确性同等重要的需求来对待：明确规格化、系统测试、在生产中监控，并防范提示腐化。这意味着将语域作为结构化章节而非模糊形容词写入系统提示，在轮次序列而非单一输出上进行测试，并构建能真正区分"技术正确"与"交流恰当"的评估标准。

那些用起来感觉好的产品——用户描述 AI 真正理解他们的那些——不是事实准确率得分最高的。而是那些语域针对情境校准得当且保持一致的产品。这是一个工程问题，不是模型问题，它有工程解决方案。

Let's stay in touch and Follow me for more thoughts and updates

Twitter LinkedIn Telegram Discord 小红书

为什么你的 AI 听起来不对劲，即使技术上完全正确

为什么你的评估套件对此视而不见

五种语域（以及 AI 产品在哪里失败）

提示腐化问题

如何将语域规格化为需求

评估你在衡量的东西

核心纪律

Recommended Reading

关于 Tian Pan

为什么你的评估套件对此视而不见​

五种语域（以及 AI 产品在哪里失败）​

提示腐化问题​

如何将语域规格化为需求​

评估你在衡量的东西​

核心纪律​

Recommended Reading

关于 Tian Pan

为什么你的评估套件对此视而不见

五种语域（以及 AI 产品在哪里失败）

提示腐化问题

如何将语域规格化为需求

评估你在衡量的东西

核心纪律