跳到主要内容

2 篇博文 含有标签「nlp」

查看所有标签

能真正收敛的 AI 澄清对话:面向单轮解决的设计方案

· 阅读需 12 分钟
Tian Pan
Software Engineer

行动前先询问的 AI 系统显然更可靠。它们能避免不可逆的错误,在误解扩散前将其暴露出来,并在第一次真正的尝试中生成更高质量的输出。

问题在于,这一原则的大多数实现都是 UX(用户体验)的灾难。它们不是问一个好问题,而是问三个平庸的问题。那些本只需要澄清十个词指令的用户,最终陷入了五轮审讯式的对话,这比直接做错任务然后再修正还要耗时。可靠性带来的优势消失殆尽,取而代之的是用户的放弃。

这是一个设计问题,而不是模型能力问题。模型完全有能力提出精准、高价值的问题。缺失的是一种强制收敛的架构约束:一种将多轮澄清视为需要通过工程手段解决的故障模式(Failure Mode),而不是一种可以依赖的特性的规则。

多语言 RAG 检索鸿沟:为什么跨语言查询会悄无声息地破坏你的向量搜索

· 阅读需 14 分钟
Tian Pan
Software Engineer

一个团队构建了一个 RAG 系统。英语检索召回率达到了 94%。他们发布了产品。三个月后,来自法国和德国用户的支持工单堆积如山——聊天机器人不断返回无关结果或根本没有结果。工程师们查看他们的监控仪表盘。整体召回率:91%。看起来一切正常。

语料库是英语。嵌入模型(Embedding model)仅支持英语。用户则不然。每一个法语查询都被嵌入到一个向量空间中,而这个空间的设计初衷从未考虑过与它所检索的英语文档共享坐标。余弦相似度并不低——但它们在几何上毫无意义。而且因为聚合指标掩盖了分布问题,在用户大声抱怨之前,这个问题是不可见的。

这就是多语言 RAG 检索差距,也是服务于非英语受众的生产级 AI 系统中最常见的静默失败模式之一。