跳到主要内容

3 篇博文 含有标签「vision-models」

查看所有标签

增加模态是一次隐私分类事件,而非简单的功能开关

· 阅读需 12 分钟
Tian Pan
Software Engineer

一位产品经理在周二联系了 AI 团队:“客户想在支持代理中粘贴截图。这应该是件小事,对吧?模型已经支持图像了。” 工程主管检查了 SDK,确认视觉端点接受 JPEG 和 PNG,在功能开关(feature flag)后发布了更改,并向 10% 的用户推送。两周后,法务团队转来了一封监管机构的信函,询问为什么用户的银行账单、驾照照片以及包含另一位客户订单 ID 的截图都出现在了该代理符合训练条件的日志中。AI 团队中没人标记这次模态变更(modality change),因为没人认为模态变更 算是一次 变更。批准文本代理的隐私审查从未针对图像变体重新运行——而图像变体最终适用的授权、留存和驻留规则完全不同。

这不是一个关于粗心工程师的故事。这是一个关于大多数团队发布 AI 功能时内置的范畴错误的故事。文本输入是一个已知的、具有稳定威胁模型的细分数据类别:用户输入,用户看到他们输入的内容,工程团队在记录什么和丢弃什么方面有多年的习惯。图像是一个具有不同威胁模型的不同数据类别——它们夹带了用户看不到的元数据,捕捉了用户并非有意分享的周边内容,并以其自身的驻留和合同条款创造了存储和处理足迹。将“现在支持视觉”视为一次 UX 迭代,而它实际上是一个隐私分类事件,这就是团队如何根据监管机构的要求发现他们的 PII 清单将实际暴露程度低估了一个数量级的原因。

多模态AI在生产环境中的落地:基准测试与现实之间的鸿沟

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数采用多模态AI的团队都会犯同样的错误:他们在精心策划的基准数据集上评估模型,并假设生产性能会与之相符。然而现实并非如此。视觉模型在MMMU基准上取得高分,与同一模型在生产中可靠地从发票中提取结构化数据之间,存在足以葬送产品发布的巨大差距。视觉编码器增加了基准排行榜上无法体现的延迟。空间推理在用户实际发送的图表类型上失效。在干净语音上表现良好的音频模型在真实世界的噪声下土崩瓦解。而多模态真正优于纯文本的任务类别,比供应商所暗示的要窄得多。

本文是关于这一差距的实战指南——它在哪里出现,为什么存在,以及哪些部署模式能在生产负载下保持稳定。

为什么视觉模型在基准测试中表现卓越,却在你的企业级 PDF 上折戟沉沙

· 阅读需 12 分钟
Tian Pan
Software Engineer

一个在文档理解数据集上达到 97% 准确率的基准测试结果看起来非常有说服力,直到你针对公司的实际发票存档运行它,才发现它正在静默地搞乱 30% 的行项目。模型不会报错,也不会返回低置信度,它只是产生了一个看起来合情合理但却是错误的输出。

这是生产级文档 AI 的典型失效模式:静默损坏 (silent corruption)。与崩溃或异常不同,静默损坏会发生传播。乱码的单元格流入下游聚合,聚合信息喂给报告,报告驱动决策。当你意识到问题时,追踪根本原因就像是在搞考古。

文档 AI 在基准测试表现与生产环境表现之间的差距是真实存在的、持久的,且被评估这些模型的团队所低估。理解为什么会存在这种差距——以及如何防御它——正是本文要解决的工程问题。