3 篇博文含有标签「vision-models」

增加模态是一次隐私分类事件，而非简单的功能开关

2026年5月2日 · 阅读需 12 分钟

Software Engineer

一位产品经理在周二联系了 AI 团队：“客户想在支持代理中粘贴截图。这应该是件小事，对吧？模型已经支持图像了。” 工程主管检查了 SDK，确认视觉端点接受 JPEG 和 PNG，在功能开关（feature flag）后发布了更改，并向 10% 的用户推送。两周后，法务团队转来了一封监管机构的信函，询问为什么用户的银行账单、驾照照片以及包含另一位客户订单 ID 的截图都出现在了该代理符合训练条件的日志中。AI 团队中没人标记这次模态变更（modality change），因为没人认为模态变更 算是一次 变更。批准文本代理的隐私审查从未针对图像变体重新运行——而图像变体最终适用的授权、留存和驻留规则完全不同。

这不是一个关于粗心工程师的故事。这是一个关于大多数团队发布 AI 功能时内置的范畴错误的故事。文本输入是一个已知的、具有稳定威胁模型的细分数据类别：用户输入，用户看到他们输入的内容，工程团队在记录什么和丢弃什么方面有多年的习惯。图像是一个具有不同威胁模型的不同数据类别——它们夹带了用户看不到的元数据，捕捉了用户并非有意分享的周边内容，并以其自身的驻留和合同条款创造了存储和处理足迹。将“现在支持视觉”视为一次 UX 迭代，而它实际上是一个隐私分类事件，这就是团队如何根据监管机构的要求发现他们的 PII 清单将实际暴露程度低估了一个数量级的原因。

多模态AI在生产环境中的落地：基准测试与现实之间的鸿沟

2026年4月19日 · 阅读需 12 分钟

Tian Pan

Software Engineer

大多数采用多模态AI的团队都会犯同样的错误：他们在精心策划的基准数据集上评估模型，并假设生产性能会与之相符。然而现实并非如此。视觉模型在MMMU基准上取得高分，与同一模型在生产中可靠地从发票中提取结构化数据之间，存在足以葬送产品发布的巨大差距。视觉编码器增加了基准排行榜上无法体现的延迟。空间推理在用户实际发送的图表类型上失效。在干净语音上表现良好的音频模型在真实世界的噪声下土崩瓦解。而多模态真正优于纯文本的任务类别，比供应商所暗示的要窄得多。

本文是关于这一差距的实战指南——它在哪里出现，为什么存在，以及哪些部署模式能在生产负载下保持稳定。

为什么视觉模型在基准测试中表现卓越，却在你的企业级 PDF 上折戟沉沙

2026年4月19日 · 阅读需 12 分钟

Tian Pan

Software Engineer

一个在文档理解数据集上达到 97% 准确率的基准测试结果看起来非常有说服力，直到你针对公司的实际发票存档运行它，才发现它正在静默地搞乱 30% 的行项目。模型不会报错，也不会返回低置信度，它只是产生了一个看起来合情合理但却是错误的输出。

这是生产级文档 AI 的典型失效模式：静默损坏 (silent corruption)。与崩溃或异常不同，静默损坏会发生传播。乱码的单元格流入下游聚合，聚合信息喂给报告，报告驱动决策。当你意识到问题时，追踪根本原因就像是在搞考古。

文档 AI 在基准测试表现与生产环境表现之间的差距是真实存在的、持久的，且被评估这些模型的团队所低估。理解为什么会存在这种差距——以及如何防御它——正是本文要解决的工程问题。

关于 Tian Pan