4 篇博文含有标签「vision」

多模态评估漂移：为什么在文本表现稳定的情况下，图像和音频路径会出现回退

2026年4月27日 · 阅读需 13 分钟

Software Engineer

仪表板显示，这个版本的质量提升了两个点。文本评估套件运行正常。你的模型供应商发布了一个新的 Checkpoint，在你跟踪的每个公开基准测试上都超过了前一个版本。你推进了发布。一周后，支持团队标记了一个隐蔽但持续增长的工单量上涨，内容关于上传的屏幕截图 —— 用户反映模型“读错了图表中的数字”或“漏掉了表格中的一行”。几天后，音频转录的投诉接踵而至，主要来自非美式英语使用者。这些都没有出现在你的评估流水线中。发布看起来很健康。但事实并非如此。

这就是多模态评估漂移（Multimodal Eval Drift），几乎每一个在以文本为核心的架构上硬塞进视觉和音频功能的团队都在发布这种问题。曾经适用于文本的评估规范 —— 黄金集（Gold Sets）、LLM 作为评委（LLM-as-judge）、漂移仪表板、以及决定是否发布的综合评分 —— 在多模态领域仅剩空名。每个模态的失败率不具可比性，捕捉文本错误的评分标准（Rubrics）捕捉不到图像错误，而且产生文本黄金集的标注流水线是针对每半年发布一次的工作量校准的，而不是针对伴随每次 Checkpoint 更新而来的多模态退化。

正确的心智模型是：多模态并不是同一个模型上的一个开关 —— 它是一个具有不同失败分布的不同产品面，而忽视了这一区别的评估规范在每次模型发布时都在输出隐形的退化。

生产级 AI 流水线中的视觉输入：无人记录的预处理决策

2026年4月12日 · 阅读需 12 分钟

Tian Pan

Software Engineer

你的视觉模型在评估套件上跑出了 90% 以上的分数。接着，真实用户上传了实体文档的照片、低 DPI 显示器的屏幕截图，以及经过三次传真机往返扫描的 PDF。准确率骤降。模型“正常运行”——它返回了连贯的响应——但在没有已知标准答案（ground truth）的情况下，这些响应的错误方式很难被察觉。你将其归咎于“模型限制”并继续前进。

模型本身可能不是问题，输入流水线才是。

大多数构建视觉大语言模型（Vision LLMs）的团队在提示词工程（prompt engineering）和模型选择上投入了巨大精力，而在图像到达模型之前的预处理上几乎投入为零。这种不对称正是生产环境质量崩盘的根源。那些无人记录的预处理决策，也是导致生产环境多模态系统准确率无声下降的最大元凶。

生产环境中的多模态 LLM 输入：视觉、文档以及那些无人预警的失效模式

2026年4月9日 · 阅读需 11 分钟

Tian Pan

Software Engineer

为 LLM 应用添加视觉能力看起来简单得令人误解。你将文本模型换成多模态模型，在提示词中加入一张图片，演示效果就非常出色。但在推向生产环境后，你会发现有一半的发票金额是错的，PDF 中的表格丢失了结构，而低质量的扫描件会产生言之凿凿的幻觉。调试这种系统的难度超过了你以前面对的任何纯文本系统，因为这些失败是视觉上的，且 LLM 不会告诉你它看不清楚。

本篇文章将介绍当多模态 LLM 输入从原型转向生产环境时，究竟会发生什么问题，以及能够防止这些失败的架构决策。

德鲁克的七个创新之源与四个创新战略

2020年8月21日 · 阅读需 5 分钟

为什么有些人想要通过成为企业家挣钱？因为他们想打败市场——以低于市场的成本，获得超出市场的回报——即获得高于市场的利润率。而超出市场的价格源自产品或者服务的稀缺性/独特性，想要有独特性就必须创新，所以，想要成为企业家必须至少是创新者。

大多数的公司之所以可以成功，都是因为他们知道如何持续地在对的事物上受到启发，持续地产生新想法。如何辨别最合适的创新之源，以战胜对手，从产业中脱颖而出？

七个创新之源

内部
- 意外之事：比如面对家用电器的购买量的突升，梅西限量销售，而 Bloomingdale's 利用这个机会扩充了电器部门，从而提升了利润。
- 市场和行业的发展：比如汽车市场全球化的时候，沃尔沃也跟着全球化，从而比没有快速全球化的雪铁龙做得好。
- 流程中薄弱的环节：医药销售商William Connor在意识到了眼科手术的一个麻烦环节 : 眼韧带出血。所以他建议用酶溶解韧带代替切割韧带，这大大减少了手术风险，并被眼科医学领域广泛接受。这次针对短处的革新使他的公司获得了极大的利润。
- 现实与感知之沟（难道 TK 也是德鲁克的使徒？）：比如轮渡货运早年误以为缩短时间的关键在于提高航行速度，但实际上这样做会导致成本剧增，问题的关键其实在于降低船闲置在港口的时间。
外部：比如政治、学术、科学
- 社会观念的变化：对于环保和高科技的趋之若鹜让电车市场火热。
- 人口结构变化：比如中国数字原住民的增多和对线上社区的需求催生了 Bilibili。
- 新知识的杂交：比如计算机是数百年来数学、电子、编程技术的杂交产物。

大小公司都需要创新

一个新起步的公司需要具体目标和计划，具体见打造公司的五个阶段。

在创业初期，企业家应该要在尝试不同领域后，找到合适的市场。因为很有可能你会在一个你从未想过的领域最终创业成功。第二步则是确立好正确的财政重心。保证公司在遇到问题时有足够的解决资金是极其重要的。最后一步是为公司建立一个可信赖的管理团队。这个团队应该要在公司团队壮大之前就完善起来。

不仅是小商人需要改革创新，大产业也同样需要注入新鲜的血液。初始阶段，他们应该标准化企业内铸新淘旧的规则。其次，革新后的项目由全新的负责人管控。最后一点是，企业应该要设置褒奖机制，这样可以帮助提高员工的生产表现，并有效回顾创新的效果。

四个创新战略

孤注一掷（Fustest with the mostest）

一个有智慧的企业家应该目标成为该行业的先行者，倾其所有敢为人先。Hoffmann-La Roche 拥有一个小的化工公司，但他机智地发现了维生素行业的商机。所以为了生产和销售维生素，他投资了一大笔钱雇了许多专家。虽然听起来十分有风险，但这次“赌博”最终有了好结果，他在60年间都是维他命行业的领军者。

攻其软肋 (Hit them where they ain’t)

发现对手注意不到的漏洞是十分不容易的，但有两种方法可以实现。第一个是用更新颖和吸引人的手法模仿对手的想法。举个例子，IBM 公司模仿对手 ENIAC 电脑公司的想法，并在此之上加以更创新的点子，最终从中获利。不仅如此，有些公司还可以通过痛击对方的短处而赢得胜利。这对于目中无人的大公司尤其奏效。

生态位 (Ecological Niches)

这原本是一个生物学概念：生态位是一个物种所处的环境以及其本身生活习性的总称。每个物种都有自己独特的生态位，借以跟其他物种作出区别。

一个公司如果专攻于不可替代的领域，则更容易成功。一个很好的例子就是 William Connors 开发的酶类。这类酶在后来成为了消除白内障手术中至关重要的一步。但是值得注意的是，这个公司也有很可能在对手研发出可替代的药物后，失去在该产业中的绝对优势。

变价值和特征 (Changing values and characteristics)

为了增加对于你的产品的需求量，你不一定需要改变产品本身。相反，找到一个更符合消费者利益的方法可能是更重要的。企业家应该要了解是什么让消费者愿意买单。举个例子，吉列公司之所以剃须刀免费、刀片付费，正是因为当时该公司意识到，消费者根本不愿意花高于刮胡刀本身得钱买刀片。

七个创新之源​

大小公司都需要创新​

四个创新战略​

孤注一掷（Fustest with the mostest）​

攻其软肋 (Hit them where they ain’t)​

生态位 (Ecological Niches)​

变价值和特征 (Changing values and characteristics)​

关于 Tian Pan

七个创新之源

大小公司都需要创新

四个创新战略

孤注一掷（Fustest with the mostest）

攻其软肋 (Hit them where they ain’t)

生态位 (Ecological Niches)

变价值和特征 (Changing values and characteristics)