博客

Page 55

12 articles

数据飞轮假说：AI 功能是在产生复利，还是在堆积噪声？
大多数团队认为更多的交互数据会自动让他们的 AI 变得更好。事实并非如此。本文将探讨是什么让真正的复利飞轮区别于昂贵的日志文件。
insiderai-engineering
5月4日10 min
数据敏感级别模型路由：管控哪个模型能看到哪些数据
大多数 AI 路由决策以成本和延迟为优化目标。但数据的隐私分类同样应当驱动路由——忽视这一点会埋下静默的合规违规，只有在审计时才会浮出水面。
ai-engineeringcompliance
5月4日13 min
智能体的死信：当没有智能体能完成任务时该怎么办
消息队列通过死信队列解决了消息卡顿的问题。智能体系统也面临同样的问题，但其失败模式更加丰富 —— 本文将介绍如何适配这一模式。
insiderai-agents
5月4日11 min
生产环境中的扩散模型：演示之后无人讨论的工程栈
大规模运行扩散模型会暴露演示中被忽略的硬性约束：GPU 显存上限、LoRA 热插拔架构、用于水印和 NSFW 审核的合规栈，以及自托管成本优于任何 API 层的业务量拐点。
insiderdiffusion-models
5月4日13 min
端到端延迟并非你的 LLM 调用 P99：代理系统中无人衡量的隐藏乘数
为什么你的 LLM API 调用的 P99 延迟几乎无法反映用户在多步代理工作流中的真实体验 —— 以及填补这一差距的隐藏乘数。
ai-engineeringllm
5月4日11 min
嵌入微调差距：通用向量并不理解你特定领域的“相关性”含义
现成的嵌入模型针对语义相似度而非领域相关性进行优化。了解如何通过带有难负样本的对比微调、合成训练数据以及适当的 A/B 测试评估，来弥合基准测试分数与实际检索质量之间的差距。
ragembeddings
5月4日13 min
智能体链中的认知信任：不确定性如何在多步委托中累积
当编排器将任务委托给子智能体并接受其答案时，它同时继承了该智能体的错误。本文探讨认知信任与授权信任的区别、置信度为何会在智能体切换中危险地叠加，以及真正能解决这一问题的设计模式。
insiderai-agents
5月4日11 min
评估债务棘轮：靠感觉发布 AI 功能的团队如何被技术欠账所困
在发布 AI 功能时跳过评估会产生复利式的债务，使团队陷入无法测试的行为困境。本文探讨棘轮效应的运作机制，以及如何在不暂停功能开发的前提下偿还这笔欠账。
ai-engineeringllm-evaluation
5月4日12 min
评估疲劳周期：为何AI质量度量在上线后走向崩溃
大多数团队在上线时拥有完善的AI评估套件，却在六周内将其废弃。评估体系的崩溃在结构上几乎是必然的——本文揭示原因，并给出解决之道。
ai-engineeringllm
5月4日10 min
评估集拥挤问题：为什么更大的测试套件捕获的回归反而更少
扩大 AI 评估套件往往会降低其捕获真实回归的能力。本文将探讨评估套件为何会偏向于工程上方便处理的边缘情况，并介绍如何通过强制排序方法论保持其预测性。
ai-engineeringevaluation
5月4日11 min
AI 系统中的功能交互故障：当两个正常运行的组件结合时发生崩溃
通过了每一项单独测试的 AI 功能，在组合使用时可能会悄无声息地失效。本文将介绍如何在用户发现之前审计这些接缝处的风险。
insiderai-engineering
5月4日12 min
联邦制 AI 团队：为何集中 AI 专业能力反而制造了它本应解决的问题
中央 AI 平台团队承诺标准化与治理，却往往变成瓶颈、知识孤岛，乃至滋生出它本应防范的碎片化问题。本文剖析失败模式，以及联邦制真正需要什么。
insiderai-engineering
5月4日11 min

较新的博文

较旧的博文

Page 55

数据飞轮假说：AI 功能是在产生复利，还是在堆积噪声？

数据敏感级别模型路由：管控哪个模型能看到哪些数据

智能体的死信：当没有智能体能完成任务时该怎么办

生产环境中的扩散模型：演示之后无人讨论的工程栈

端到端延迟并非你的 LLM 调用 P99：代理系统中无人衡量的隐藏乘数

嵌入微调差距：通用向量并不理解你特定领域的“相关性”含义

智能体链中的认知信任：不确定性如何在多步委托中累积

评估债务棘轮：靠感觉发布 AI 功能的团队如何被技术欠账所困

评估疲劳周期：为何AI质量度量在上线后走向崩溃

评估集拥挤问题：为什么更大的测试套件捕获的回归反而更少

AI 系统中的功能交互故障：当两个正常运行的组件结合时发生崩溃

联邦制 AI 团队：为何集中 AI 专业能力反而制造了它本应解决的问题

关于 Tian Pan