博客

Page 73

12 articles

LLM系统中的数据质量税：劣质输入为何带来截然不同的代价
传统机器学习在噪声数据上会优雅地退化。LLM则会自信地幻觉，污染向量库，并以看似权威的方式向下游传播错误。本文介绍如何度量和缓解数据质量税。
insiderllm
4月18日10 min
长程智能体的航位推算：无需中断即可掌握智能体运行状态
当一个智能体运行数小时之久，了解它的实时状态——以及它是否仍在正轨上——就成为了一个核心工程问题。本文将介绍解决这一问题的各种模式。
insiderai-agents
4月18日13 min
智能体系统中的决策溯源：真正有效的审计追踪
当自主智能体执行具有重大影响的行动时，拥有日志并不等同于拥有问责机制。本文是一份为生产环境智能体系统设计决策溯源的实践指南，涵盖事件模式、所有权移交、幻觉归因，以及使其不可或缺的合规要求。
insideragentic-ai
4月18日15 min
AI 功能退役指南：如何在不破坏用户体验的情况下下线智能体
关闭 AI 功能与废弃确定性 API 有本质的不同。这份工程指南涵盖了映射行为依赖、分阶段下线以及避免支持工单雪崩的方法论。
insiderai-engineering
4月18日11 min
为部分完成而设计：当你的智能体完成 70% 后停止
大多数智能体故障设计假设干净中止或干净成功。真实的智能体会在任务中途遭遇不确定性、授权限制和资源约束。以下是如何为实际发生的情况进行设计。
insiderai-engineering
4月18日11 min
AI 应用的开发与生产环境一致性：预发布环境欺骗你的七种方式
预发布环境系统性地歪曲了 LLM 应用在生产环境中的表现。本文介绍了从 Prompt 缓存预热到隐蔽的流量分配漂移等七种特定的失效模式，以及发现这些问题的预发布检查方法。
llmopsproduction
4月18日13 min
跨 Agent 服务边界的分布式追踪：上下文传播的断裂
当 Agent 跨微服务边界调用 Agent 时，W3C TraceContext 会发生断裂，追踪信息碎片化为不相关的 Span。本文介绍故障的技术形态以及修复方法。
insiderobservability
4月18日12 min
嵌入偏移：正在杀死你长期运行的 RAG 系统的沉默退化
混合嵌入模型、分块策略变化以及预处理不一致是如何在无声中降低 RAG 检索质量的 —— 以及你该如何应对。
insiderrag
4月18日12 min
嵌入刷新问题：像数据库工程师一样运营向量存储
超过60%的RAG故障源于过期向量，而非错误提示词。如何运用数据库工程原则——CDC、漂移检测、零停机模型迁移——保持向量索引与数据源同步。
ragvector-search
4月18日11 min
欧盟 AI 法案现已成为你的工程待办事项
欧盟 AI 法案针对高风险 AI 系统设定的 2026 年 8 月截止日期，直接转化为具体的工程任务：审计轨迹架构、数据治理流水线以及人类监督界面。以下是工程师需要构建的内容及其优先级顺序。
ai-engineeringcompliance
4月18日14 min
哪些 EU AI 法案功能会悄然触发高风险合规——以及你必须在 2026 年 8 月前交付的内容
特定的工程决策——在 HR 仪表盘中添加情绪信号、将贷款决策通过模型路由——可能悄然越过欧盟 AI 法案的高风险门槛。本文介绍哪些因素会触发分类，以及你必须在 2026 年 8 月执法前构建哪些内容。
insiderai-engineering
4月18日10 min
评估集衰退：为什么你的基准在构建六个月后会变得具有误导性
静态评估集是用户行为的冻结快照。随着真实流量的演变，你的基准会偏离生产现实——本文介绍如何衡量衰退并保持评估的诚实性。
insiderevaluation
4月18日11 min

较新的博文

较旧的博文

Page 73

LLM系统中的数据质量税：劣质输入为何带来截然不同的代价

长程智能体的航位推算：无需中断即可掌握智能体运行状态

智能体系统中的决策溯源：真正有效的审计追踪

AI 功能退役指南：如何在不破坏用户体验的情况下下线智能体

为部分完成而设计：当你的智能体完成 70% 后停止

AI 应用的开发与生产环境一致性：预发布环境欺骗你的七种方式

跨 Agent 服务边界的分布式追踪：上下文传播的断裂

嵌入偏移：正在杀死你长期运行的 RAG 系统的沉默退化

嵌入刷新问题：像数据库工程师一样运营向量存储

欧盟 AI 法案现已成为你的工程待办事项

哪些 EU AI 法案功能会悄然触发高风险合规——以及你必须在 2026 年 8 月前交付的内容

评估集衰退：为什么你的基准在构建六个月后会变得具有误导性

关于 Tian Pan