博客

Page 86

12 articles

嵌入偏移：正在杀死你长期运行的 RAG 系统的沉默退化
混合嵌入模型、分块策略变化以及预处理不一致是如何在无声中降低 RAG 检索质量的 —— 以及你该如何应对。
insiderrag
4月18日12 min
嵌入刷新问题：像数据库工程师一样运营向量存储
超过60%的RAG故障源于过期向量，而非错误提示词。如何运用数据库工程原则——CDC、漂移检测、零停机模型迁移——保持向量索引与数据源同步。
ragvector-search
4月18日11 min
欧盟 AI 法案现已成为你的工程待办事项
欧盟 AI 法案针对高风险 AI 系统设定的 2026 年 8 月截止日期，直接转化为具体的工程任务：审计轨迹架构、数据治理流水线以及人类监督界面。以下是工程师需要构建的内容及其优先级顺序。
ai-engineeringcompliance
4月18日14 min
哪些 EU AI 法案功能会悄然触发高风险合规——以及你必须在 2026 年 8 月前交付的内容
特定的工程决策——在 HR 仪表盘中添加情绪信号、将贷款决策通过模型路由——可能悄然越过欧盟 AI 法案的高风险门槛。本文介绍哪些因素会触发分类，以及你必须在 2026 年 8 月执法前构建哪些内容。
insiderai-engineering
4月18日10 min
评估集衰退：为什么你的基准在构建六个月后会变得具有误导性
静态评估集是用户行为的冻结快照。随着真实流量的演变，你的基准会偏离生产现实——本文介绍如何衡量衰退并保持评估的诚实性。
insiderevaluation
4月18日11 min
除了大模型供应商：如何评估 AI 服务供应商
大多数团队会严密审查他们的大模型（LLM）供应商，但对其他服务却全凭感觉。本文提供了一个严谨的框架，用于评估防护栏供应商、嵌入服务商、可观测性工具和微调平台，并包含了能帮你规避商业模式风险的尽职调查标准。
ai-engineeringvendor-evaluation
4月18日13 min
基础模型供应商策略：企业SLA究竟保障什么
企业团队基于基准测试和演示选择LLM供应商，然后在生产环境中才发现SLA实际保障的内容——通常远低于预期。
insiderai-engineering
4月18日13 min
评估悖论：古德哈特定律如何破坏 AI 基准测试
当 AI 团队为了基准测试分数而非真实能力进行优化时，分数虽然在攀升，但质量却在下降。本文将探讨评估悖论的运作方式，以及哪些结构性变革能真正让评估具备抗操纵能力。
insiderai
4月18日12 min
GraphRAG vs. 向量 RAG：团队往往过晚才做的架构决策
向量 RAG 在关系型查询上存在数学瓶颈 —— 本文将探讨从纯向量到图-向量混合检索的迁移路径，以及揭示你已不再满足于纯稠密搜索的查询模式。
RAGGraphRAG
4月18日14 min
幻觉并非根本原因：生产环境 AI 的调试方法论
不再仅仅归咎于“模型产生了幻觉”，而是转向系统的根本原因分析：检索失败、上下文冲突、提示词歧义和违反知识边界，每种情况都需要不同的修复方案。
insiderllm
4月18日12 min
为什么幻觉率不是衡量生产级 LLM 系统的核心指标
幻觉率虽易于衡量，但与用户结果的关联性较弱。本文提供了一个选择行为指标的框架，能真实反映你的 AI 功能是否奏效。
evaluationobservability
4月18日9 min
智能体工具调用中的幂等性问题
为什么智能体重试逻辑会导致重复扣款、重复发送邮件和状态不一致——以及如何通过Saga模式、幂等键和结构化错误信号从架构层面解决这一问题。
insiderai-engineering
4月18日12 min

较新的博文

较旧的博文

Page 86

嵌入偏移：正在杀死你长期运行的 RAG 系统的沉默退化

嵌入刷新问题：像数据库工程师一样运营向量存储

欧盟 AI 法案现已成为你的工程待办事项

哪些 EU AI 法案功能会悄然触发高风险合规——以及你必须在 2026 年 8 月前交付的内容

评估集衰退：为什么你的基准在构建六个月后会变得具有误导性

除了大模型供应商：如何评估 AI 服务供应商

基础模型供应商策略：企业SLA究竟保障什么

评估悖论：古德哈特定律如何破坏 AI 基准测试

GraphRAG vs. 向量 RAG：团队往往过晚才做的架构决策

幻觉并非根本原因：生产环境 AI 的调试方法论

为什么幻觉率不是衡量生产级 LLM 系统的核心指标

智能体工具调用中的幂等性问题

关于 Tian Pan