博客

Page 47

12 articles

API 文档即可靠性基础设施：文档如何决定智能体的成功率
当 AI 智能体通过工具调用（tool calling）消费你的 API 时，文档质量就成了直接的可靠性变量。模糊的参数和缺失的错误语义会导致可衡量的失败率，这是任何提示词优化都无法修复的。
insiderai-engineering
5月6日11 min
代码专用 RAG：为什么通用检索在代码库中会失败
基于 Token 的分块在检索器看到代码之前就破坏了其结构特性。AST 感知分块、调用图遍历以及测试文件协同定位才是真正适用于代码库检索的模式。
insiderrag
5月6日11 min
大多数团队在无意中做出的上下文格式选择：JSON vs Markdown vs 纯文本
在 LLM 上下文中选择 JSON、Markdown 还是纯文本并非风格偏好，它决定了推理模式、准确性和成本。本文将介绍如何深思熟虑地做出这一决策。
llmagents
5月6日11 min
AI 代码反馈循环：今日生成的代码如何训练明日的模型
随着AI生成的代码涌入生产代码库，它正在成为下一代模型的训练数据。这一反馈循环已经可以量化——而其失效模式足够隐蔽，以至于可能在不被察觉的情况下悄然到来。
ai-engineeringllm
5月6日10 min
为什么 AI 功能会让 A/B 测试失效（以及不会撒谎的因果推断方法）
标准 A/B 测试在应用于 AI 功能时会违反其核心假设。本文介绍如何使用能够处理污染、溢出效应和长期行为变化的因果推断方法来衡量真实影响。
ai-engineeringexperimentation
5月6日12 min
跨用户一致性问题：当你的 AI 对同一问题给出不同答案时
当同事问了同一个问题却得到不同的答案，企业 AI 工具会悄悄侵蚀信任。本文解释了为何 temperature=0 无法解决问题，以及真正有效的工程模式。
insiderllm
5月6日11 min
从开发到生产的成本冲击：为什么你的 AI 功能在测试环境仅需几分钱，而在生产环境却要花费数美元
测试环境系统性地隐藏了生产环境中的关键成本驱动因素。本文探讨了开发支付与规模化生产账单之间的差距，以及如何诚实地建立成本模型。
insiderai
5月6日10 min
RAG 中的领域专家瓶颈：为什么知识策展会导致生产环境 AI 崩溃
构建一个 RAG 管道只需几天。但在第一年里，维护支撑它的知识库才是让团队崩溃的原因。领域专家策展是生产环境 RAG 中真正的“最后一公里”难题。
insiderrag
5月6日9 min
AI 时代的 DORA 指标：当部署频率开始“撒谎”
AI 工具在虚增 DORA 指标的同时，正悄然削弱这些指标原本旨在衡量的团队能力。本文将探讨部署频率、交付周期、CFR 和 MTTR 的现状，并揭示哪些补充信号才能反映真实情况。
devopsai
5月6日11 min
嵌入模型更迭：当你的提供商悄然导致整个向量索引失效
当你的嵌入模型提供商悄然更新模型时，索引中的每个向量都会与新查询不兼容——没有错误，没有警报，只有检索质量的下降。本文将介绍如何检测并应对这一挑战。
ragvector-search
5月6日10 min
集成 vs. 辩论：两种多模型验证范式及其失效场景
运行更多模型并不保证更好的答案。当前沿 LLM 共享训练数据时，它们的错误相关性达到 r = 0.77 —— 使得三个模型实际上仅相当于 1.3 个独立模型。本文将深入分析集成与辩论验证、它们各自的失效模式，以及当两种方法都失效时的情况。
insidermulti-agent
5月6日11 min
企业 AI 的最后一公里难题：为何大多数试点项目从未到达生产
为什么超过 85% 的企业 AI 试点项目在到达生产之前就陷入停滞——以及真正能推动项目落地的组织模式。
insiderai
5月6日8 min

较新的博文

较旧的博文

Page 47

API 文档即可靠性基础设施：文档如何决定智能体的成功率

代码专用 RAG：为什么通用检索在代码库中会失败

大多数团队在无意中做出的上下文格式选择：JSON vs Markdown vs 纯文本

AI 代码反馈循环：今日生成的代码如何训练明日的模型

为什么 AI 功能会让 A/B 测试失效（以及不会撒谎的因果推断方法）

跨用户一致性问题：当你的 AI 对同一问题给出不同答案时

从开发到生产的成本冲击：为什么你的 AI 功能在测试环境仅需几分钱，而在生产环境却要花费数美元

RAG 中的领域专家瓶颈：为什么知识策展会导致生产环境 AI 崩溃

AI 时代的 DORA 指标：当部署频率开始“撒谎”

嵌入模型更迭：当你的提供商悄然导致整个向量索引失效

集成 vs. 辩论：两种多模型验证范式及其失效场景

企业 AI 的最后一公里难题：为何大多数试点项目从未到达生产

关于 Tian Pan