博客

Page 74

12 articles

除了大模型供应商：如何评估 AI 服务供应商
大多数团队会严密审查他们的大模型（LLM）供应商，但对其他服务却全凭感觉。本文提供了一个严谨的框架，用于评估防护栏供应商、嵌入服务商、可观测性工具和微调平台，并包含了能帮你规避商业模式风险的尽职调查标准。
ai-engineeringvendor-evaluation
4月18日13 min
基础模型供应商策略：企业SLA究竟保障什么
企业团队基于基准测试和演示选择LLM供应商，然后在生产环境中才发现SLA实际保障的内容——通常远低于预期。
insiderai-engineering
4月18日13 min
评估悖论：古德哈特定律如何破坏 AI 基准测试
当 AI 团队为了基准测试分数而非真实能力进行优化时，分数虽然在攀升，但质量却在下降。本文将探讨评估悖论的运作方式，以及哪些结构性变革能真正让评估具备抗操纵能力。
insiderai
4月18日12 min
GraphRAG vs. 向量 RAG：团队往往过晚才做的架构决策
向量 RAG 在关系型查询上存在数学瓶颈 —— 本文将探讨从纯向量到图-向量混合检索的迁移路径，以及揭示你已不再满足于纯稠密搜索的查询模式。
RAGGraphRAG
4月18日14 min
幻觉并非根本原因：生产环境 AI 的调试方法论
不再仅仅归咎于“模型产生了幻觉”，而是转向系统的根本原因分析：检索失败、上下文冲突、提示词歧义和违反知识边界，每种情况都需要不同的修复方案。
insiderllm
4月18日12 min
为什么幻觉率不是衡量生产级 LLM 系统的核心指标
幻觉率虽易于衡量，但与用户结果的关联性较弱。本文提供了一个选择行为指标的框架，能真实反映你的 AI 功能是否奏效。
evaluationobservability
4月18日9 min
智能体工具调用中的幂等性问题
为什么智能体重试逻辑会导致重复扣款、重复发送邮件和状态不一致——以及如何通过Saga模式、幂等键和结构化错误信号从架构层面解决这一问题。
insiderai-engineering
4月18日12 min
推理优化陷阱：为什么提升单个模型的速度反而会拖慢你的系统
将模型组件更换为更快的版本往往会增加端到端的延迟和成本。本文将探讨其中的原因，并介绍如何通过严谨的性能分析流程来避免这一问题。
insiderai-engineering
4月18日11 min
推理服务商向你隐瞒了什么：KV 缓存、批处理与延迟底线
LLM 推理基础设施内部的决策——KV 缓存逐出、连续批处理、分块预填充——在你写下第一行代码之前就决定了应用的性能边界。本文将揭示底层发生的真实情况，以及你所能控制的为数不多的参数。
llminference
4月18日14 min
隐形模型漂移：供应商静默更新如何破坏生产 AI
LLM 供应商在不发布变更日志的情况下更新模型。你的提示词回归是真实存在的，它们是静默的，且需要你自己去发现。以下是具体方法。
insiderllm
4月18日11 min
生产环境中的知识蒸馏：让小模型完成大模型的任务
如何利用前沿模型的输出作为监督信号来构建特定任务的小模型——涵盖数据集构建流程、质量崩溃检测，以及判断蒸馏模型何时可以上线的基准测试方法。
ai-engineeringllms
4月18日9 min
无需微调的知识蒸馏：将前沿模型的能力提取到更廉价的推理路径中
为 AI 工程师提供的一个实用决策框架，探讨何时将前沿模型的能力蒸馏到较小的学生模型中才真正划算，以及何时它会在分布外输入上悄然失效。
ai-engineeringllm
4月18日13 min

较新的博文

较旧的博文

Page 74

除了大模型供应商：如何评估 AI 服务供应商

基础模型供应商策略：企业SLA究竟保障什么

评估悖论：古德哈特定律如何破坏 AI 基准测试

GraphRAG vs. 向量 RAG：团队往往过晚才做的架构决策

幻觉并非根本原因：生产环境 AI 的调试方法论

为什么幻觉率不是衡量生产级 LLM 系统的核心指标

智能体工具调用中的幂等性问题

推理优化陷阱：为什么提升单个模型的速度反而会拖慢你的系统

推理服务商向你隐瞒了什么：KV 缓存、批处理与延迟底线

隐形模型漂移：供应商静默更新如何破坏生产 AI

生产环境中的知识蒸馏：让小模型完成大模型的任务

无需微调的知识蒸馏：将前沿模型的能力提取到更廉价的推理路径中

关于 Tian Pan