博客

Page 145

12 articles

LLM Agent 的图内存：扁平向量搜索遗漏的关系盲点
向量搜索可以检索相似的事实，但无法还原事实之间的关系 —— 这种结构性盲点阻碍了 Agent 处理多跳查询、动态状态演变和长程推理。本文探讨了图内存如何修复这些问题及其付出的代价。
llm-agentsagent-memory
4月9日11 min
为生产环境中的 LLM 构建幻觉检测流水线
一套结合了哨兵分类、Token 级检测和 NLI 验证的三阶段流水线，能够在生产环境中以低于 200ms 的 P99 延迟捕捉 LLM 的捏造、矛盾及过时主张。
insiderhallucination-detection
4月9日15 min
隐藏草稿板问题：为什么仅凭输出监控无法保障生产级 AI Agent 的安全
前沿模型在可见的推理中仅有 25–41% 的时间会承认敏感输入的影响。本文将探讨为什么输出层监控无法保障生产级 Agent 的安全，以及如何构建能够追踪隐藏计算的监管机制。
insiderai-safety
4月9日12 min
隐藏的 Token 税：在用户开口之前，你的上下文窗口为何已消失了 30-60%
系统提示词、工具 Schema、聊天历史和安全前导词在用户内容到达之前，正悄无声息地消耗掉你 LLM 上下文窗口的 30-60% —— 本文将介绍如何审计并回收这些空间。
llm-productiontoken-optimization
4月9日10 min
云边混合 LLM 架构：将推理路由至其真正所属之处
70-80% 的生产环境 LLM 查询其实并不需要尖端模型。云边混合架构能够将每个请求路由到可以妥善处理该任务的最经济层级——通过使用复杂度分类器、置信度级联和投机采样，在不牺牲质量的前提下，将边缘路径的成本降低 50-100 倍。
edge-aillm-inference
4月9日11 min
混合云-边缘 LLM 推理：决定成本、延迟和隐私状况的路由层
边缘和云端推理之间的路由层可将 LLM 成本降低 60–80%，同时改善延迟和隐私 —— 本文介绍了查询级路由、模型压缩、投机性解码背后的工程实践，以及使混合架构在生产环境中运行的编排技术。
insideredge-ai
4月9日12 min
混合云边 LLM 推理：决定模型运行位置的延迟-隐私-成本“黄金三角”
一份关于在端侧模型与云端 API 之间分配 LLM 推理任务的生产指南 —— 涵盖延迟-隐私-成本三角模型、保持任务精度的压缩技术、智能查询路由，以及混合架构特有的失效模式。
insideredge-ai
4月9日14 min
混合云边 LLM 推理：端侧模型何时优于云端
生产团队正将 60–80% 的 LLM 查询路由到端侧模型——将延迟降低到 20 ms 以下，消除了数据驻留的烦恼，并大幅削减了云端推理成本。这是一份关于混合云边推理背后的路由、压缩和架构模式的实用指南。
edge-aillm-inference
4月9日14 min
如何在 CI 中对 AI Agent 工作流进行集成测试，而无需完全 Mock 模型
一种针对 AI Agent 的三层 CI 测试架构，既能避免实时 API 调用产生的成本，也能避免完全 Mock 模型带来的空洞感 —— 通过使用 StubLLM 测试替身、VCR 录制回放以及工具契约测试，在编排 Bug 进入生产环境前将其捕获。
insiderai-agents
4月9日13 min
意图鸿沟：当你的 LLM 完美回答了错误的问题
意图不一致导致了 32% 的 LLM 答非所问 —— 模型虽然回答了字面上的问题，却忽略了用户的真实需求。本文将探讨为什么这种现象能逃过你的评估，以及如何缩小这一鸿沟。
insiderllm
4月9日11 min
LLM 排队论：为什么你的负载均衡器按请求思考，而你的 GPU 按 Token 思考
将利特尔法则、优先级队列和准入控制应用于基于 Token 的 LLM 推理工作负载——探讨为什么请求级负载均衡会失效，工作保留调度器如何释放额外 30-70% 的 GPU 吞吐量，以及防止生产环境意外的容量规划数学。
insiderllm-inference
4月9日14 min
LLM 请求生命周期是一个状态机 —— 像对待状态机一样对待它
LLM 请求并非线性的 —— 它们会悄无声息地穿越重试、降级和验证状态，而大多数团队从未对这些状态进行埋点。将请求生命周期建模为显式的有限状态机，可以使每一次转换都变得可见、可调试且成本可归因。
insiderllm
4月9日11 min

较新的博文

较旧的博文

Page 145

LLM Agent 的图内存：扁平向量搜索遗漏的关系盲点

为生产环境中的 LLM 构建幻觉检测流水线

隐藏草稿板问题：为什么仅凭输出监控无法保障生产级 AI Agent 的安全

隐藏的 Token 税：在用户开口之前，你的上下文窗口为何已消失了 30-60%

云边混合 LLM 架构：将推理路由至其真正所属之处

混合云-边缘 LLM 推理：决定成本、延迟和隐私状况的路由层

混合云边 LLM 推理：决定模型运行位置的延迟-隐私-成本“黄金三角”

混合云边 LLM 推理：端侧模型何时优于云端

如何在 CI 中对 AI Agent 工作流进行集成测试，而无需完全 Mock 模型

意图鸿沟：当你的 LLM 完美回答了错误的问题

LLM 排队论：为什么你的负载均衡器按请求思考，而你的 GPU 按 Token 思考

LLM 请求生命周期是一个状态机 —— 像对待状态机一样对待它

关于 Tian Pan