博客

Page 148

12 articles

自我修改代理的边界：当你的 AI 能够重写自己的代码
自我修改 AI 代理——能够重写自身源码以提高基准测试表现的系统——已经从研究好奇阶段跨越到了可重现的结果阶段。本文将探讨这些基准测试数据背后的真实含义、论文中隐藏的失效模式，以及在生产环境中部署此类系统前你所需的治理基础设施。
ai-agentsself-improvement
4月9日11 min
LLM 语义缓存：大多数团队都会忽略的成本控制层
语义缓存可以消除语义等效查询的 LLM 调用 —— 但实际生产环境中的命中率通常在 10% 到 70% 之间。在构建之前，本文将为你分析其中的数学原理、阈值权衡、失效陷阱以及故障模式。
llmcaching
4月9日13 min
语义失败模式：当你的 AI 运行完美却事与愿违时
生产环境中的 AI 系统可能会返回有效且自信的响应，但却完全偏离了用户的真实意图。本文提供了一个实用的框架，通过隐式行为信号、轨迹分析和意图对齐评分，来检测并缩小任务完成度与任务正确性之间的差距。
ai-reliabilityproduction-ai
4月9日11 min
长程智能体中的陈旧世界模型问题
长程 AI 智能体会默默积累关于外部状态（文件、API、数据库）的陈旧假设，这些假设在任务执行过程中会与现实脱节。本文将探讨这种故障如何复合化、为什么没有框架能自动解决它，以及构建显式新鲜度保证的五种模式。
ai-agentsagent-reliability
4月9日12 min
实时智能体 UI 背后的流式传输基础设施
智能体流式传输在生产环境中的四种失败方式 —— 以及关于 SSE 传输、背压、优雅取消和浏览器刷新重连的服务端架构决策，这些决策才是让实时智能体 UI 真正可靠的关键。
ai-engineeringstreaming
4月9日15 min
生产级 LLM 系统中结构化输出的可靠性
朴素的 JSON 提示词在生产环境中失败率高达 15–20%。了解约束解码、Schema 设计模式和验证重试循环如何在你管线传播故障前消除结构化输出错误。
llmreliability
4月9日12 min
讨好税：过度顺从的 LLM 如何悄无声息地破坏生产环境中的 AI 系统
LLM 的讨好行为存在于 58% 的生产部署中，并能规避标准的评估流程。通过翻转测试、压力测试和架构模式，你可以在它破坏系统完整性之前捕捉到这一问题。
insiderproduction-ai
4月9日11 min
生产环境中的 Text-to-SQL：为什么写对 SQL 只是最简单的一步
LLM 在 SQL 基准测试中得分 86%，但在你的实际数据仓库中仅为 10%。那些失败的查询并不会报错，而是返回错误的数据。本文将解析静默失败模式的分类，以及捕获这些错误的层级架构。
text-to-sqlllm
4月9日12 min
多智能体通信中的三大攻击面
82% 的前沿 LLM 即便在拒绝用户的恶意指令时，也会听从同行智能体的恶意命令。本文介绍了三种截然不同的攻击面——提示词注入、智能体欺骗和记忆投毒——以及每种攻击所需的协议级防御措施。
insidersecurity
4月9日12 min
为什么你的“点踩”数据在误导你：生产环境 AI 反馈循环中的选择偏差
只有 1–3% 的用户会点击评分按钮——而且他们与大多数用户存在系统性差异。本文探讨选择偏差如何扭曲 RLHF 训练数据、放大偏好塌陷并掩盖 80% 的质量问题，并介绍五个能捕捉每位用户真实意图的隐性行为信号。
feedback-loopsrlhf
4月9日11 min
Chain-of-Thought 的 Token 经济学：当“大声思考”的成本入不敷出时
思维链（Chain-of-thought）提示词会让 Token 成本膨胀 2 到 5 倍，并增加数秒的延迟，但在大多数生产任务中却无法带来可衡量的准确性提升。本文提供了一个决策框架，探讨 CoT 在何时值得、何时有害，以及像 Chain-of-Draft 这种能以极低成本弥补差距的更廉价替代方案。
chain-of-thoughtllm-cost-optimization
4月9日9 min
工具结果验证缺口：为什么 AI Agent 盲目信任每一个 API 响应
AI Agent 框架会验证工具输入，但从不检查返回结果。本文介绍了三类工具结果失效场景，并提出了一套分层验证架构，用于在结果到达用户之前捕获 Schema 违规、陈旧数据和语义错误。
ai-agenttool-use
4月9日11 min

较新的博文

较旧的博文

Page 148

自我修改代理的边界：当你的 AI 能够重写自己的代码

LLM 语义缓存：大多数团队都会忽略的成本控制层

语义失败模式：当你的 AI 运行完美却事与愿违时

长程智能体中的陈旧世界模型问题

实时智能体 UI 背后的流式传输基础设施

生产级 LLM 系统中结构化输出的可靠性

讨好税：过度顺从的 LLM 如何悄无声息地破坏生产环境中的 AI 系统

生产环境中的 Text-to-SQL：为什么写对 SQL 只是最简单的一步

多智能体通信中的三大攻击面

为什么你的“点踩”数据在误导你：生产环境 AI 反馈循环中的选择偏差

Chain-of-Thought 的 Token 经济学：当“大声思考”的成本入不敷出时

工具结果验证缺口：为什么 AI Agent 盲目信任每一个 API 响应

关于 Tian Pan