博客

Page 16

12 articles

被切分边界拦腰截断的关键句，以及随之消失的答案
固定大小的 Token 切分会将关键子句拦腰切断，导致碎片化的片段无法被单独检索。本文探讨了为什么这种失败在标准评估中难以察觉，以及哪些切分策略能真正解决这一问题。
insiderrag
5月31日11 min
那些在本地通过但在 CI 中失败的编程智能体
编程智能体会继承你笔记本电脑中已配置好的环境，并提交在本地通过但在 CI 中失败的补丁。解决方案是建立仓库级的环境契约、进行预检一致性检查，并根据本地与 CI 的差异进行评分。
insiderai-engineering
5月31日12 min
对话树：你的服务器作为日志存储的对话结构
聊天界面允许用户编辑和重新生成消息，而后端则静默地将每一次修改追加到线性日志中 —— 结果就是模型在回答那个用户以为已经撤回了的对话。
insiderai-agents
5月31日12 min
那个因为你的智能体表现得过于自信而流失的客户
过度自信的 AI 智能体不会在满意度调查中丢掉续约机会——它们是在六周后的续约电话中丢掉的。应将置信度的展示视为一种经过版本控制的产品界面，而非一种风格上的偶然。
ai-producttrust-calibration
5月31日10 min
你在三月份录制的演示视频是它最后一次正常工作的时候
随着模型快照、提示词、工具目录和检索底层在背后发生漂移，录制的销售演示视频已成为潜在的风险点。通过演示清单结合每晚的评估套件，可以将录像转化为可测试的行为承诺。
insiderllmops
5月31日9 min
悄然渗入你提示词中的评估集
少样本检索和共享的 CSV 文件如何悄无声息地将精心准备的评估库变成你提供给模型的上下文示例——以及如何通过存储层隔离来阻止这一切。
insiderllm-evaluation
5月31日10 min
你的代码从未检查过的 Finish Reason
每个推理 API 在返回文本的同时都会返回一个停止信号。忽略它与忽略 HTTP 状态码的错误本质相同 —— 而且你的仪表盘无法察觉它所导致的失败。
llmobservability
5月31日11 min
那个在 11 小时内烧光你季度推理预算的免费试用
针对人类注意力设计的试用上限，在程序化注册将智能体 (Agent) 对准端点的那一刻就会崩溃。这份实战指南旨在为实际注册的用户群体重新设计配额、检测机制和配额耗尽的交互体验。
insiderai-cost
5月31日11 min
被你的 Coding Agent 污染的热重载循环
当 coding agent 的写入速度超过开发服务器监听器的去抖动（debounce）时间时，HMR 覆盖层会变成一个自激振荡器，而 agent 会将其读回并加入到自己的推理中。
coding-agentsdev-tooling
5月31日13 min
编程智能体绕过而未使用的代码规范（Idiom）
编程智能体交付的代码能够正常编译、通过测试且评审也通过了 —— 但使用的代码规范（Idiom）却是你的代码库中所不具备的。本文将探讨这种情况发生的原因，以及如何应对这种“规范漂移”。
coding-agentscode-review
5月31日13 min
你的编程智能体悄然打破的内部循环
编程智能体加速了代码变更，却减缓了认知过程。隐藏的代价是工程师的心理模型 —— 以及维持这一模型所需的实践。
insiderai-engineering
5月31日9 min
你用智能体替换的内部搜索框刚刚成为了你的 SLO
停用一个确定性功能而转用智能体，会悄无声息地将前任的 SLO 移交给一个无法满足它的系统 —— 而这种差距会在你的推理提供商进行限流的那个早晨显现出来。
ai-agentssre
5月31日12 min

较新的博文

较旧的博文

Page 16

被切分边界拦腰截断的关键句，以及随之消失的答案

那些在本地通过但在 CI 中失败的编程智能体

对话树：你的服务器作为日志存储的对话结构

那个因为你的智能体表现得过于自信而流失的客户

你在三月份录制的演示视频是它最后一次正常工作的时候

悄然渗入你提示词中的评估集

你的代码从未检查过的 Finish Reason

那个在 11 小时内烧光你季度推理预算的免费试用

被你的 Coding Agent 污染的热重载循环

编程智能体绕过而未使用的代码规范（Idiom）

你的编程智能体悄然打破的内部循环

你用智能体替换的内部搜索框刚刚成为了你的 SLO

关于 Tian Pan