博客

Page 92

12 articles

Prompt 的语义差异分析：为什么 Git Diff 在提示词变更的影响上会误导你
文本层面的差异与 LLM 行为的变化几乎没有相关性。一个三个词的修改可能会导致 30% 的输出发生翻转，而五十行的结构重组可能毫无变化。本文将介绍如何构建一个 PR 评审人员能够真正信任的语义差异工具集。
prompt-engineeringevals
4月22日12 min
发布并固定版本之陷阱：模型版本的稳定性如何演变为弃用技术债
固定模型版本虽然换取了短期稳定性，却在悄然积累弃用技术债。通过定期的重新验证、针对下一代模型的漂移监控以及双轨提示词组合，你可以将模型迁移从“救火行动”转变为日常运营。
llm-opsai-engineering
4月22日11 min
规范先行（Spec-First）智能体：为什么契约必须先于提示词落实
当作者超过一人时，“以提示词作为规范”的模式就会崩溃。规范先行的契约——包括输入、输出、不变式、错误、拒绝和升级——能将提示词修改转化为代码差异（diffs），使评估可推导，并将负责人入职时间从数月缩短至一周。
insideragents
4月22日13 min
合成偏好陷阱：AI 排序的 RLHF 如何让你的模型悄然漂移到“老师”的口吻中
合成偏好数据看起来像是一顿免费午餐 —— 直到你的产品开始悄无声息地听起来和你用来训练它的“老师”模型一模一样。这是一份关于如何识别、衡量和限制 RLHF 风格漂移的实战指南。
rlhffine-tuning
4月22日15 min
Token 消耗是你的 SOC 尚未监控的安全信号
异常的 LLM Token 消耗是 API Key 被盗、提示词注入或数据外泄的最早信号 —— 但目前看板归财务管，响应归安全管。本文将介绍如何将两者打通。
insidersecurity
4月22日12 min
你的工具描述是提示词，而非 API 文档
工具规范文本是模型在决定何时调用之前读取的提示词。请像对待提示词一样对待它——提供具体的用例、反面示例、同类工具辨析——而不是像对待 OpenAPI 文档那样。
ai-engineeringtool-use
4月22日12 min
工具幻觉率：你的智能体团队尚未运行的探测工具集
大多数智能体团队只测量工具调用的成功率，却从不测量工具幻觉。将该指标细分为三类——未知工具、影子调用和幻觉参数——并构建探测工具集，在生产环境出问题前捕捉这些错误。
insiderai-agents
4月22日11 min
工具清单的谎言：当你的 Agent 信任一个后端已不再遵循的 Schema 时
生产环境 Agent 中最危险的 Bug 不是那些会报错的，而是工具描述承诺了一个后端在两个 Sprint 前就重命名的字段，而模型却仍在按照一切未曾改变的样子进行推理。
ai-agentstool-use
4月22日11 min
工具输出是 Agent 视为可信的不可信通道
工具输出与系统提示词共享 Token 流，因此每个读取类工具都是一个提示注入面。本文将介绍信任边界模型、四种生产模式以及用于实际衡量你的防御措施是否有效的评估框架。
ai-securityllm-agents
4月22日13 min
工具 Schema 弃用：为什么你不能直接重命名参数
Agent 工具 schema 同时存在于两个地方 —— 运行时规范和模型的上下文内存。重命名参数会以不同的方式破坏这两者。这里是弃用指南。
mcpagents
4月22日13 min
首字延迟 (TTFT) 是你尚未监测的延迟 SLO
p50 和 p99 的总延迟忽略了一个决定你 AI 产品体验的关键指标：首字延迟 (TTFT)。本文将探讨为什么推理模型会让情况变得更糟、需要衡量哪些指标，以及如何通过路由策略来优化它。
llm-opsobservability
4月22日12 min
无法合并的智能体重构：为什么多文件差异会在衔接处崩溃
智能体编写的重构在单个文件内看起来很整洁，但在衔接处往往会失效。本文探讨了为什么代码块级别的审查会遗漏跨文件漏洞，以及如何通过“编译优先”和程序分析准则来解决这一问题。
insidercoding-agents
4月22日10 min

较新的博文

较旧的博文

Page 92

Prompt 的语义差异分析：为什么 Git Diff 在提示词变更的影响上会误导你

发布并固定版本之陷阱：模型版本的稳定性如何演变为弃用技术债

规范先行（Spec-First）智能体：为什么契约必须先于提示词落实

合成偏好陷阱：AI 排序的 RLHF 如何让你的模型悄然漂移到“老师”的口吻中

Token 消耗是你的 SOC 尚未监控的安全信号

你的工具描述是提示词，而非 API 文档

工具幻觉率：你的智能体团队尚未运行的探测工具集

工具清单的谎言：当你的 Agent 信任一个后端已不再遵循的 Schema 时

工具输出是 Agent 视为可信的不可信通道

工具 Schema 弃用：为什么你不能直接重命名参数

首字延迟 (TTFT) 是你尚未监测的延迟 SLO

无法合并的智能体重构：为什么多文件差异会在衔接处崩溃

关于 Tian Pan