博客

Page 71

12 articles

AI 事件响应手册：诊断生产环境中的 LLM 性能退化
当你的 LLM 功能在生产环境中出现退化时，标准的 SRE 运行手册会让你无从下手。这里有一份专门为 AI 系统构建的诊断树、提示词回滚策略和事后分析模板。
ai engineeringreliability
4月18日16 min
AI 事故应对指南：当你的智能体造成现实世界损害时
当 AI 智能体造成现实世界的损害时，你现有的停服应对指南会误导你。这是一份专为随机系统构建的策略：如何在没有堆栈跟踪的情况下界定爆炸半径、在证据消失前进行保全，以及如何在“模型幻觉”之外进行深入调查。
insiderai-engineering
4月18日12 min
AI 输出的版权陷阱：工程师在演变成法律问题前需要了解的知识
训练数据记忆、演绎作品原则以及输出所有权是当前存在直接工程影响的法律争议。本文将介绍风险面以及能够切实降低法律责任的管控措施。
ai-engineeringlegal
4月18日12 min
AI 审美难题：在没有标准答案时如何衡量质量
当准确性指标失去意义时，如何评估 AI 的输出——文案创作、创意内容和设计背后的两两比较研究、评分者间信度和 LLM 评审员的工程学科。
aievaluation
4月18日13 min
AI 技术债的三座无声时钟
与代码债务不同，AI 特有的技术债——提示词漂移、评估侵蚀和嵌入陈旧——会以隐蔽的方式累积。本文将介绍如何在这些时钟耗尽之前检测它们。
ai-engineeringllmops
4月18日11 min
标注经济学：每种标签来源背后隐藏的代价
在评测标签来源的选择上——人类领域专家、众包工人、LLM 合成生成和行为推断——的决策框架，以及何时「无标注」才是正确答案。
insiderevaluation
4月18日9 min
无需标注的评估：在拥有标准答案前衡量 LLM 质量
一份在第一周 —— 即在你拥有标注数据之前 —— 衡量 LLM 输出质量的实用指南。涵盖了自我一致性、约束满足、行为不变性以及 LLM 作为裁判（LLM-as-judge），并探讨了每种方法的失效模式。
llm-evaluationai-engineering
4月18日13 min
你从未闭合的反馈回路：将用户行为转化为 AI 真值
显式的点赞评分可能是表象。编辑率、重试模式和会话中断能更真实地反映 AI 的质量 —— 而且你可以在没有标注预算的情况下，将它们转化为评估数据集。
insiderai-engineering
4月18日12 min
基准污染：为什么那个90% MMLU分数并不意味着你想象的那样
前沿模型在标准基准上表现亮眼，但污染——测试数据泄漏到预训练中——会显著虚高这些数字。本文揭示实际差距有多大，以及如何设计能给出诚实信号的评估。
insiderai-engineering
4月18日9 min
为何"修改提示词"是根因谬误：为 AI 系统打造无责事后复盘
「修提示词」的反射动作正在取代 AI 事件复盘中真正的根因分析。本文解释为何如此，以及如何将无责 SRE 文化应用于非确定性系统。
ai-engineeringsre
4月18日10 min
董事会级别的 AI 治理：只有高管才能做的五个决策
大多数 AI 治理文章面向 MLOps 团队。但有五项战略决策只能由董事会做出——而搞错的监管风险正在快速增长。
aiengineering-leadership
4月18日10 min
生产环境中的浏览器 Agent：DOM 脆弱性税
浏览器和计算机使用型 AI Agent 的失败方式，既不在基准测试中出现，也不在演示中暴露。本文揭示生产环境中真正导致失败的原因，以及保持系统稳定运行的架构模式。
insiderbrowser-agents
4月18日14 min

较新的博文

较旧的博文

Page 71

AI 事件响应手册：诊断生产环境中的 LLM 性能退化

AI 事故应对指南：当你的智能体造成现实世界损害时

AI 输出的版权陷阱：工程师在演变成法律问题前需要了解的知识

AI 审美难题：在没有标准答案时如何衡量质量

AI 技术债的三座无声时钟

标注经济学：每种标签来源背后隐藏的代价

无需标注的评估：在拥有标准答案前衡量 LLM 质量

你从未闭合的反馈回路：将用户行为转化为 AI 真值

基准污染：为什么那个90% MMLU分数并不意味着你想象的那样

为何"修改提示词"是根因谬误：为 AI 系统打造无责事后复盘

董事会级别的 AI 治理：只有高管才能做的五个决策

生产环境中的浏览器 Agent：DOM 脆弱性税

关于 Tian Pan