博客

Page 60

12 articles

覆盖率幻觉：为什么 AI 生成的测试会继承代码的盲点
当 AI 同时生成代码和测试时，会形成一个封闭循环：相同的盲点同时出现在两者中。高行覆盖率变成了虚假信号，测试套件成了强化缺陷而非捕获缺陷的产物。
insiderai-engineering
5月3日10 min
过度纠正陷阱：为什么在 AI 功能公开失败后下架它反而让恢复更慢
当你的 AI 功能公开失败时，下架它或堆砌护栏的本能反应会让恢复延迟数月。以下是为什么冷启动信任修复与软件 Bug 修复的运作方式截然不同——以及应该怎么做。
ai-reliabilityincident-response
5月3日11 min
AI 系统设计顾问：它能做对什么、会自信地做错什么，以及如何分辨
AI 在教科书式的架构权衡与模式探索上能给出真正有价值的输入——但当你的真实约束才是关键时，它会给出危险的过度自信建议。
insiderai
5月3日10 min
系统提示词的行为克隆：在专家离职前留住专业判断
当构建你生产系统提示词的工程师离职时，其中每一条规则背后的逻辑也随之消失。结构化的行为克隆方法可以在这些知识流失之前，捕捉到其中的 “为什么”。
insiderprompt-engineering
5月3日10 min
预算倒置陷阱：为什么你最重要的AI功能却在用最便宜的推理模型
AI系统中的成本压力经常将复杂的高价值工作流路由到最便宜的模型——而低价值查询却运行在顶级模型上。本文介绍如何审查并修正这一倒置问题。
aillm
5月3日9 min
思维链的两种失败模式，无人谈及
可见推理链本应让AI更透明——但研究表明，它会在用户看到最终答案之前，将其锚定于错误结论，将答案淹没在冗长文字中，并产生误导合规审查人员的虚假审计追踪。
llmreasoning
5月3日10 min
共同演化陷阱：AI 功能的成功如何正在悄悄破坏其评估体系
当用户适应你的 AI 功能时，他们会改变该功能最初评估时所基于的分布。本文将探讨如何检测用户引发的分布偏移，并构建随时间推移仍能保持真实的评估体系。
aievaluation
5月3日10 min
持续生产环境评估：实时 LLM 流量的统计质量监控
部署前的评估只能捕获约 40% 的生产环境故障。通过使用无参考信号、SPC 控制图和 SLO 消耗率告警的持续监控技术栈，可以在用户发现之前捕获剩余的故障。
llm-monitoringevaluation
5月3日10 min
副驾驶陷阱：为什么全自动驾驶交付更快但失败更惨
全自动化交付虽快，但其失败往往是系统性的。本文提供了一个决策框架，用于在自动化频谱上定位每个 AI 功能，并探讨了为什么“直接做成智能体”是错误的默认选择。
ai-engineeringagentic-ai
5月3日11 min
复制粘贴传染病：AI 辅助开发如何传播架构反模式
AI 编程工具生成的代码局部连贯但全局不一致。当开发者接受建议并进行复制粘贴时，架构反模式正以机器速度传播，且缺乏代码所有权的问责机制。
ai-engineeringsoftware-architecture
5月3日12 min
动态系统提示词组装：请求时可组合的 AI 行为
如何在请求时根据用户角色、功能开关和任务上下文，从模块化组件构建系统提示词——以及由此带来的安全风险。
insiderllm
5月3日11 min
评估与生产环境的差距：检测生产级 LLM 中的行为模式切换
生产环境中的 LLM 在评估上下文中的表现通常与实际流量中的表现不同 —— 而大多数团队从未察觉到这一点。本文将介绍如何在差异侵蚀系统信任之前将其识别出来。
insiderllm
5月3日11 min

较新的博文

较旧的博文

Page 60

覆盖率幻觉：为什么 AI 生成的测试会继承代码的盲点

过度纠正陷阱：为什么在 AI 功能公开失败后下架它反而让恢复更慢

AI 系统设计顾问：它能做对什么、会自信地做错什么，以及如何分辨

系统提示词的行为克隆：在专家离职前留住专业判断

预算倒置陷阱：为什么你最重要的AI功能却在用最便宜的推理模型

思维链的两种失败模式，无人谈及

共同演化陷阱：AI 功能的成功如何正在悄悄破坏其评估体系

持续生产环境评估：实时 LLM 流量的统计质量监控

副驾驶陷阱：为什么全自动驾驶交付更快但失败更惨

复制粘贴传染病：AI 辅助开发如何传播架构反模式

动态系统提示词组装：请求时可组合的 AI 行为

评估与生产环境的差距：检测生产级 LLM 中的行为模式切换

关于 Tian Pan