博客

Page 128

12 articles

AI Agent 权限蔓延：无人审计的授权债
AI Agent 在悄无声息地积累过量权限 —— 每一个新的集成都会增加 “一个 scope”，直到你的 Agent 拥有了自试点以来从未触碰过的生产数据库写入权限。本文将介绍用于阻止这种情况的审计方法论和 JIT 配置模式。
ai-agentssecurity
4月14日12 min
为什么你的 AI 演示总是优于最终上线表现
AI 演示在精心挑选的输入下得分很高。而生产环境的流量更杂乱、更广泛，并且充满了团队从未预料到的边缘情况。本文将探讨这种差距产生的原因，并提供在发布前缩小差距的方法论。
llmevaluation
4月14日9 min
AI 招聘评分标准的问题：为什么你的面试流程选错了工程师
传统编程面试对真正预示 AI 工程成功的技能视而不见。以下是真正应该考察的内容。
ai engineeringhiring
4月14日9 min
指标翻译问题：为何技术上成功的 AI 项目反而失去资金
80% 的 AI 项目未能交付商业价值——不是因为模型不行，而是工程团队从未将技术指标翻译成高管能够评估的语言。一套将 F1 分数、延迟和评估结果映射到能维持项目资金的业务成果的实用框架。
aimachine-learning
4月14日10 min
环境 AI 设计：当聊天界面是错误的抽象时
大多数 AI 功能都被构建为聊天界面——但对于大部分有价值的 AI 工作来说，聊天是错误的抽象。本文将探讨如何识别何时环境智能体才是正确的选择。
ai-engineeringai-agents
4月14日9 min
标注流水线是生产级基础设施
为评估和微调运行人工标注是一个软件工程问题，但大多数团队却在用电子表格管理它。本文将探讨生产级标注基础设施的真实面貌，以及为什么标注者间一致性（IAA）是规范健康度的信号，而非人手多少的问题。
insiderannotation
4月14日13 min
LLM 流水线的背压模式：为何指数退避还不够
四种生产模式——令牌桶队列、优先级通道、感知令牌预算的熔断器和负载卸除——在指数退避让系统陷入持续过载振荡时，让 LLM 流水线保持稳定可靠。
llminfrastructure
4月14日11 min
行为契约：编写工程师真正能测试的 AI 需求
传统的验收标准在随机 AI 系统上会失效。四字段行为契约格式——输入类、期望行为、失败预算、测试预言机——为工程师提供了真正可衡量的依据。
ai-engineeringllm
4月14日11 min
大多数团队都会搞错的 LLM 基础设施“自研还是购买”决策
大多数团队在做 LLM 基础设施“自研还是购买”的决策时，都低估了双方的总拥有成本 (TCO)。本文将为你分析各个阶段的盈亏平衡计算，以及那些没人列入预算的隐藏成本。
llminfrastructure
4月14日12 min
闭合反馈回路：生产 AI 系统究竟如何持续改进
为什么大多数团队收集的反馈信号从未到达模型——以及将生产遥测转化为真正能力提升的架构决策。
insiderllm
4月14日14 min
AI 功能中的冷启动问题：为何第一周总是失败
为何行为机器学习系统在第一天就会失败——以及在真实训练数据到来之前保持系统可用的分层引导架构。
machine-learningpersonalization
4月14日12 min
长期运行 AI 智能体中的上下文毒化
长期运行的 AI 智能体中积累的上下文是如何默默地破坏推理能力的，导致该问题的四种故障模式，以及防止级联故障的检查点、剪裁和不变性检查模式。
insideragents
4月14日11 min

较新的博文

较旧的博文

Page 128

AI Agent 权限蔓延：无人审计的授权债

为什么你的 AI 演示总是优于最终上线表现

AI 招聘评分标准的问题：为什么你的面试流程选错了工程师

指标翻译问题：为何技术上成功的 AI 项目反而失去资金

环境 AI 设计：当聊天界面是错误的抽象时

标注流水线是生产级基础设施

LLM 流水线的背压模式：为何指数退避还不够

行为契约：编写工程师真正能测试的 AI 需求

大多数团队都会搞错的 LLM 基础设施“自研还是购买”决策

闭合反馈回路：生产 AI 系统究竟如何持续改进

AI 功能中的冷启动问题：为何第一周总是失败

长期运行 AI 智能体中的上下文毒化

关于 Tian Pan