博客

Page 33

12 articles

AI 工程师的前 90 天：一份在六周文档失效期内依然有效的入职指南
一份为 AI 工程师准备的 90 天入职计划，用观摩 Eval 评审、受监督的 Prompt 差异比对和端到端裁判模型校准，取代陈旧的架构文档。
insiderai-engineering
5月13日13 min
免费层级流量才是你真实的评估集
针对付费用户队列的追踪记录来对 LLM 进行评分，实际上是在针对简单的分布进行评分。仍在犹豫是否升级的群体主要集中在免费层级 —— 而评估集往往忽略了这一点。
insiderevals
5月13日11 min
GPU 算力是产品路线图的约束：决定第三季度的 18 个月合同
多年期 GPU 承诺悄然将产品路线图与那些从未见过功能列表的人所做的容量决策绑定在一起。这里是弥合这一差距的规划准则。
ai-engineeringfinops
5月13日11 min
内部评估集：一个无人审查的隐私边界
AI 团队通常根据生产环境的对话来评估模型，并将其称为内部数据集。根据目的限制原则，这其实是一个未经审查的独立数据处理环节。
insiderai-engineering
5月13日12 min
延迟感知工具选择：当“当下的足够好”优于“未来的最出色”
智能体提示词中的静态工具描述在实时延迟和错误率面前会逐渐失效。提示词中的运行时“等待成本”信号，是将工具选择从僵化的评估产物转变为路由决策的关键。
insiderai-agents
5月13日11 min
区域分层评估 (Locale-Stratified Evals)：如何捕捉英语测试集无法发现的非英语回归问题
英语优先的评估汇总往往会掩盖法语、日语和葡萄牙语查询中的性能倒退，直到用户流失时才被发现。通过区域分层评估、区域感知的评测员以及流量加权报告的规范，可以在用户感知之前捕捉到区域性的评估漂移。
ai-engineeringevals
5月13日14 min
MCP 工具弃用：为什么模型仍然调用旧名称
重命名 MCP 工具不仅仅是 API 弃用 —— 这是一种模型分布的转变。本文将探讨为什么旧名称会持续出现，以及如何在不触发运维告警的情况下逐步淘汰它。
insidermcp
5月13日10 min
移动应用商店审核与 AI 功能：发布频率的碰撞
Web 端 AI 功能可以在几分钟内完成迭代；而移动端 AI 功能则受限于平台的审核周期。本文将探讨如何在同一套评估标准和两条发布流水线下，通过架构衔接确保两个端的一致性。
mobileai-engineering
5月13日10 min
模型迁移的双重账单：被忽视的评测重锚税
更换基础模型会悄无声息地使你的评测基准失效——人工锚定的评分、LLM 裁判、快照以及团队直觉都需要重新锚定，而由此产生的人工成本通常比节省的 token 费用更高。
insiderevals
5月13日11 min
凌晨 3 点处理一个没有报 500 错误的 AI 功能报警
传呼机响了，是因为流量评估得分下降了四个百分点，而不是因为服务崩溃。本文探讨针对现有告警无法触发的故障模式，如何制定运维手册（Runbook）模式、告警设计以及轮值纪律。
ai-engineeringon-call
5月13日13 min
按客户定制的提示词分支：为什么你的下一次模型迁移是 47 次迁移
针对每个客户的系统提示词定制会在不知不觉中累积，直到模型迁移那一天，单一供应商的版本弃用演变成了 47 个独立的重新验证任务。本文探讨了能够防止这种情况的“基础加覆盖”架构和审批规范。
insiderprompt-engineering
5月13日13 min
Prompt 的 Pre-Commit Hooks：LLM 团队一直缺失的内环工具链
如今 Prompt 对行为的影响已经超过了代码，但大多数团队仍在使用 2008 年时代的工具进行评审。本文介绍了五种 pre-commit hooks —— 格式化工具、静态检查器、密钥与 PII 扫描器、冒烟评估以及缓存影响评估器 —— 旨在以应有的严谨态度对待 Prompt 的修改。
prompt-engineeringllm-ops
5月13日11 min

较新的博文

较旧的博文

Page 33

AI 工程师的前 90 天：一份在六周文档失效期内依然有效的入职指南

免费层级流量才是你真实的评估集

GPU 算力是产品路线图的约束：决定第三季度的 18 个月合同

内部评估集：一个无人审查的隐私边界

延迟感知工具选择：当“当下的足够好”优于“未来的最出色”

区域分层评估 (Locale-Stratified Evals)：如何捕捉英语测试集无法发现的非英语回归问题

MCP 工具弃用：为什么模型仍然调用旧名称

移动应用商店审核与 AI 功能：发布频率的碰撞

模型迁移的双重账单：被忽视的评测重锚税

凌晨 3 点处理一个没有报 500 错误的 AI 功能报警

按客户定制的提示词分支：为什么你的下一次模型迁移是 47 次迁移

Prompt 的 Pre-Commit Hooks：LLM 团队一直缺失的内环工具链

关于 Tian Pan