博客

Page 124

12 articles

LLM 工程师招聘：面试究竟该测试什么
标准的代码筛选和机器学习数学题无法预测 LLM 工程的成功。以下是实际的面试练习如何揭示候选人交付 AI 产品能力的真实情况。
llmhiring
4月15日11 min
热路径与冷路径 AI：决定你 p99 延迟的架构决策
一个决策框架，用于确定哪些 AI 工作属于请求路径，哪些属于队列，以及在流量形态变化时如何跨越边界进行迁移。
ai-architecturelatency
4月15日12 min
隐性 API 契约：你的 LLM 供应商没有写在文档里的那些事
LLM 供应商保证正常运行时间和延迟 SLA，但不保证你的提示词下个月仍能产生相同输出。工程师需要了解关于隐性行为契约的哪些内容，以及如何针对它进行测试。
llmproduction
4月15日11 min
大多数 Agent 路由器跳过的意图分类层
大多数 Agent 路由器在每次请求时都加载所有工具 Schema，让 LLM 自行决策。当工具数量达到 417 个时，这种方式的准确率会崩跌至 20%。本文解释意图分类层如何解决这一问题——以及跳过它如何在规模化后悄然损毁准确率和成本。
insiderai-engineering
4月15日12 min
裁判模型独立性：当评分者与被评分者共享盲点时，你的评测为何会失效
使用同一模型家族同时担任产品和裁判会因共享盲点导致评分虚高 8–16%。本文介绍如何构建真正能捕获模型遗漏问题的评测系统。
insiderevaluation
4月15日11 min
让合成评估数据保持真实
用 LLM 生成自己的测试用例会制造一个令人满意却具有误导性的反馈循环。以下介绍对抗性注入、人工标注分流和多样性差距分析如何修复合成评估的结构性盲点。
ai-engineeringevaluation
4月15日11 min
知识图谱作为 RAG 的替代方案：当结构化检索优于向量嵌入时
向量相似度搜索在处理多跳查询和依赖模式的事实时往往会悄然失效。本文将探讨属性图遍历查询在何时优于嵌入查找，以及如何构建兼顾两者的混合系统。
ragknowledge-graphs
4月15日10 min
生产环境中的 LLM 置信度校准：衡量与解决过度自信问题
那些声称 “我非常有信心” 的 LLM 往往就在那个点上出错。本文探讨如何衡量校准误差、为什么 RLHF 会让情况变得更糟，以及真正有效的生产环境设计模式。
llmproduction
4月15日13 min
提供商抽象税：构建无需重写即可切换模型的 LLM 应用
直接在单一 LLM 提供商上进行开发的团队会积累提示词习惯、工具模式约定和行为依赖，这些都会转化为迁移债务。本文介绍了一种抽象层设计，使切换提供商变成只需修改配置的工作，而非长达数月的重写工程。
llmengineering
4月15日12 min
LLM 在安全运营中心的应用：在不承担责任风险的情况下实现加速
如何将 LLM 接入安全运营，以便在加速警报分拣的同时，避免在悄无声息中批准真实的入侵行为——涵盖置信度阈值、日志投毒防御以及关键指标。
securityllm
4月15日12 min
没人调校的 max_tokens 旋钮：将输出截断作为成本杠杆
大多数团队为了避免生成中途截断而过度填充 max_tokens，并为此持续支付冗余的费用。根据真实的输出分布进行基于路由的校准，可以在不损失质量的情况下将输出 token 支出降低 20–40%。
insiderllm
4月15日12 min
你的 AI 功能应该先输给正则表达式一次
在你投入微调或 RAG 之前，你的 AI 功能应该被要求击败你能构建的最简单的确定性基准。大多数团队跳过了这个环节，并为此付出了代价。
ai-engineeringllm
4月15日10 min

较新的博文

较旧的博文

Page 124

LLM 工程师招聘：面试究竟该测试什么

热路径与冷路径 AI：决定你 p99 延迟的架构决策

隐性 API 契约：你的 LLM 供应商没有写在文档里的那些事

大多数 Agent 路由器跳过的意图分类层

裁判模型独立性：当评分者与被评分者共享盲点时，你的评测为何会失效

让合成评估数据保持真实

知识图谱作为 RAG 的替代方案：当结构化检索优于向量嵌入时

生产环境中的 LLM 置信度校准：衡量与解决过度自信问题

提供商抽象税：构建无需重写即可切换模型的 LLM 应用

LLM 在安全运营中心的应用：在不承担责任风险的情况下实现加速

没人调校的 max_tokens 旋钮：将输出截断作为成本杠杆

你的 AI 功能应该先输给正则表达式一次

关于 Tian Pan