博客

Page 111

12 articles

知识图谱 vs. 向量存储：选择你的检索原语
向量相似度和图遍历解决的是不同的问题。了解向量存储在多跳推理中何时失效，知识图谱在结构化查询中何时胜出，以及如何构建能够处理两者的混合检索系统。
insiderrag
4月17日10 min
LLM 本地开发循环：在不耗尽 API 预算的情况下实现快速迭代
如何使用录制回放模式、确定性 Fixtures 和分层测试策略，为 LLM 应用构建快速的内部循环 —— 且无需在每次代码变更时耗费大量 API 预算。
insiderllm
4月17日12 min
LLM 流水线单体 vs. 链式架构的权衡：任务分解何时有益，何时有害
大多数团队在没有测量链式调用是否优于单次大上下文调用的情况下就默认选择了链式架构。以下是关于何时链式、何时单体的实证依据。
llmengineering
4月17日9 min
模型弃用就绪：在 90 天倒计时之前审计你的行为依赖
当一个模型被弃用时，最难的部分不是更新 API 调用，而是发现系统所假设的所有隐形行为契约。以下是在时间耗尽前审计这些契约的方法。
insiderllm
4月17日10 min
生产环境中的模型路由：当路由器成本超过节省时
大多数团队部署模型路由器时期待自动节省成本。反直觉的现实是：设计不良的路由器可能比将所有请求都发送到昂贵模型还要费钱。这是真正有效的决策框架。
insiderllm
4月17日11 min
在写第一个提示词之前，如何选对 LLM
公开基准已经饱和，无法告诉你哪个 LLM 能在你的系统中正常工作。本文提供一套实用框架，从真正重要的维度评估模型：函数调用可靠性、结构化输出合规性、你的领域拒绝率，以及真实并发下的延迟。
llmmodel-selection
4月17日10 min
预算有限下的偏好数据：无需研究团队即可捕获 RLHF 信号
如何通过隐式行为遥测、行内编辑和 A/B 提示词从真实用户那里收集成对偏好信号，以及在没有 PPO 基础设施的情况下也能运行的最小可行奖励模型设置。
rlhffine-tuning
4月17日12 min
大规模提示词注入：防御智能体流水线免受恶意内容的侵害
提示词注入是生产环境 AI 智能体中的首要漏洞。本文将探讨其攻击面、为什么指令级防御会失效，以及在对抗压力下保持系统可用性的架构设计。
securityai-agents
4月17日12 min
真正能阻断 PR 合并的提示词回归测试
大多数团队声称在测试他们的提示词。但几乎没有团队建立了能让构建失败的 CI 门控。这里有一个轻量级框架，可以在不烧掉 API 预算的情况下改变这一局面。
insiderai-engineering
4月17日12 min
检索债务：为何你的 RAG 流水线会悄然退化
你的 RAG 流水线在上线时运作良好，但现在答案感觉有些不对劲，却没人能解释为什么。本文剖析检索债务如何通过过期嵌入、墓碑块和编码器漂移悄然积累，以及如何在用户察觉之前遏制这一问题。
insiderrag
4月17日11 min
生产环境中的采样参数：那些没人解释清楚的调参决策
Temperature、top-p 和 top-k 在无声地左右你的 LLM 输出质量。以下是工程师在生产环境中调参时真正需要了解的机制与权衡——包括为何 temperature=0 并不确定，以及 top-p 与 temperature 如何相互作用。
llmproduction
4月17日12 min
结构化输出并非已解决的问题：生产环境中的 JSON 模式失效模式
JSON 模式看起来像是一个已经解决的问题，直到你遇到深度嵌套的 schema、包含大量枚举的类型，或者是静默截断的长补全。本文提供了一份完整的故障分类指南，以及在错误影响用户之前捕获故障的验证模式。
llmstructured-outputs
4月17日14 min

较新的博文

较旧的博文

Page 111

知识图谱 vs. 向量存储：选择你的检索原语

LLM 本地开发循环：在不耗尽 API 预算的情况下实现快速迭代

LLM 流水线单体 vs. 链式架构的权衡：任务分解何时有益，何时有害

模型弃用就绪：在 90 天倒计时之前审计你的行为依赖

生产环境中的模型路由：当路由器成本超过节省时

在写第一个提示词之前，如何选对 LLM

预算有限下的偏好数据：无需研究团队即可捕获 RLHF 信号

大规模提示词注入：防御智能体流水线免受恶意内容的侵害

真正能阻断 PR 合并的提示词回归测试

检索债务：为何你的 RAG 流水线会悄然退化

生产环境中的采样参数：那些没人解释清楚的调参决策

结构化输出并非已解决的问题：生产环境中的 JSON 模式失效模式

关于 Tian Pan