跳到主要内容

11 篇博文 含有标签「AI」

查看所有标签

互联网商务的未来:2025年Stripe Sessions大会五大关键洞察

· 阅读需 10 分钟

每年,Stripe Sessions大会都是窥探互联网经济未来发展的重要窗口。今年的大会同样精彩纷呈,Collison兄弟展示了一个既迫在眉睫又极具变革性的商业愿景。认真消化了主题演讲的内容后,我不禁为数字商业格局中正在形成的清晰趋势而感叹。

下面就是我认为最值得关注的五大关键洞见。

一、Stripe生态已成为不可忽视的经济力量

Stripe生态系统的规模已达到令人瞩目的宏观经济水平:

  • 2024年,Stripe平台上的企业增长速度比标普500指数快7倍
  • 这些企业的集体增长创造了4000亿美元的新增支付交易额
  • Stripe目前每年处理超过1.4万亿美元的交易——约占全球GDP的1.3%
  • 大约200万美国企业(占美国企业总数的6%)正在Stripe平台上构建业务

引人注目的不仅是这一规模,还有其应用范围之广。从财富100强巨头到小型创业公司,从AI实验室到创作者经济平台,Stripe实际上已经成为互联网的金融基础设施层。

当一个平台触及如此广泛的经济领域时,其走向的每一个变化都变得格外重要。互联网经济不再是边缘领域——它正日益成为整体经济的核心部分。

二、AI公司正在刷新所有增长记录

主题演讲中最引人瞩目的发现是AI原生公司的扩张速度之快,远超前几代创业公司:

  • 新兴AI公司平均只需9个月就能达到500万美元的年度经常性收入
  • Lovable在短短4个月内就实现了5000万美元的年度经常性收入
  • Cursor在两年内达成超过3亿美元的年度经常性收入,同时保持着惊人的效率(员工人均创收500万美元)

作为对比,SaaS行业鼎盛时期,典型企业通常需要18-24个月才能达到类似的里程碑。这种增长速度的加速是前所未有的。

是什么造就了这种超高速增长?AI公司主要受益于三大优势:

  1. 与生俱来的全球覆盖能力——从创立第一天起就能服务全球200多个国家已成为新常态
  2. 比传统SaaS产品更高的用户留存率
  3. 远低的运营复杂度,使精简团队能够支持海量用户群体

这表明我们正在经历的不仅是技术迭代,更是商业速度的根本性变革。过去制约企业增长的各种约束正在被系统性地打破。

三、稳定币正在静默重塑全球金融

虽然AI占据了大多数媒体头条,但稳定币可能最终带来同等规模的经济影响。Patrick Collison将稳定币比作"价值的室温超导体",这一比喻精准地捕捉了它们的变革潜力。

看看这些发展趋势:

  • 自去年以来,稳定币的供应量增长了39%
  • 主要稳定币发行商正成为美国国债的重要持有者
  • 从SpaceX这样的大企业到众多小型创业公司都在利用稳定币消除全球业务中的摩擦

真正的突破在于稳定币如何解决跨境金融服务的长期挑战。企业现在可以同时在数十个国家开展业务,无需应对复杂的本地银行关系网络和货币转换问题。

这显著降低了全球扩张的门槛,为以无国界价值转移为核心的全新商业模式创造了可能性。

四、"代理商务"将重新定义我们的购物方式

大会中提出的最具前瞻性的概念莫过于"模型发起商务协议"(MCP)——这使AI代理能够直接代表用户完成购买。

演示展示了Cursor(一款AI编码助手)在编码环境内直接购买Vercel的机器人防护服务,全程无需离开工作流程。

这指向了商业形态的深刻变革:

  • AI工具将成为原生销售渠道
  • 购买行为将在工作流程中自然发生
  • 传统的网站/应用购物结账体验可能变得次要

对于企业而言,这意味着需要彻底重新思考分销策略。每个AI工具都将成为潜在的销售点,AI代理将基于用户意图而非明确的购物行为来促成购买决策。

这对营销、定价和客户获取策略产生的影响将是深远的。我们正在从搜索驱动的商务模式转向意图驱动的商务模式,AI能够在用户需求被完全表达之前就理解并行动。

五、突破性成功的新公式已然改写

除了特定技术外,John Collison还总结了当今增长最快企业的共同特征:

天生全球化

最成功的创业公司现在从第一天起就瞄准全球市场,而非遵循传统的先国内后国际的路径。

极度专业化

互联网的庞大覆盖面使高度专业化的产品不仅变得可行,而且更具优势。Harvey(法律AI)和Naba(医疗健康AI)等公司展示了行业专精如何加速用户采纳。

基于使用的定价模式

AI经济学和推理成本正推动定价策略从固定订阅转向基于成果和使用量的动态模式。

惊人的员工效能比

当今的突破性公司达到了过去难以想象的效率水平。Gloss Genius仅用300名员工就支持了90,000家美容沙龙的运营。

这些特征代表着对企业构建方式的根本性重新思考。传统的科技公司扩张手册正在被迅速重写。

这对创业者和投资者意味着什么

对于正在构建或投资科技企业的人来说,几个关键指导原则浮现出来:

  1. 从一开始就放眼全球——地理边界的限制越来越人为

  2. 拥抱极度专精——在狭窄领域成为最佳解决方案比在多个领域表现一般更有价值

  3. 为代理商务做好准备——思考产品如何与AI助手而非仅与人类用户交互

  4. 早期整合稳定币——在竞争对手之前为全球客户消除摩擦

  5. 优化用户留存——在AI经济中,具有强大留存指标的高粘性产品正在赢得市场

最令人振奋的是,这一切仍处于起步阶段。AI和稳定币才刚刚开始重塑商业世界。如今以这些技术为基础打造的企业很可能将定义互联网经济的下一个十年。

正如Patrick Collison所指出的,技术变革的动荡时期历来有利于大胆创新。对于愿意拥抱这些变化的创业者来说,机遇从未如此丰富。


你对商业未来的发展有何看法?你是否在所处行业中观察到了这些趋势?欢迎在评论区分享你的见解。

大语言模型智能体

· 阅读需 3 分钟
  1. LLM 推理:关键理念与局限性 探讨推理在大型语言模型(LLM)中的关键作用,重点介绍关键进展、局限性以及对 AI 开发的实际影响。

  2. 安全可信的 AI 代理与基于证据的 AI 政策 探索 AI 能力的指数级增长及其相关风险。了解稳健、公平和注重隐私的 AI 系统,以及基于证据的政策建议,以确保安全的 AI 开发。

  3. 代理 AI 框架 发现代理 AI 框架的变革潜力,简化自主系统的开发。了解其在不断发展的 AI 领域中的应用、优势和挑战。

  4. 生成式 AI 的企业趋势 探索生成式 AI 的最新企业趋势,重点关注机器学习、多模态系统和 Gemini 模型的进展。了解解决当前局限性的策略。

  5. 复合 AI 系统和 DSPy 探讨复合 AI 和 DSPy 的 AI 系统演变。了解模块化架构如何通过优化的编程技术增强控制、效率和透明度。

  6. 软件开发的代理 探索代理在软件开发中的变革作用,强调其对工作流程的影响、挑战以及技术创新的未来。

  7. 企业工作流程代理 探讨 LLM 驱动的代理在企业工作流程中的潜力,重点关注生产力、决策制定和未来的挑战。

  8. 统一神经和符号决策 探索神经和符号决策方法的整合,解决 LLM 的关键挑战,并为推理和规划提出创新解决方案。

  9. 开源基础模型 分析开源基础模型在推动创新中的关键作用。发现 API-only 模型带来的挑战以及研究和合作的机会。

  10. 衡量代理能力与 Anthropic 的 RSP 了解 Anthropic 的责任扩展政策(RSP),重点关注 AI 安全、能力测量以及负责任开发中的挑战。

  11. 安全可信的 AI 代理 深入探讨 AI 系统中误用和故障的风险,并探索确保稳健、公平和注重隐私的 AI 开发的策略。

衡量代理能力和 Anthropic 的 RSP

· 阅读需 3 分钟

Anthropic 的历史

  • 成立:2021 年,作为一家公益公司(PBC)。
  • 里程碑
    • 2022 年:Claude 1 完成。
    • 2023 年:Claude 1 发布,Claude 2 上线。
    • 2024 年:Claude 3 上线。
    • 2025 年:在可解释性和 AI 安全方面取得进展:
      • 宪法 AI 的数学框架。
      • 潜伏代理和叠加的玩具模型。

负责任的扩展政策 (RSP)

  • 定义:确保 AI 能力安全扩展的框架。
  • 目标
    • 为安全决策提供结构。
    • 确保公众问责。
    • 在安全决策上进行迭代。
    • 为政策制定者提供模板。
  • AI 安全等级 (ASL):仿照生物安全等级 (BSL) 处理危险生物材料,调整安全性、安全性和操作标准与模型的灾难性风险潜力
    • ASL-1:较小的模型:无重大灾难性风险(例如,2018 年的 LLMs,国际象棋 AI)。
    • ASL-2:当前大型模型:危险能力的早期迹象(例如,有限可靠性的生化武器指令)。
    • ASL-3:高风险模型:具有重大灾难性误用潜力或低级自主性的模型。
    • ASL-4 及更高:推测性模型:涉及灾难性风险或自主性质的定性升级的未来系统。
  • 实施
    • 安全挑战和方法。
    • 案例研究:计算机使用。

衡量能力

  • 挑战:基准测试变得过时。
  • 示例
    • 相对于人类的任务完成时间:Claude 3.5 在几秒钟内完成任务,而人类开发者需要 30 分钟。
    • 基准
      • SWE-bench:评估现实世界的软件工程任务。
      • Aider 的基准:代码编辑和重构。
  • 结果
    • Claude 3.5 Sonnet 在关键基准测试中优于 OpenAI o1。
    • 更快且更便宜:$3/Mtok 输入,相比 OpenAI o1 的 $15/Mtok 输入。

Claude 3.5 Sonnet 亮点

  • 代理编码和游戏开发:设计用于在现实场景中提高效率和准确性。
  • 计算机使用演示
    • 编码:展示了先进的代码生成和集成。
    • 操作:展示了具有安全考虑的操作任务。

AI 安全措施

  • 关注领域
    • 扩展治理。
    • 能力测量。
    • 与学术界合作。
  • 实际安全
    • ASL 标准实施。
    • 部署保障措施。
    • 第一年的经验教训。

未来方向

  • 扩展和治理改进。
  • 增强的基准和学术合作。
  • 解决可解释性和潜伏代理风险。

开源基础模型

· 阅读需 3 分钟

关键趋势

  • 能力飞速提升:自 2018 年以来,LLMs 快速发展。
  • 访问减少:从开放的论文、代码和权重转向仅限 API 的模型,限制了实验和研究。

为什么访问很重要

  • 访问推动创新:
    • 1990 年代:数字文本推动了统计 NLP。
    • 2010 年代:GPU 和众包推动了深度学习和大型数据集的发展。
  • 访问级别定义了研究机会:
    • API:像认知科学家一样,测量行为(提示-响应系统)。
    • 开放权重:像神经科学家一样,探测内部激活以实现可解释性和微调。
    • 开源:像计算机科学家一样,控制和质疑系统的每个部分。

基础模型的访问级别

  1. API 访问

    • 作为通用功能(例如,总结、验证、生成)。
    • 启用问题解决代理(例如,网络安全工具、社会模拟)。
    • 挑战:弃用和有限的可重复性。
  2. 开放权重访问

    • 实现可解释性、蒸馏、微调和可重复性。
    • 突出模型:Llama、Mistral。
    • 挑战:
      • 测试模型独立性和权重修改带来的功能变化。
      • 现有模型的蓝图限制。
  3. 开源访问

    • 体现创造力、透明度和协作。
    • 示例:GPT-J、GPT-NeoX、StarCoder。
    • 由于计算和数据限制,与封闭模型相比仍存在性能差距。

关键挑战和机遇

  • 开源障碍
    • 发布网络衍生训练数据的法律限制。
    • 重新训练所需的显著计算资源。
  • 扩展计算
    • 集中闲置的 GPU。
    • 像 Big Science 这样的众包努力。
  • 新兴研究问题
    • 架构和数据如何塑造行为?
    • 扩展定律能否预测更大规模的性能?

反思

  • 大多数研究发生在 API 和固定权重的限制下,限制了探索。
  • 开放权重模型在可解释性和实验方面具有巨大价值。
  • 开源努力需要集体资金和基础设施支持。

最终结论

访问塑造了基础模型创新的轨迹。为了释放其全部潜力,研究人员必须质疑数据、架构和算法,同时探索新的协作和资源整合模式。

统一神经和符号决策

· 阅读需 3 分钟

LLMs 的关键挑战

  • 在需要复杂规划的任务中存在困难(例如,旅行行程、会议安排)。
  • 随着任务复杂性的增加,性能下降(例如,更多城市、人员或约束)。

三个提议的解决方案

  1. 扩展法则
    • 增加数据、计算和模型规模。
    • 局限性:推理/规划任务的高成本和收益递减。
  2. 混合系统
    • 将深度学习模型与符号求解器结合。符号推理是指使用明确的符号、规则和逻辑解决问题和做出决策的过程。这是一种基于明确定义的关系和表示进行推理的方法,通常遵循形式逻辑或数学原理。
    • 方法:
      • 端到端集成:统一的深度模型和符号系统。
      • 数据增强:神经模型为求解器提供结构化数据。
      • 工具使用:LLMs 作为外部求解器的接口。
    • 典型例子:
      • MILP 求解器:用于有约束的旅行规划。
      • Searchformer:训练 Transformers 模仿 A* 搜索。
      • DualFormer:动态切换快速(启发式)和慢速(深思熟虑)推理。
      • SurCo:结合组合优化和潜在空间表示。
  3. 新兴符号结构
    • 探索神经网络中出现的符号推理。
    • 发现:
      • 神经网络在算术任务中表现出傅里叶样模式
      • 梯度下降产生与代数结构一致的解决方案。
      • 在复杂任务中出现的环同态和符号效率。

研究意义

  • 神经网络自然学习符号抽象,为改进推理提供潜力。
  • 混合系统可能代表**适应性(神经)和精确性(符号)**之间的最佳平衡。
  • 高级代数技术最终可能取代梯度下降

总结

决策 AI 的未来在于利用神经适应性和符号严谨性。混合方法在解决需要感知和结构化推理的任务中最具前景。

企业工作流代理

· 阅读需 5 分钟

关键主题和背景

企业工作流

  • 自动化水平从脚本化工作流(变化最小)到代理工作流(自适应和动态)。
  • 企业环境,如由 ServiceNow 支持的环境,涉及复杂的重复性任务,如 IT 管理、CRM 更新和日程安排。
  • 采用 LLM 驱动的代理(例如,API 代理Web 代理)通过利用多模态观察动态行动等能力来改造这些工作流。

用于企业工作流的 LLM 代理

  • API 代理
    • 利用结构化的 API 调用提高效率。
    • 优点:低延迟,结构化输入。
    • 缺点:依赖预定义的 API,适应性有限。
  • Web 代理
    • 模拟人在网页界面上的操作。
    • 优点:更大的灵活性;可以与动态 UI 交互。
    • 缺点:高延迟,容易出错。

WorkArena 框架

  • 真实的企业工作流设计的基准。
  • 任务范围从IT 库存管理预算分配员工离职管理
  • BrowserGymAgentLab 支持,在模拟环境中进行测试和评估。

技术框架

代理架构

  • TapeAgents 框架

    • 将代理表示为可恢复的模块化状态机
    • 具有结构化日志(“磁带”)用于记录动作、思考和结果。
    • 促进优化(例如,从教师到学生代理的微调)。
  • WorkArena++

    • 扩展 WorkArena,增加更多组合性和挑战性的任务。
    • 评估代理的能力,如长期规划多模态数据集成

基准

  • WorkArena:约 20k 个独特的企业任务实例。
  • WorkArena++:专注于组合工作流和数据驱动的推理。
  • 其他工具:MiniWoB、WebLINX、VisualWebArena。

评估指标

  • GREADTH(扎根、响应、准确、纪律、透明、帮助)
    • 优先考虑现实世界代理的性能指标。
  • 任务特定成功率
    • 例如,通过微调的学生评估表单填写助手的成本比 GPT-4 低 300 倍

工作流中代理的挑战

  • 上下文理解
    • 企业任务需要理解信息的深层层次结构(例如,仪表板、知识库)。
    • 基准中的稀疏奖励使学习复杂化。
  • 长期规划
    • 子目标分解和多步骤任务执行仍然困难。
  • 安全和对齐
    • 来自恶意输入的风险(例如,对抗性提示、隐藏文本)。
  • 成本和效率
    • 缩小上下文窗口和模块化架构是降低计算成本的关键。

未来方向

增强模型

  • Centaur 框架
    • 将 AI 与人类任务分开(例如,AI 负责内容收集,人类负责最终编辑)。
  • Cyborg 框架
    • 促进 AI 和人类之间的紧密合作。

统一评估

  • 呼吁建立一个元基准来整合跨平台的评估协议(例如,WebLINX、WorkArena)。

代理优化的进展

  • 利用 RL 启发的技术进行微调。
  • 模块化学习框架以提高泛化能力。

知识工作的机会

  • 自动化重复的、低价值的任务(例如,日程安排、报告生成)。
  • 将多模态代理集成到企业环境中以支持决策和战略任务。
  • 通过人机协作模型提高生产力。

这一综合内容连接了企业工作流代理的理论和实践元素,展示了其变革潜力,同时解决了当前的局限性。

复合 AI 系统和 DSPy

· 阅读需 3 分钟

单一语言模型的主要挑战

  • 难以控制、调试和改进。
  • 每个 AI 系统都会犯错。
  • 模块化系统(复合 AI)解决了这些挑战。

复合 AI 系统

  • 模块化程序将语言模型用作专用组件。
  • 示例:
    • 检索增强生成。
    • 多跳检索增强生成。
    • 组合报告生成。
  • 优势:
    • 质量:可靠的语言模型组合。
    • 控制:通过工具进行迭代改进。
    • 透明度:调试和用户可见的归因。
    • 效率:使用较小的语言模型并卸载控制流。
    • 推理时扩展:寻找更好的输出。

DSPy 中语言模型程序的结构

  • 模块:

    • 为任务定义策略。
    • 示例:MultiHop 使用链式思维和检索。
  • 程序组件:

    • 签名:任务定义。
    • 适配器:将输入/输出映射到提示。
    • 预测器:应用推理策略。
    • 指标:定义目标和约束。
    • 优化器:优化指令以实现期望的行为。

DSPy 优化方法

  1. Bootstrap Few-shot:

    • 使用拒绝采样生成示例。
  2. 扩展 OPRO:

    • 通过提示优化指令。
  3. MIPRO:

    • 使用贝叶斯学习联合优化指令和少样本示例。

DSPy 的主要优势

  • 简化语言模型的编程。
  • 优化提示以提高准确性和效率。
  • 在 AI 系统中实现模块化和可扩展性。

经验教训和研究方向

  1. 自然语言编程:
    • 程序更准确、可控且透明。
    • 高级优化器引导提示和指令。
  2. 自然语言优化:
    • 有效的基础和信用分配至关重要。
    • 优化指令和演示提高性能。
  3. 未来方向:
    • 专注于模块化、更好的推理策略和优化的语言模型使用。

总结

  • 复合 AI 系统使语言模型模块化且可靠。
  • DSPy 提供构建、优化和部署模块化 AI 系统的工具。
  • 强调模块化和系统化优化以推动 AI 进步。

Agentic AI 框架

· 阅读需 3 分钟

介绍

  • 两种 AI 应用

    • 生成式 AI:创建文本和图像等内容。
    • Agentic AI:自主执行复杂任务。这是未来
  • 关键问题:开发人员如何使这些系统更易于构建?

Agentic AI 框架

  • 示例

    • 应用包括个人助理、自主机器人、游戏代理、网络/软件代理、科学、医疗保健和供应链。
  • 核心优势

    • 用户友好:自然直观的交互,输入最少。
    • 高能力:高效处理复杂任务。
    • 可编程性:模块化和可维护,鼓励实验。
  • 设计原则

    • 统一抽象,整合模型、工具和人机交互。
    • 支持动态工作流、协作和自动化。

AutoGen 框架

https://github.com/microsoft/autogen

  • 目的:构建 Agentic AI 应用的框架。

  • 关键特性

    • 可对话和可定制的代理:简化了具有自然语言交互的应用构建。
    • 嵌套聊天:处理内容创建和推理密集型任务等复杂工作流。
    • 群聊:支持多个代理的协作任务解决。
  • 历史

    • 始于 FLAML(2022 年),成为独立项目(2023 年),每月下载量超过 20 万,广泛采用。

应用和示例

  • 高级反思
    • 用于协作优化任务的双代理系统,如博客写作。
  • 游戏和策略
    • 会话国际象棋,代理模拟战略推理。
  • 企业和研究
    • 在供应链、医疗保健和科学发现中的应用,如 ChemCrow 用于发现新化合物。

AutoGen 的核心组件

  • Agentic 编程
    • 将任务分解为可管理的步骤,以便于扩展和验证。
  • 多代理编排
    • 支持具有集中或分散设置的动态工作流。
  • Agentic 设计模式
    • 涵盖推理、规划、工具集成和内存管理。

代理设计中的挑战

  • 系统设计
    • 优化多代理系统以进行推理、规划和多样化应用。
  • 性能
    • 在保持弹性的同时平衡质量、成本和可扩展性。
  • 人机协作
    • 设计安全有效的人机交互系统。

开放问题和未来方向

  • 多代理拓扑
    • 高效平衡集中和分散系统。
  • 教学和优化
    • 使用 AgentOptimizer 等工具使代理能够自主学习。
  • 扩展应用
    • 探索软件工程和跨模态系统等新领域。

LLM 代理的历史与未来

· 阅读需 3 分钟

LLM 代理的轨迹和潜力

介绍

  • 代理的定义:与环境(物理、数字或人类)交互的智能系统。
  • 演变:从像 ELIZA(1966)这样的符号 AI 代理到现代基于 LLM 的推理代理。

核心概念

  1. 代理类型
    • 文本代理:像 ELIZA(1966)这样的基于规则的系统,范围有限。
    • LLM 代理:利用大型语言模型进行多功能的文本交互。
    • 推理代理:结合推理和行动,能够在各个领域进行决策。
  2. 代理目标
    • 执行问答(QA)、游戏解决或现实世界自动化等任务。
    • 平衡推理(内部行动)和行动(外部反馈)。

LLM 代理的关键发展

  1. 推理方法
    • 链式思维(CoT):通过逐步推理提高准确性。
    • ReAct 范式:将推理与行动结合进行系统探索和反馈。
  2. 技术里程碑
    • 零样本和少样本学习:通过最少的例子实现通用性。
    • 记忆整合:结合短期(基于上下文)和长期记忆以实现持久学习。
  3. 工具和应用
    • 代码增强:通过编程方法增强计算推理。
    • 检索增强生成(RAG):利用外部知识来源,如 API 或搜索引擎。
    • 复杂任务自动化:在机器人和化学领域的体现推理,以 ChemCrow 为例。

局限性

  • 实际挑战
    • 处理现实世界环境的困难(例如,处理不完整数据的决策)。
    • 易受无关或对抗性上下文的影响。
  • 可扩展性问题
    • 现实世界机器人与数字模拟的权衡。
    • 在特定领域进行微调和数据收集的高成本。

研究方向

  • 统一解决方案:将多样化任务简化为可推广的框架(例如,用于探索和决策的 ReAct)。
  • 先进的记忆架构:从仅追加日志转向自适应的、可写的长期记忆系统。
  • 与人类合作:专注于增强人类创造力和解决问题的能力。

未来展望

  • 新兴基准
    • 用于软件工程任务的 SWE-Bench。
    • 用于在动态环境中微调 LLM 代理的 FireAct。
  • 更广泛的影响
    • 增强的数字自动化。
    • 在软件工程、科学发现和网络自动化等领域提供复杂问题解决的可扩展解决方案。

LLM 推理:关键理念与局限性

· 阅读需 4 分钟

推理是提升 LLM 能力的关键

介绍

  • 对 AI 的期望:解决复杂的数学问题,发现科学理论,实现通用人工智能(AGI)。
  • 基本期望:AI 应该能够通过少量示例模拟人类的学习方式。

关键概念

  • 机器学习中缺少什么?
    • 推理:从最少的示例中逻辑推导出答案的能力。

玩具问题:最后字母连接

  • 问题

    : 提取单词的最后一个字母并将其连接。

    • 示例:"Elon Musk" → "nk"。
  • 传统机器学习:需要大量标记数据。

  • LLM:通过推理,只需一次演示即可实现 100% 准确率。

中间步骤的重要性

  • 人类通过推理和中间步骤解决问题。
  • 示例:
    • 输入:"Elon Musk"
    • 推理:"Elon" 的最后一个字母是 "n","Musk" 的最后一个字母是 "k"。
    • 输出:"nk"。

推理方法的进展

  1. 链式思维(CoT)提示
    • 将问题分解为逻辑步骤。
    • 数学文字题的示例展示了增强的问题解决准确性。
  2. 从易到难提示
    • 将问题分解为更简单的子问题以逐步概括。
  3. 类比推理
    • 从相关问题中调整解决方案。
    • 示例:通过回忆距离公式逻辑来找到正方形的面积。
  4. 零样本和少样本链式思维
    • 在没有明确示例的情况下触发推理。
  5. 解码中的自我一致性
    • 采样多个响应以提高逐步推理的准确性。

局限性

  • 被无关上下文干扰
    • 添加无关细节会显著降低性能。
    • 解决方案:明确指示模型忽略干扰。
  • 自我纠错的挑战
    • LLM 有时无法自我纠正错误,甚至可能使正确答案变得更糟。
    • Oracle 反馈对于有效纠正至关重要。
  • 前提顺序重要
    • 重新排序问题前提会导致性能下降,强调逻辑进程的重要性。

实际影响

  • 中间推理步骤对于解决连续问题至关重要。
  • 像使用单元测试进行自我调试的技术对未来改进充满希望。

未来方向

  1. 定义正确的问题对于进步至关重要。
  2. 通过开发能够自主解决这些问题的模型来解决推理局限性。