跳到主要内容

1 篇博文 含有标签「Open Source」

查看所有标签

开源基础模型

· 阅读需 3 分钟

关键趋势

  • 能力飞速提升:自 2018 年以来,LLMs 快速发展。
  • 访问减少:从开放的论文、代码和权重转向仅限 API 的模型,限制了实验和研究。

为什么访问很重要

  • 访问推动创新:
    • 1990 年代:数字文本推动了统计 NLP。
    • 2010 年代:GPU 和众包推动了深度学习和大型数据集的发展。
  • 访问级别定义了研究机会:
    • API:像认知科学家一样,测量行为(提示-响应系统)。
    • 开放权重:像神经科学家一样,探测内部激活以实现可解释性和微调。
    • 开源:像计算机科学家一样,控制和质疑系统的每个部分。

基础模型的访问级别

  1. API 访问

    • 作为通用功能(例如,总结、验证、生成)。
    • 启用问题解决代理(例如,网络安全工具、社会模拟)。
    • 挑战:弃用和有限的可重复性。
  2. 开放权重访问

    • 实现可解释性、蒸馏、微调和可重复性。
    • 突出模型:Llama、Mistral。
    • 挑战:
      • 测试模型独立性和权重修改带来的功能变化。
      • 现有模型的蓝图限制。
  3. 开源访问

    • 体现创造力、透明度和协作。
    • 示例:GPT-J、GPT-NeoX、StarCoder。
    • 由于计算和数据限制,与封闭模型相比仍存在性能差距。

关键挑战和机遇

  • 开源障碍
    • 发布网络衍生训练数据的法律限制。
    • 重新训练所需的显著计算资源。
  • 扩展计算
    • 集中闲置的 GPU。
    • 像 Big Science 这样的众包努力。
  • 新兴研究问题
    • 架构和数据如何塑造行为?
    • 扩展定律能否预测更大规模的性能?

反思

  • 大多数研究发生在 API 和固定权重的限制下,限制了探索。
  • 开放权重模型在可解释性和实验方面具有巨大价值。
  • 开源努力需要集体资金和基础设施支持。

最终结论

访问塑造了基础模型创新的轨迹。为了释放其全部潜力,研究人员必须质疑数据、架构和算法,同时探索新的协作和资源整合模式。