开源基础模型
关键趋势
- 能力飞速提升:自 2018 年以来,LLMs 快速发展。
- 访问减少:从开放的论文、代码和权重转向仅限 API 的模型,限制了实验和研究。
为什么访问很重要
- 访问推动创新:
- 1990 年代:数字文本推动了统计 NLP。
- 2010 年代:GPU 和众包推动了深度学习和大型数据集的发展。
- 访问级别定义了研究机会:
- API:像认知科学家一样,测量行为(提示-响应系统)。
- 开放权重:像神经科学家一样,探测内部激活以实现可解释性和微调。
- 开源:像计算机科学家一样,控制和质疑系统的每个部分。
基础模型的访问级别
-
API 访问
- 作为通用功能(例如,总结、验证、生成)。
- 启用问题解决代理(例如,网络安全工具、社会模拟)。
- 挑战:弃用和有限的可重复性。
-
开放权重访问
- 实现可解释性、蒸馏、微调和可重复性。
- 突出模型:Llama、Mistral。
- 挑战:
- 测试模型独立性和权重修改带来的功能变化。
- 现有模型的蓝图限制。
-
开源访问
- 体现创造力、透明度和协作。
- 示例:GPT-J、GPT-NeoX、StarCoder。
- 由于计算和数据限制,与封闭模型相比仍存在性能差距。
关键挑战和机遇
- 开源障碍:
- 发布网络衍生训练数据的法律限制。
- 重新训练所需的显著计算资源。
- 扩展计算:
- 集中闲置的 GPU。
- 像 Big Science 这样的众包努力。
- 新兴研究问题:
- 架构和数据如何塑造行为?
- 扩展定律能否预测更大规模的性能?
反思
- 大多数研究发生在 API 和固定权重的限制下,限制了探索。
- 开放权重模型在可解释性和实验方面具有巨大价值。
- 开源努力需要集体资金和基础设施支持。
最终结论
访问塑造了基础模型创新的轨迹。为了释放其全部潜力,研究人员必须质疑数据、架构和算法,同时探索新的协作和资源整合模式。