本文转自: https://www.gaoyy.com/%E8%A7%A3%E9%87%8A%E8%80%85%EF%BC%9Ar1-%E5%92%8C%E5%85%B6%E4%BB%96%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F/
仅做个人收藏,版权归原作者所有
人工智能让你头晕吗?很多业内人士都有同感。 R1 几天前突然出现,然后就有了 o1 和 o3,但没有 o2。天哪!很难知道发生了什么事。这篇文章旨在为最近的人工智能发展提供指南。它是为那些觉得自己应该知道发生了什么但又不知道的人而写的,因为外面的事情太疯狂了。
时间轴
最近几个月:
- 2024 年 9 月 12 日: o1-preview启动
- 2024 年 12 月 5 日: o1(完整版)与 o1-pro 一起推出
- 24年12月20日: o3宣布,ARC-AGI饱和,被誉为“AGI”
- 2024 年 12 月 26 日: DeepSeek V3推出
- 25 年 1 月 20 日: DeepSeek R1推出,与 o1 匹配,但开源
- 2025 年 1 月 25 日:香港大学复制 R1 结果
- 25 年 1 月 25 日:Huggingface 宣布open-r1复制 R1,完全开源
另外,为了清楚起见:
- o1、o3 和 R1 是推理模型
- DeepSeek V3 是一个 LLM,一个基础模型。推理模型是在基本模型的基础上进行微调的。
- ARC-AGI是一个基准测试,其设计对于人类来说很简单,但对于人工智能来说却极其困难。换句话说,当人工智能突破这个基准时,它就能够做人类所做的事情。
推理与代理
让我们来分解一下。
推理模型!=代理
推理模型能够在响应之前进行“思考”。法学硕士通过生成代币来思考。因此,我们训练模型来生成大量标记,希望它们能找到正确的答案。问题是,它有效。
AI 代理由两件事定义:
- 自主(代理)做出决策并完成任务
- 与外界互动的能力
法学硕士和推理模型本身只能生成代币,因此没有能力做这些事情。他们需要软件来做出真实的决策并赋予其交互能力。
代理是一个人工智能系统。它们是与软件结合在一起的模型,可以自主地与世界交互。也许硬件也是如此。
推理很重要
推理模型与智能体混为一谈,因为目前推理是瓶颈。我们需要推理来计划任务、监督、验证,并且总体上要聪明。我们不可能拥有没有推理的智能体,但是一旦我们的推理基准饱和,可能会出现一些新的挑战。
推理需要便宜
代理将运行数小时或数天,也许 24/7。这就是自主行动的本质。因此,成本会增加。目前来看,R1 的成本比 o1低约 30 倍,但性能却相似。
为什么 R1 很重要
它价格便宜、开源,并且验证了 OpenAI 使用 o1 和 o3 所做的事情。
根据公开文档,人们对 o1 的工作原理做出了一些预测,而 R1 公开论文几乎完全证实了所有这些。所以,我们知道 o1 如何缩放为 o3、o4……
人工智能轨迹
我们站在哪里?我们正在向上飞翔吗?站着不动?变革的驱动因素是什么?
预训练扩展已经过时
当 GPT-4 出现时,出现了这些愚蠢的缩放法则。增加数据和计算,您只需获得更好的模型( 预训练缩放法则)。这些都消失了。它们本身并没有消亡,但我们在访问数据方面遇到了一些障碍,但发现了新的缩放法则。
(继续阅读)
推理时间缩放定律
这是关于推理模型,例如 o1 和 R1。他们思考的时间越长,表现就越好。
然而,尚不清楚究竟应该如何执行更多计算才能获得更好的结果。天真的假设是思想链(CoT)可以发挥作用;你只需训练模型进行 CoT 即可。这样做的麻烦在于找到找到答案的最快路径。 Entropix 的想法之一是,使用模型的内部信号来找到最有效的路径。还有像蒙特卡洛树搜索 (MCTS)这样的东西,您可以生成许多路径但只采用一条路径。还有其他几个。
事实证明CoT 是最好的。 R1 只是在执行由 RL 训练的简单的单行思维链(也许entropix正在做某事?)。可以肯定的是,o1 也在做同样的事情。
缩小模型(缩放法则??)
第一个信号是 GPT-4-turbo,然后是 GPT-4o,以及克劳德系列,以及所有其他法学硕士。整个 24 年,它们都变得更小、更便宜。
如果生成更多令牌是您的推理途径,那么您需要更低的延迟。较小的模型计算速度更快(需要进行的计算更少),因此更小=更智能。
强化学习(缩放法则??)
R1 使用GRPO(群体奖励策略优化)来教导模型在推理时进行 CoT。这只是愚蠢的强化学习(RL),没有什么复杂的。无需复杂的验证程序,无需外部法学硕士。只是 RL 具有基本的奖励函数以保证准确性和格式。
R1-Zero是 DeepSeek 的 R1 版本,仅执行 GRPO,不执行其他操作。它比 R1 更准确,但它可以随意在英语和中文等多种语言之间切换,这使得它对于人类用户(通常不是多语言者)而言不是最佳选择。
为什么 R1-0 在语言之间跳转?我的想法是不同的语言更有效地表达不同类型的概念。例如,整个“[文本段落]的德语单词是什么?”模因。
今天(2025 年 1 月 25 日),有人证明任何强化学习都是有效的。他们尝试了GRPO 、 PPO和PRIME ;他们都工作得很好。事实证明,这个神奇数字是 1.5B。如果模型大于 1.5B,无论您使用哪种 RL 方法,推理缩放行为都会自发出现。
会走多远?
模型蒸馏(缩放定律??)
R1 从自身之前的检查点中提取出来。
蒸馏是指一个教师模型为学生模型生成训练数据。通常,人们认为老师是一个比学生更大的模型。 R1 使用同一模型的先前检查点来生成监督微调 (SFT) 的训练数据。他们在 SFT 和 RL 之间迭代来改进模型。
这能走多远?
很久以前(9天),有人预测GPT5存在,而GPT4o只是它的升华。 本文的理论是,OpenAI 和 Anthropic 找到了一个循环,通过训练大模型,然后进行提炼,然后使用提炼的模型来创建更大的模型,从而不断创建更大的模型。我想说,R1 论文很大程度上证实了这是可能的(因此很可能就是正在发生的事情)。
如果是这样,这种情况可能会持续很长一段时间。
’25 预测
鉴于目前的情况:
- 预训练很难(但还没有死)
- 推理扩展
- 缩小型号
- 强化学习缩放定律
- 模型蒸馏缩放定律
人工智能似乎不太可能放缓。一种标度定律放慢了速度,又出现了 4 种。在可预见的未来,这件事将会加速并继续加速。
地缘政治:令人厌恶
我创造了这个术语:模型的篡改、未经授权的蒸馏。
软件现在已成为政治因素,而人工智能则处于中心地位。人工智能似乎已成为几乎所有政治轴心的因素。最有趣的是中国对阵美国。
策略:
- 美国:投入大量资金,尽快为AI火力注入资金
- 中国:在压制性出口管制下,让更聪明的工程师和研究人员寻找更便宜的解决方案
- 欧洲:监管或开源人工智能,两者都可以
关于 DeepSeek 是否从 o1 中剥离 R1 的问题引起了激烈的讨论。鉴于 R1 的复制品,我发现情况越来越不可能。尽管如此,一家中国实验室似乎突然出现并超越了 OpenAI 的最佳可用模型。会有紧张感。
此外,人工智能的能力很快就会(如果还没有的话)以指数级的速度增长。其政治和地缘政治影响绝对是巨大的。
结论
是的,这是一个令人眼花缭乱的发展速度。主要的收获是,R1 使 OpenAI 以前不透明的地方变得清晰。由此可见,人工智能的未来更加清晰,而且似乎正在迅速加速。