现在,模型不再受限于预训练阶段,还可以通过增加推理计算资源,来提升表现
而且,它还涉及了来自博士和行业专家策划的数据和反馈。
o1系列的秘密武器,是在GPT-4等基础模型上进行的另一套训练,OpenAI还计划,将这种技术应用于更多更大的基础模型。
OpenAI的首席产品官Kevin Well在十月的一次科技会议表示——
我们看到很多可以快速改进这些模型的机会,而且非常简单。到人们赶上来的时候,我们会尝试再领先三步。
通过思维链提示,o1模型可以经过训练生成长长的输出,并通过答案进行推理
全球顶尖AI实验室开卷,英伟达垄断地位有望打破?
OpenAI说要领先三步,其他顶尖AI实验室岂甘落后?
据知情人士透露,来自Anthropic、xAI和谷歌DeepMind的研究人员,也已经奋力开卷了!
比如Meta最近提出了「思维偏好优化」TPO,这种方法旨在教会LLM在回答一般任务(而不仅仅是数学或逻辑问题)之前「思考」,而不需要特殊的训练数据。
而谷歌也在开发一种新模型,同样使用CoT方法解决多步骤问题、生成多个答案,评估后选择最佳答案。
这个过程同样可以通过在推理中使用更多算力来增强,而非仅仅增加训练数据和算力,这就为扩展AI模型开辟了一条新道路。
这会导致什么后果?
很有可能,对英伟达GPU巨大需求主导的AI硬件竞争格局,将从此改变。
这是因为,通过增加训练时间和测试(推理)时间,可能会获得更好的结果,模型就不再需要那么大的参数。
而训练和运行较小模型会更便宜,因此,在给定固定计算量的情况下,我们可能会突然从小模型中获得更多收益。
突然之间,模型参数、训练时间和测试时间计算之间的关系变得复杂了,也就让我们看到了下一代GPU的可能。
比如Groq这样的公司,恰巧就在为这类任务制造专门的芯片。
红杉资本和A16z在内的著名风投机构,如今已经投入了数十亿美元,资助OpenAI、xAI等多家AI实验室的开发。
他们不可能不注意到最近圈内盛传的Scaling Law碰壁事件,而重新考虑自己的昂贵投资是否会打水漂。
红杉资本合伙人Sonya Huang表示,这种转变,将使我们从大规模预训练集群转向推理云,即分布式的、基于云的推理服务器。
大模型热以来,对英伟达尖端AI芯片的需求,已经让它崛起为全球最有价值的公司,并且市值超越了苹果。
今年以来,英伟达股价了约186%,而苹果仅上涨了17%
虽然在训练芯片的市场,英伟达已经占据主导地位,但它在推理市场,可能还会面临更多竞争。
而o1模型背后技术,意味着对推理芯片的需求也会随着增加。
「我们现在发现了第二个Scaling Law,这是在推理阶段的Scaling Law……所有这些因素导致对Blackwell的需求非常高。」
在英伟达GTC大会上,黄仁勋也讲到,如果要训练一个1.8万亿参数量的GPT模型,需要8000张H100 GPU,消耗15兆瓦的电力,连续跑上90天
随着Scaling Law碰壁,各大公司纷纷开启新路线,英伟达是否还会继续坐火箭般的辉煌呢?
月初,一位Reddit用户曾在QA种问道,OpenAI的下一代旗舰大语言模型何时发布。
对此,Altman回答说:「今年晚些时候,我们会发布一些非常不错的产品,但并不会叫做GPT-5。」随后他又补充道,有限的计算资源意味着很难同时推出过多的项目。
当时我们并未多想。
但如今,我们更能理解Altman的评论了——以及他为何专注于推出o系列推理模型而非另一版本的GPT 。
所谓GPT,即生成式预训练Transformer模型,是ChatGPT和大多数其他生成式人工智能产品的基石。
原因正如之前报道的那样,GPT的改进速度正在放缓。
2023年初登场的上一代旗舰级模型GPT-4,凭借着巨大的性能提升在科技行业引发了轰动。
Orion比GPT-4更好,但其质量提升与GPT-3和GPT-4之间的差距相比略显逊色。甚至,可能会让OpenAI放弃自2018年推出GPT-1起使用的「GPT」命名惯例。
因此,当Altman写道「o1及其后续版本」时,可能意味着Orion将与推理融合并被命名为「o2」。
随着一种Scaling Law的消退,另一种定律取而代之
让我们回到GPT发展放缓这个问题上。
传统的Scaling Law不仅仅意味着在大语言模型训练过程中需要更多的数据和计算能力才能获得更好的结果。OpenAI的研究人员还做了各种其他有趣的事情,才使得GPT-4比GPT-3有了大幅提升。比如,引入被称为模型稀疏性的概念。
随着推理范式的出现,预训练改进的放缓变可以得到弥补——从本质上讲,它可能代表了一种新的Scaling Law。
OpenAI一再表示,推理模型的性能在回答问题前有更多时间思考时会变得更好,这被称为对数线性计算扩展。
那么,这些变化是否意味着OpenAI的1000亿美元超级计算集群的梦想正在消退呢?对于这个问题,可以肯定的是,所有主流的AI开发者都在全速推进极其昂贵的集群建设。
一方面是,大型集群上可以更好地在预训练后改进这些模型、在后训练阶段处理强化学习以及更新或微调模型。
另一方面是,即便预训练模型的改进速度放缓,但只要自己能训出比竞争对手略好的模型,就值得增加的数据中心投入。毕竟,LLM越好,将推理模型融入模型后获得的结果就越好。