返回 爱风尚w

Ilya终于承认,自己关于Scaling的说法错了!

2024-11-12

就在刚刚,由于当前方法受到限制,OpenAI和其他公司正在寻求通向更智能AI的新途径。

有趣的是,昨天拱火的The Information,今天又急忙发出一篇文章来灭火。

他们强调,昨天的文章只是在说改进大模型必须找到新方法,并不是说Scaling Law已经终结。

但一个不争的事实就是:硅谷几大主要AI实验室正在陷入困境。训练这些大规模的LLM动辄需要花费数千美元,但复杂系统还经常崩溃。往往需要数月时间,才知道模型能否按预期工作。

比起GPT-4o,Orion几乎没有任何改进;谷歌的Gemini 2.0,被曝也存在同样问题;Anthropic据传也已暂停Opus 3.5模型的工作。

据悉,谷歌正准备在12月推测出最新的Gemini 2.0,它可能无法实现DeepMind创始人Demis Hassabis团队预期的显著性能改进,但会有引入一些有趣的新功能

Anthropic首席执行官Dario Amodei 表示,「我们的目标是改变曲线,然后在某个时候成为Opus 3.5」

而离职创业的OpenAI元老则Ilya Sutskever则表示,现在重要的是「扩大正确的规模」。

「2010年代是scaling的时代,现在,我们再次回到了奇迹和发现的时代。每个人都在寻找下一个奇迹。」

对经营着自己的AI实验室SSI的Ilya来说,这是一个很大的改变。

曾经在推动OpenAI的GPT模型时,他的准则是「越大越好」。但在SSI的最近一轮融资中,Ilya开始希望尝试一种与OpenAI不同的Scaling方法。

Scaling Law大家都说得够多了。但有一个问题,却被每个人都忽略了——我们说scaling的时候,究竟在scaling什么?

如今,Ilya抛出了这个振聋发聩的疑问。

Scaling正确的东西,比以往任何时候都更重要

毕竟,超大规模语言模型的ROI实在太低了。

虽然在GPT-4发布后,各大AI实验室的研究人员都竞相追赶,发布了超过GPT-4的大模型,但他们更多的感觉是失望。

因为要同时运行数百个芯片,这种超大参数模型的训练可能要花费数千万美元,系统太复杂还可能会出现硬件故障。但只有经过数月,等到运行结束后,研究人员才能知道模型的最终性能。

另一个问题,就是LLM吞噬了大量数据,而世界上易于获取的数据,几乎已经被耗尽了!

同时,由于过程中需要大量能源,电力短缺也成为训练AI的严重阻碍。

论文题目:「The Unseen AI Disruptions for Power Grids: LLM-Induced Transients」

替代Scaling的新方法,Ilya已经有了?

面对这种种现状,Ilya最近在路透社的采访中表示,扩展训练的结果,已经趋于平稳。

也就是说,用大量未标记数据来理解语言模式和结构的训练阶段到头了。

以前,Ilya是暴力scaling的早期倡导者之一,那时有一种想法广泛认为,通过预训练中使用更多的数据和算力,能让AI模型的性能暴涨。

OpenAI团队2020年提交的arXiv论文中最先提出这一概念:LLM性能与计算量、参数量、数据量三者呈现幂律关系

的确,沿着这条路线,最终ChatGPT诞生了。

ChatGPT发布后,从AI热潮中受益颇多的科技公司都公开声称,这种通过增加数据和算力来「scale up」的方法,能显著改善模型性能。

可是现在,Scaling Law已经碰壁了!越来越多的AI科学家,对于这种「越大越好」(bigger is better)的哲学产生了质疑。

2010年代属于Scaling,但大模型要继续发展下去,需要一个新的奇迹。

Ilya的SSI团队是否找到了呢?

对此,Ilya拒绝透露,只是表示,SSI正在研究一种全新的替代方法,来扩展预训练。

再领先三步?OpenAI破局新方法:测试时计算

同时,OpenAI仿佛也找到了新方法——通过开发使用更类人思维的算法训练技术,或许就能克服在追求更大规模LLM过程中遇到的意外延迟和挑战。

已经有十几位AI科学家、研究人员和投资者告诉路透社,他们认为正是这些技术,推动了OpenAI最近发布的o1模型。

而它们,可能会重塑AI竞赛的格局,让AI公司们不再对能源和芯片资源产生无限制的需求。

有没有这么一种新方法,让AI模型既能摆脱对数据的依赖,又不再需要动辄吞噬整个国家乃至全球的电力?

为了克服这些挑战,研究人员正在探索一项「测试时计算」的技术。

OpenAI解释o1的博文,x轴标记为「训练时计算」和「测试时计算」。

OpenAI发现的Scaling Law,意味着在模型上投入更多训练时间(GPU周期)时,我们可以获得更好的结果。

则暗示了我们尚未触及的一套全新的Scaling Law。「测试时计算」意味着,给模型更多的「思考时间」(GPU周期)时,它会思考出更好的结果。

测试时计算技术,能在推理阶段(模型被使用时)就将模型增强,比如,模型可以实时生成和评估多种可能性,而不是理解选择单一答案。最终,模型就可以选择出最佳路径。

这种方法可以允许模型将更多的处理能力,用于数学、编码问题等具有挑战性的任务,或者需要类人推理和决策的复杂操作。

传统的Scaling Law,专注于用更长时间训练大模型,但如今o1系列模型scaling有了两个维度——训练时间和测试(推理)时间

早在上个月的旧金山TED AI会议上,曾参与o1开发的OpenAI研究员Noam Brown就提出——

事实证明,让一个机器人在一局扑克中思考仅20秒,其性能提升与将模型规模扩大10万倍并训练10万倍时间相同。

o1模型以前曾被称为「Q*」和「Strawberry」。现在,它能够以多步骤方法思考问题,类似于人类推理。

最新文章

贺岁档首周末《好东西》夺冠

影视

 

阅读18638

误杀3》和甄子丹新片杀入贺岁档

影视

 

阅读13194

短视频短剧抢夺观众

影视

 

阅读10380

《谍战京西》观摩研讨会在京举行

影视

 

阅读12074

如今搭档杨洋演新剧,这次李一桐能被带飞?

影视

 

阅读17146

2022 twobaby.net 冀ICP备20013543号-2

冀公网安备13010802001966