神经网络:跳过一些彩票中奖的门票

2025-10-06 19:36来源:本站

  你买的彩票越多,中奖的机会就越高,但花的比赢的多显然不是一个明智的策略。类似的事情也发生在由深度学习驱动的人工智能中:我们知道神经网络越大(即它拥有的参数越多),它就越能更好地学习我们为它设置的任务。然而,在训练过程中使其无限大的策略不仅是不可能的,而且效率极低。科学家们试图模仿生物大脑的学习方式,这种方式资源效率很高,他们为机器提供了一个循序渐进的训练过程,从简单的例子开始,逐步发展到更复杂的例子,这种模式被称为课程学习。然而,令人惊讶的是,他们发现这种看似明智的策略与过度参数化(非常大)的网络无关。

  《统计力学杂志:理论与实验》(JSTAT)上的一项新研究试图理解这种“失败”发生的原因,表明这些过度参数化的网络是如此“丰富”,以至于它们倾向于遵循基于数量(资源)而不是质量(通过增加难度组织的输入)的路径来学习。这实际上可能是个好消息,因为它表明,通过仔细调整网络的初始大小,课程学习仍然可能是一种可行的策略,有可能创造出更高效的资源,因此能耗更低的神经网络。

  我们正处于对像ChatGPT这样基于神经网络的人工智能非常兴奋的时刻:每天都有一个新的机器人或功能出现,每个人都想尝试,这种现象在科学研究和工业应用中也越来越多。这需要增加计算能力,因此,能源消耗,以及对能源需求和该部门产生的排放的担忧正在上升。因此,使这项技术能够事半功倍是至关重要的。

  神经网络是由许多执行计算的“节点”组成的计算模型,与生物大脑中的神经元网络有很大的相似之处,能够根据接收到的输入自主学习,例如,它们“看到”大量的图像,并在没有直接指令的情况下学习分类和识别内容。

  在专家中,众所周知,在训练阶段,神经网络越大(即使用的参数越多),它就越能精确地执行所需的任务。这种策略在技术术语中被称为彩票假说,它有一个明显的缺点,即需要大量的计算资源,以及所有相关的问题(需要越来越强大的计算机,这需要越来越多的能量)。

  为了找到解决方案,许多科学家着眼于这类问题似乎已经解决的地方,至少是部分解决的地方:生物大脑。我们的大脑每天只吃两到三顿饭,就能完成需要超级计算机和神经网络大量能量才能完成的任务。他们是怎么做到的?

  我们学习事物的顺序可能是答案。米兰博科尼大学的物理学家Luca Saglietti解释说:“如果一个人从来没有弹过钢琴,你把他放在肖邦的作品面前,他们不太可能在学习上取得多大进展。”他是这项研究的协调人。“通常情况下,整个学习过程会跨越数年,从演奏《一闪一闪小星星》(Twinkle Twinkle Little Star)开始,最终学习肖邦。”

  当输入按难度递增的顺序提供给机器时,称为课程学习。然而,训练神经网络最常见的方法是将它们随机输入到强大的、过度参数化的网络中。一旦网络学会了,就有可能减少参数的数量——甚至低于初始数量的10%——因为它们不再被使用。但是,如果只从10%的参数开始,网络将无法学习。因此,虽然人工智能最终可能适合我们的手机,但在训练期间,它需要大量的服务器。

  科学家们想知道课程学习是否可以节省资源。但迄今为止的研究表明,对于过度参数化的网络,课程学习似乎无关紧要:训练阶段的表现似乎没有得到改善。

  Saglietti及其同事的新研究试图理解其中的原因。Saglietti解释说:“我们看到的是,过度参数化的神经网络不需要这条路径,因为它不是通过实例来指导学习,而是由它拥有如此多的参数——已经接近它需要的资源——这一事实来指导。”换句话说,即使你为它提供了优化的学习数据,它也更倾向于依赖它庞大的处理资源,在它内部寻找那些经过一些调整就能完成任务的部分。

  这实际上是一个好消息,因为这并不意味着网络不能利用课程学习,而是由于初始参数的数量很大,它们被推向了一个不同的方向。因此,原则上,人们可以找到一种方法,从较小的网络开始,采用课程学习。“这是我们研究中探索的假设的一部分,”Saglietti解释说。“至少在我们进行的实验中,我们观察到,如果我们从较小的网络开始,与随机提供输入相比,课程的效果——以精心安排的顺序展示示例——开始显示出性能的提高。这种改进比你不断增加参数直到输入顺序不再重要的程度更大。”

  论文《彩票的几率倾斜:神经网络中过度参数化和课程的相互作用》是JSTAT机器学习2024系列的一部分,并于2024年7月在维也纳举行的第41届国际机器学习会议ICML 2024上首次发表。

一物网声明:未经许可,不得转载。