最近,总部位于东京的Sakana AI发表了一篇名为《连续思维机器》的论文,直接向当前深度学习模型对时间动态的简化处理“开炮”,提出了一种能让机器像生物大脑一样“持续思考”的新模型。

咱都知道,现在主流的神经网络虽然是从生物大脑那儿获取的灵感,但在处理时间信息这块,跟生物大脑比起来差得可不是一星半点。生物大脑的神经活动在时间维度上那叫一个复杂又动态,这对信息处理和认知功能来说太重要了。可现代神经网络为了计算效率,把时间动态给抽象化了,神经元的激活就变成了简单的静态输出。虽说在特定任务上这种简化能取得不错的效果,但也让AI在常识推理、灵活适应这些方面表现欠佳。
Sakana AI的研究者们就觉得,时间维度对实现更高级的人工智能太关键了。于是,他们捣鼓出了“连续思维机器”(CTM)模型,把神经元层面的动态特性当作核心来研究。
那CTM到底是怎么实现让机器“持续思考”的呢?这里头有两大核心创新。
先说说神经元级别的时序处理。在传统模型里,神经元就是个“反应机器”,只对当前输入做出反应。但CTM里的神经元可不一样,每个神经元都有自己独特的权重参数,能处理一段时间内接收到的信号历史,而不仅仅是即时输入。这就好比给每个神经元都装了个“记忆芯片”,让它能考虑历史信息,算出自己的激活状态。这么一来,神经元的激活模式就变得又复杂又多样,更接近生物神经元的实际工作方式了。
还有个关键创新就是神经同步作为隐层表示。CTM不再只盯着神经元在特定时间点的激活快照,而是把神经元活动在一段时间内的“同步性”当作核心的内部表征。简单来说,就是关注不同神经元在一段时间内活动模式的协调配合程度。这种同步信息就像是一把“钥匙”,能用来理解输入数据、进行预测,还能调节模型的注意力机制。

为了让这种基于时间的“思考”成为现实,CTM引入了一个超厉害的概念——内部序列维度,也叫“内部滴答”。这个维度跟输入数据的维度没关系,让模型能按照自己的节奏进行迭代处理和信息提炼。不管输入是静态图像还是复杂迷宫,CTM都能在内部进行一系列的“思考活动”,就跟人类思考问题一样,哪怕面对静态对象,大脑也会有一系列内部认知过程。
这个内部“思考”过程就像一场循环接力赛。首先是信息交互,突触模型负责神经元之间的信息传递,接收前一时刻神经元的“后激活状态”和从外部输入数据中提取的特征,算出当前时刻的“前激活状态”。接着是神经元“个性化”处理,每个神经元根据自己接收到的“前激活状态”历史记录,算出下一时刻的“后激活状态”。然后是“同步”读心术,CTM记录所有神经元在一段时间内的“后激活状态”历史,算出它们之间的“同步矩阵”,这个矩阵能反映不同神经元活动模式的关联性。最后是决策与行动,基于“同步矩阵”,CTM生成输出,比如图像分类结果,或者调节对输入数据的注意力,比如决定关注图像的特定区域。之后,注意力机制的输出和当前神经元的“后激活状态”又会进入下一个“内部滴答”的循环,就这么一直循环下去,直到模型完成处理。
说了这么多理论,CTM在实际任务中的表现咋样呢?那可真是相当惊艳!
在ImageNet - 1K图像分类任务中,虽然CTM的目标不是打破纪录,但它的表现很稳健。更厉害的是,它展示出了有趣的内部“思考”过程。它的注意力会随着“内部滴答”的进行,在图像的不同区域平滑移动,有时候聚焦在关键特征上,有时候又覆盖更广的区域,就像在仔细观察和理解图像内容。而且,CTM的校准性很好,对自己预测的置信度比较可靠,这通常得靠额外的训练技巧才能实现。还有个小惊喜,CTM的神经元活动展现出了复杂的多尺度模式,就算没有外部驱动信号,也能观察到类似生物大脑皮层中常见的低频行波现象。
为了测试CTM的复杂序列推理和规划能力,研究者们还设计了一个2D迷宫任务。这个任务要求模型直接输出从起点到终点的完整路径,还移除了注意力机制中的位置编码,逼着模型自己构建对迷宫的内部“世界表征”。结果,CTM在这个任务上表现优异,远远超过了LSTM等基线模型,展示了它构建和利用内部世界模型的能力。更牛的是,就算面对比训练时更大、路径更长的迷宫,CTM也能通过多次“重新应用”来解决问题,这显示出了它一定的泛化能力。研究者觉得,这种能力和人类的“情景性未来思维”很像,就是通过“想象”未来的状态来指导当前行动。
CTM在排序、奇偶校验、问答MNIST这些需要理解算法流程、记忆和逻辑运算的任务上,也表现得相当不错。在排序任务中,CTM输出序列里每个数字的“等待时间”和数字之间的差值有关,暗示它内部形成了一种依赖数据排布的算法。在奇偶校验任务中,CTM能根据输入序列逐步计算累积奇偶性,而且“思考时间”(内部滴答数)越多,表现越好,甚至能发展出不同的解决策略,比如正向或反向处理序列。在问答MNIST任务中,CTM要先观察一系列MNIST数字图像,再根据后续的索引和操作符指令,回忆之前看到的数字并进行模运算。就算被观察的数字超出了神经元模型的直接“记忆窗口”,CTM也能通过神经元的组织和同步来回忆这些数字,展现了它通过神经同步实现记忆和提取的潜力。
CTM还能用在强化学习任务中,像经典的CartPole(平衡杆)、Acrobot(双摆)和MiniGrid Four Rooms(四房间导航)等部分可观察的环境里,CTM能学习有效的策略,表现和LSTM基线差不多,但它内部神经元活动模式更丰富、更复杂。这说明CTM确实能把神经动态当作一种持续的计算工具,在与环境的互动中不断调整和学习。
不过呢,CTM也不是十全十美的。它也有一些局限性。比如计算成本,因为它是顺序处理的,训练时间比标准的前馈模型长,神经元级别的模型还带来了额外的参数开销。虽然研究者觉得它的益处值得进一步探索,但这也是个需要解决的问题。还有“黑箱”挑战,虽然CTM的内部过程给可解释性提供了一些线索,但要想完全理解它复杂的神经动态是怎么产生智能行为的,还得后续研究。
尽管如此,CTM的提出给人工智能领域带来了新视角。它挑战了现有的模型范式,强调了“神经时序”和“神经同步”在构建更接近生物智能的AI系统中的潜在价值。研究者们也对CTM的未来发展方向进行了展望,比如探索更大规模、更复杂的同步表示,应用于序列数据和语言建模,迈向更“自然”的训练方式,借鉴更多生物机制等等。
总的来说,Sakana AI提出的“连续思维机器”CTM是一项超有创新性和启发性的研究。它让我们重新审视当前深度学习模型在时间动态处理上的简化,从生物神经计算中找灵感,探索构建更强大、更灵活人工智能系统的新方法。虽然让人工智能系统真正实现类人“思考”的目标还有很长的路要走,但CTM的出现无疑为这个方向的研究提供了新思路和工具。
这项研究也再次提醒我们,在人工智能的发展过程中,借鉴生物智能的原理可能是条充满潜力的路。CTM的一些涌现特性,比如良好的校准性,不是预先设计好的,而是在模拟生物机制的过程中自然产生的,这本身就很有意思。未来,怎么在计算效率和生物学合理性之间找到更好的平衡,怎么把更多生物智能的精髓融入到人工智能模型中,都是值得一直探索的重要课题。








