炸裂！Sakana ai让机器学会“持续思考”，AI界要变天？-AITOP100,AI资讯

最近，总部位于东京的Sakana AI发表了一篇名为《连续思维机器》的论文，直接向当前深度学习模型对时间动态的简化处理“开炮”，提出了一种能让机器像生物大脑一样“持续思考”的新模型。

Sakana ai

咱都知道，现在主流的神经网络虽然是从生物大脑那儿获取的灵感，但在处理时间信息这块，跟生物大脑比起来差得可不是一星半点。生物大脑的神经活动在时间维度上那叫一个复杂又动态，这对信息处理和认知功能来说太重要了。可现代神经网络为了计算效率，把时间动态给抽象化了，神经元的激活就变成了简单的静态输出。虽说在特定任务上这种简化能取得不错的效果，但也让AI在常识推理、灵活适应这些方面表现欠佳。

Sakana AI的研究者们就觉得，时间维度对实现更高级的人工智能太关键了。于是，他们捣鼓出了“连续思维机器”（CTM）模型，把神经元层面的动态特性当作核心来研究。

那CTM到底是怎么实现让机器“持续思考”的呢？这里头有两大核心创新。

先说说神经元级别的时序处理。在传统模型里，神经元就是个“反应机器”，只对当前输入做出反应。但CTM里的神经元可不一样，每个神经元都有自己独特的权重参数，能处理一段时间内接收到的信号历史，而不仅仅是即时输入。这就好比给每个神经元都装了个“记忆芯片”，让它能考虑历史信息，算出自己的激活状态。这么一来，神经元的激活模式就变得又复杂又多样，更接近生物神经元的实际工作方式了。

还有个关键创新就是神经同步作为隐层表示。CTM不再只盯着神经元在特定时间点的激活快照，而是把神经元活动在一段时间内的“同步性”当作核心的内部表征。简单来说，就是关注不同神经元在一段时间内活动模式的协调配合程度。这种同步信息就像是一把“钥匙”，能用来理解输入数据、进行预测，还能调节模型的注意力机制。

大猩猩脸部

为了让这种基于时间的“思考”成为现实，CTM引入了一个超厉害的概念——内部序列维度，也叫“内部滴答”。这个维度跟输入数据的维度没关系，让模型能按照自己的节奏进行迭代处理和信息提炼。不管输入是静态图像还是复杂迷宫，CTM都能在内部进行一系列的“思考活动”，就跟人类思考问题一样，哪怕面对静态对象，大脑也会有一系列内部认知过程。

这个内部“思考”过程就像一场循环接力赛。首先是信息交互，突触模型负责神经元之间的信息传递，接收前一时刻神经元的“后激活状态”和从外部输入数据中提取的特征，算出当前时刻的“前激活状态”。接着是神经元“个性化”处理，每个神经元根据自己接收到的“前激活状态”历史记录，算出下一时刻的“后激活状态”。然后是“同步”读心术，CTM记录所有神经元在一段时间内的“后激活状态”历史，算出它们之间的“同步矩阵”，这个矩阵能反映不同神经元活动模式的关联性。最后是决策与行动，基于“同步矩阵”，CTM生成输出，比如图像分类结果，或者调节对输入数据的注意力，比如决定关注图像的特定区域。之后，注意力机制的输出和当前神经元的“后激活状态”又会进入下一个“内部滴答”的循环，就这么一直循环下去，直到模型完成处理。

说了这么多理论，CTM在实际任务中的表现咋样呢？那可真是相当惊艳！

在ImageNet - 1K图像分类任务中，虽然CTM的目标不是打破纪录，但它的表现很稳健。更厉害的是，它展示出了有趣的内部“思考”过程。它的注意力会随着“内部滴答”的进行，在图像的不同区域平滑移动，有时候聚焦在关键特征上，有时候又覆盖更广的区域，就像在仔细观察和理解图像内容。而且，CTM的校准性很好，对自己预测的置信度比较可靠，这通常得靠额外的训练技巧才能实现。还有个小惊喜，CTM的神经元活动展现出了复杂的多尺度模式，就算没有外部驱动信号，也能观察到类似生物大脑皮层中常见的低频行波现象。

为了测试CTM的复杂序列推理和规划能力，研究者们还设计了一个2D迷宫任务。这个任务要求模型直接输出从起点到终点的完整路径，还移除了注意力机制中的位置编码，逼着模型自己构建对迷宫的内部“世界表征”。结果，CTM在这个任务上表现优异，远远超过了LSTM等基线模型，展示了它构建和利用内部世界模型的能力。更牛的是，就算面对比训练时更大、路径更长的迷宫，CTM也能通过多次“重新应用”来解决问题，这显示出了它一定的泛化能力。研究者觉得，这种能力和人类的“情景性未来思维”很像，就是通过“想象”未来的状态来指导当前行动。

CTM在排序、奇偶校验、问答MNIST这些需要理解算法流程、记忆和逻辑运算的任务上，也表现得相当不错。在排序任务中，CTM输出序列里每个数字的“等待时间”和数字之间的差值有关，暗示它内部形成了一种依赖数据排布的算法。在奇偶校验任务中，CTM能根据输入序列逐步计算累积奇偶性，而且“思考时间”（内部滴答数）越多，表现越好，甚至能发展出不同的解决策略，比如正向或反向处理序列。在问答MNIST任务中，CTM要先观察一系列MNIST数字图像，再根据后续的索引和操作符指令，回忆之前看到的数字并进行模运算。就算被观察的数字超出了神经元模型的直接“记忆窗口”，CTM也能通过神经元的组织和同步来回忆这些数字，展现了它通过神经同步实现记忆和提取的潜力。

CTM还能用在强化学习任务中，像经典的CartPole（平衡杆）、Acrobot（双摆）和MiniGrid Four Rooms（四房间导航）等部分可观察的环境里，CTM能学习有效的策略，表现和LSTM基线差不多，但它内部神经元活动模式更丰富、更复杂。这说明CTM确实能把神经动态当作一种持续的计算工具，在与环境的互动中不断调整和学习。

不过呢，CTM也不是十全十美的。它也有一些局限性。比如计算成本，因为它是顺序处理的，训练时间比标准的前馈模型长，神经元级别的模型还带来了额外的参数开销。虽然研究者觉得它的益处值得进一步探索，但这也是个需要解决的问题。还有“黑箱”挑战，虽然CTM的内部过程给可解释性提供了一些线索，但要想完全理解它复杂的神经动态是怎么产生智能行为的，还得后续研究。

尽管如此，CTM的提出给人工智能领域带来了新视角。它挑战了现有的模型范式，强调了“神经时序”和“神经同步”在构建更接近生物智能的AI系统中的潜在价值。研究者们也对CTM的未来发展方向进行了展望，比如探索更大规模、更复杂的同步表示，应用于序列数据和语言建模，迈向更“自然”的训练方式，借鉴更多生物机制等等。

总的来说，Sakana AI提出的“连续思维机器”CTM是一项超有创新性和启发性的研究。它让我们重新审视当前深度学习模型在时间动态处理上的简化，从生物神经计算中找灵感，探索构建更强大、更灵活人工智能系统的新方法。虽然让人工智能系统真正实现类人“思考”的目标还有很长的路要走，但CTM的出现无疑为这个方向的研究提供了新思路和工具。

这项研究也再次提醒我们，在人工智能的发展过程中，借鉴生物智能的原理可能是条充满潜力的路。CTM的一些涌现特性，比如良好的校准性，不是预先设计好的，而是在模拟生物机制的过程中自然产生的，这本身就很有意思。未来，怎么在计算效率和生物学合理性之间找到更好的平衡，怎么把更多生物智能的精髓融入到人工智能模型中，都是值得一直探索的重要课题。

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯