
东京的人工智能初创公司Sakana,由前谷歌顶级AI科学家Llion Jones和David Ha等人联合创立,近日推出了一种全新的AI模型架构——连续思维机器(Continuous Thought Machines,简称CTM)。这一创新旨在引领AI语言模型进入一个新纪元,使它们更加灵活,能够处理更广泛的认知任务,从而在解决复杂问题时更接近人类大脑的思维方式。
动态推理,模拟人脑灵活性
与传统的Transformer模型不同,CTM并不依赖于固定的并行层来一次性处理所有输入。相反,它在每个输入/输出单元内,即每个人工“神经元”中逐步展开计算。每个神经元都保留了一个关于其之前活动的短期历史,并利用这段记忆来决定何时再次激活。这种内部状态使CTM能够根据任务的复杂性动态调整推理的深度和持续时间,每个神经元的信息密度和复杂性都远超典型的Transformer模型。
神经同步,实现自主协作
CTM架构围绕两个关键机制构建。首先,模型中的每个神经元都维护一个关于其激活时间和原因的“历史”或工作记忆,并利用这一历史来决定何时再次触发。其次,神经同步——即模型中的人工神经元如何以及何时“触发”或共同处理信息——是自然发生的。神经元群体基于内部对齐来决定何时一起触发,而不是依赖外部指令或奖励塑造。这些同步事件用于调节注意力并产生输出,即注意力被导向更多神经元正在触发的区域。
广泛应用,展现强大潜力
在图像分类、二维迷宫求解以及强化学习等多个领域的演示中,CTM都表现出了出色的可解释性和适应性。其内部的“思维”步骤允许研究人员观察决策是如何随时间形成的,这在其他模型家族中很少见到。尽管CTM并不是为了追逐排行榜上的最高分数而设计的,但其早期结果表明,这种生物学启发的设计并没有牺牲实用性。在广泛使用的ImageNet-1K基准测试中,CTM达到了72.47%的top-1准确率和89.89%的top-5准确率,尽管这略低于最先进的Transformer模型,但仍保持了一定的竞争力。
适应性强,满足复杂需求
CTM在顺序和自适应任务中的表现尤为突出。在迷宫求解场景中,该模型能够根据原始图像产生逐步的方向性输出,而无需使用在Transformer模型中通常必不可少的位置嵌入。视觉注意力轨迹显示,CTM往往以类似人类的顺序关注图像区域,如从眼睛到鼻子再到嘴巴来识别面部特征。此外,CTM还表现出强大的校准能力:其置信度估计与实际预测准确性紧密一致,无需温度缩放或事后调整。
社区开放,推动研究深入
虽然CTM架构仍处于实验阶段,尚未针对商业部署进行优化,但Sakana已为其奠定了坚实的基础,以促进社区采纳。CTM的完整实现已在GitHub上开源,包括针对特定任务的训练脚本、预训练检查点、绘图实用程序和分析工具。此外,Sakana还提供了一个交互式网络演示,让用户能够观察CTM在推理过程中注意力的转移,从而更深入地理解其推理流程。
未来展望,潜力巨大
对于CTM来说,要达到生产环境还需在优化、硬件效率和与标准推理管道的集成方面取得进一步进展。然而,凭借其动态分配计算能力、自我调节推理深度以及提供清晰可解释性的能力,CTM在生产系统中面对复杂多变的输入或严格监管要求时可能具有极高的价值。AI工程师将发现CTM在能源高效的推理方面的优势,特别是在大规模或延迟敏感的应用中。同时,CTM的逐步推理解锁了更丰富的可解释性,使企业能够追踪模型不仅预测了什么,还追踪了它是如何得出这一预测的。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/sakana-tui-chu-xin-xing-ai-jia-gou-lian-xu-si-wei-ji-qi