基于大脑扫描的人工智能重建的图像(下行)与研究参与者实际看到的图像。图片来源:CREATIVE COMMONS
人类眼中所见如何转化为脑中图像,这是神经科学家一直努力破解的问题。随着研究的不断深入,如今人工智能(AI)在模仿上述图像转化过程方面表现得越来越好。
近日,在日本研究团队开展的一项新研究中,AI可以通过读取大脑扫描图像,重建与人们看到的真实景象相近的图像。研究人员表示,随着该技术的发展,有望将其应用于多种场景,比如探索各种动物如何感知世界,甚至记录人类梦境、帮助瘫痪者与他人交流。相关研究预印本已于去年发表,并将在近期举行的计算机视觉国际大会上正式公布。
事实上,许多实验室都在尝试通过AI读取大脑扫描图像,并重建受试者近期看到的人脸、风景图像。而这项新研究首次将“稳定扩散”这一模型成功应用于上述图像重建过程。
“稳定扩散”由德国研究人员开发,于2022年公开发布,与其他文本到图像的AI“生成”模型类似,都是在接受与文本描述相关的数十亿张图像训练后,从文本提示中生成新图像。
在这项新研究中,研究团队为“稳定扩散”增加了额外训练,即将关于数千张照片的额外文本描述,与大脑扫描研究参与者观察这些照片时的大脑模式联系起来。
与之前使用基于大数据训练AI算法破译大脑扫描结果不同,“稳定扩散”能够从较少的训练中获得更多信息。
未参与该研究的美国普林斯顿大学认知神经科学家Ariel Goldstein表示,这是一种结合文本和视觉信息来“破译”大脑的新方法。
开展这项新研究的大阪大学系统神经科学家Yu Takagi介绍,功能性磁共振成像(f MRI)通过扫描检测大脑活动区域血流变化,记录活动峰值。f MRI记录了大脑中与图像感知相关的不同区域,如枕叶(负责记录布局和透视信息)和颞叶(负责记录图像内容)的活动信息,而AI模型则将上述活动值转换为图像。这就是新研究重建图像的原理。
研究人员使用明尼苏达大学提供的在线数据集对“稳定扩散”进行了额外训练。该数据集包括4名参与者观看10000张照片时的脑部扫描结果,其中一部分用于模型的额外训练,还有一部分用于后续测试。
Takagi表示,新方法比以前的方法效率更高,可以用更小的数据集对模型进行训练。
研究人员发现,大脑活动扫描提供了足够的信息,以重新创建人们看到图像的布局和视角。但是,该算法很难让真实的物体纤毫毕现,例如钟楼重建后的图像是抽象的图形。
解决上述问题的方法之一是使用更大规模的数据集进行训练以预测图像的更多细节。但目前f MRI数据集有限,于是研究人员利用f MRI数据集中照片附带的图片说明来规避这个问题。
例如,如果其中一张训练照片包含钟楼,那么扫描中的大脑活动模式将与该物体直接关联。这意味着,如果研究参与者在测试阶段再次展示了相同的大脑模式,系统会将相应关键词输入“稳定扩散”的文本-图像生成器中生成钟楼,并按照大脑模式所指示的布局和透视图,将其纳入重建的图像中,使其更接近真实图像。
然而,AI系统只在4人范围内进行了测试,如果将其扩展到其他人的大脑扫描中,则需要进行再培训。因此,这项技术距离普及还有一段路要走。(原标题《AI读取大脑 重现你所见》)
相关论文信息:https://doi.org/10.1101/2022.11.18.517004