你敢信!AI可以把人类脑中的信息,用视频形式展示出来了!
也就说,大脑视觉信号技术手段被Stable Diffusion复现成视频。
比如你坐在副驾驶看到的美景,AI分分钟给重建出来:
你曾看到水里的鱼儿、草原上吃草的马儿,也不在话下:
这个“AI读脑术”项目是由新加坡国立大学和香港中文大学共同完成的最新研究,团队最终将项目取名为MinD-Video。
CinematicMindscapes:Highquality Video Reconstruction from Brain Activity
主页:https://mind-video.com/
论文:https://arxiv.org/abs/2305.11675
代码:https://github.com/jqin4749/MindVideo
看到这,有没有想起科幻电影《超体》中Lucy读取反派大佬记忆画面场景:
网友们坐不住了,直呼:这是推动人工智能和神经科学的完美结合啊
要重点说的是,AI绘画开源软件-Stable Diffusion也在项目中立下了汗马功劳。
到底怎么做到的?
从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界很多关注。类似这样的研究,也有利于理解我们的认知过程。
但以往的研究仅仅局限在重建静态图像上,而重建成高清视频的形式还处于黎明阶段。
与重建静态图片不同,人类视觉所看到的场景、动作和物体的变化是连续、多样化的。
而fMRI这项技术在每隔几秒钟的时间里捕捉大脑活动的快照。
例如,一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。
因此,这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。
为了弥合图像和视频大脑解码之间差距,团队便提出了MinD-Video的方法。主要包含两大模块,它们分别做训练,然后再在一起做微调。
模型从大脑信号中逐步学习,在第一个模块训练的过程,可以获得对语义空间的更深入理解。
具体分解就是先利用大规模无限制学习与mask brain modeling(MBM)来学习视觉fMRI特征。
然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器。
在第二个模块中,团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。
这样生成出来的视频质量明显优于其他方法。
甚至在场景连续变化的过程中,也能够呈现出完美连续的高清视频。
研究团队
本文 由「黑马刚哥」编辑整理,仅供分享交流
图源Mind-Video| 版权归作者所有
-END-
设计&需求沟通
【 如果你是设计师 】,希望自己的设计思考更全面、设计技法更深入、作品输出更专业,或者你想跳槽去更大的公司。欢迎和刚哥一起交流,我们互相进步。
我们组建了专业的 AI绘画纯技术交流群,群里大佬云集,也可添加刚哥进群。
【如果你是设计需求方】,想让你的产品更加吸引客户,降低运营成本,那就找「黑马视觉帮」吧!我们有专业的互联网大公司设计师团队,参与过多个亿级项目的设计工作。欢迎联系刚哥沟通需求。
感谢你的阅读支持 · 欢迎留言互动
-------------------------------------------