元宇宙

电讯-Yann LeCun朝“世界模型”理论迈一步，Meta开源“像人一样学习”的图像模型 | 最前线

作者:CETCIT小编 •

2023-06-16 21:19:09

文 | 周鑫雨

编辑 | 苏建勋

六根手指、机器猫圆手……手部细节一直是图像生成式AI的盲区。

用Midjourney生成的图，手部有6根手指。

而如今，这一图像生成的阿喀琉斯之踵有望被Meta破解。6月14日，Meta 推出了I-JEPA（Image Joint Embedding Predictive Architecture, 图像联合嵌入预测架构），实现无需手动变换图像对额外知识进行编码的情况下，生成基于世界常识的图像。

这一研究由纽约计算量子物理中心研究院Anna Dawid，以及图灵奖获得者Yann LeCun共同提出——I-JEPA也被视作继LeCun提出“世界模型（World Model）”构想后，第一个卓有成效的进展。

从自回归到世界模型

为何图像生成模型普遍难以精确生成手部？其根本原因在于以自回归为框架的模型缺乏对现实世界的常识。

在自回归框架下，模型利用当前的上文信息对下文信息进行预测。应用至图像生成领域，“图像像素”则成了上下文信息：自回归模型通过将训练图像转换为一维序列输入，利用Transformer转换器自回归预测图像像素。

这一方法的优势在于可以很好地建立像素和高级别属性，如纹理、语义和尺寸等属性之间的关系。但劣势依然明显，由于缺乏常识，模型对图像像素的预测时常违反常理，比如“六根手指”——这也造成了自回归模型常出现的“幻觉”现象。

LeCun认为，想要让AI接近人类水平，其需要像婴儿一样学习世界如何运作。由此，他提出了“世界模型”的概念，解决方案即为JEPA（联合嵌入预测架构）。

JEPA通过一系列的编码器提取世界状态的抽象表示，并使用不同层次的世界模型预测器，来预测世界的不同状态，并在不同的时间尺度上做出预测。

LeCun在论文中提出的基于“世界模型”的自主化AI的模块化结构。图源：论文

在智源大会的演讲中，LeCun有关“层级规划”举了一个例子：我想从纽约前往北京，第一件事是去机场，第二件事是乘去往北京的飞机，最终的代价函数（cost function）可以表示从纽约到北京的距离。那么我该如何去机场？解决方案是把任务分解到毫秒级，通过毫秒级的控制来找到预测成本最小的行动序列。

LeCun表示，所有复杂的任务都可以通过这种“分层”的方式完成，而层次规划则是其中最大的挑战。

迈向“世界模型”的第一步

为何说I-JEPA是迈向“世界模型”的一步？

从训练原理来看，I-JEPA预测的并非是图像像素，而是抽象的预测目标。其中的预测器能够从部分可观察的上下文中，对静态图像中缺失的空间进行模拟。

基于图像的联合嵌入预测体系结构：使用单个上下文块来预测来自同一图像的各种目标块。图源：论文

I-JEPA训练过程：给定一张图像，从中随机抽取4个目标块，比例范围为(0.15,0.2)，宽高比范围为(0.75,1.5)。接下来，随机采样一个范围为(0.85,1.0)的上下文块，并删除任何重叠的目标块。在这种策略下，目标块是相对语义化的，而上下文块在保证信息量足够大的同时又很稀疏(处理效率高)。图源：论文

为了理解可观察的内容，Meta训练了一个随机解码器和生成模型，将I-JEPA预测的内容映射为像素，再输出为预测的内容草图。

I-JEPA预测器可以正确地捕捉空间的不确定性，并正确生成预测对象的部件(例如，鸟的背部和汽车的顶部)。图源：论文

从效果而言，I-JEPA的计算效率远高于主流计算机视觉模型。比如Meta在72小时内用了16块A100训练了一个参数规模为632M的视觉Transformer模型，所用GPU小时数是一般方法的1/10到1/2，并且在相同训练数据量下，误差率更低。

与以前的方法相比，I-JEPA所需的计算量更少，性能更强：与MAE和data2vec相比，I-JEPA所需的预训练时间更少。与iBOT相比，I-JEPA所需的手动标注的数据更少。与此同时，最大的I-JEPA模型(ViT-H/14)比其他两款中最小的模型(ViT-H/16)所需的计算更少。图源：论文

I-JEPA已经显示出世界模型在图像生成上的作用。可预见的是，JEPA在视频、音频等更多模态的预测和生成中将发挥作用。目前，I-JEPA的训练代码和模型检查点已在GitHub上开源。

I-JEPA论文链接：https://arxiv.org/pdf/2301.08243.pdf

JEPA原理解释论文链接：https://arxiv.org/abs/2306.02572

GitHub链接：https://t.co/DgS9XiwnMz

欢迎交流

web3.0教程

获取web3.0观点与资讯

查找第三代互联网(web3.0)相关文章

电讯-Yann LeCun朝“世界模型”理论迈一步，Meta开源“像人一样学习”的图像模型 | 最前线

web3.0教程

什么是区块链？区块链初学者指南

web3.0初学者指南-全面了解web3

什么是元宇宙？如何准确定义元宇宙？