OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

2021刚刚开启，OpenAI又来放大招了！

能写小说、哲学语录的GPT-3已经不足为奇？那就来一个多模态『图像版GPT-3』。

今天，OpenAI重磅推出了最新语言模型—DALL·E，它是GPT-3的120亿参数版本，可以魔法一般按照自然语言文字描述直接生成对应图片！

比如，在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”，它就可以生成这样一张图片：

输入“鳄梨形状的扶手椅”，就是这样：

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

甚至输入“含OpenAI字样的店铺”，它也能成生成多种设计图

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人François Chollet特意发文称：

这看起来非常酷，尤其是“图像生成”的部分。从原理上来看，它应该就是GPT-3在文本合成图像方向上的扩展版本。

AI大神吴恩达也第一时间转推点赞，还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道：人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

值得一提的是，DALL·E的命名也很特别。这个善于绘画创作的模型名称来源于人类艺术家萨尔瓦多·达利（Salvador Dalí）和皮克斯（Pixar）机器人WALL·E名称的结合。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

接下来，我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中，每个视觉效果的文本提示都是通过CLIP重新排序后，从512个文本提示中的前32个获得的，不采取任何手动选取（cherry-picking）。

控制属性

研究人员测试了DALL·E修改目标物体的能力，包括修改相应的属性以及出现的次数。

文本提示：五边形的绿色钟。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如，“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话，DALL·E 不仅要正确地将每件衣服与动物组合在一起，还要将（帽子、红色）、（手套、黄色）、（衬衫、蓝色）和（裤子，绿色）形成各种联想，而且不能混淆它们。

文本提示：一堆三维立方体：红色的立方体在绿色立方体的顶部；绿色立方体在中间；蓝色立方体在底部。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性，但成功率取决于标题文本的语言措辞。

随着目标的增多，DALL·E容易混淆目标与颜色之间的关联，成功率会急剧降低。研究人员注意到，在这些场景中，DALL·E对于标题文本的重新表述是脆弱的、可替代的，语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示：坐在田野上的体素化模型水豚。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

为了进一步验证DALL·E的这个能力，研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力，并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示：荷马半身像。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

DALL·E能够将某些类型的光学畸变（Optical Distortions）应用到具体场景中，正如我们在“鱼眼透镜视图（Fisheye Lens View）”和“球形全景图（Spherical Panorama.）”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示：一个白色的立方体看着自己在镜子里的倒影；一个白色的立方体看着镜子里的自己。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

可视化内部和外部结构

“特写镜头（Extreme Close-up View）”和“x射线（X-Ray）”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示：核桃的横截面图。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

推断上下文细节

将文本翻译成图像的任务是不明确的：一个标题文本通常可以对应无限多种图像，换句话说，图像不是唯一确定的。例如，假如标题文本是“日出时，坐在田野上的水豚的绘画像。根据水豚的方位，可能需要画一个阴影，但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力：改变风格、设置和时间；在各种不同的情况下绘制同一目标图像；在生成目标图像上书写指定文本。

文本提示：带有蓝色草莓的彩色玻璃窗。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

利用不同程度的可靠性，DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性，并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度，并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同，3D渲染引擎的输入必须明确且完整，当标题文本暗示图像必须包含未明确的特定细节时，DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示：一位穿着橘色和黑色相间衬衫的男性人体模特。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

文本提示：客厅中有两个白色的扶手椅和一幅斗兽场的画，这幅画挂在现代样式壁炉的上方。AI生成的图像：

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起，用以描述真实和虚构的事物。 OpenAI发现，DALL·E还具有将完全不同的idea结合起来以合成物体的能力，其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力：将各种概念的特质传递给动物，以及从不相关的概念中汲取灵感来设计产品。

文本提示：竖琴状的蜗牛。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来，OpenAI通过在艺术的背景下的三种插图探索这种能力：动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示：长颈鹿乌龟合体的专业高质量插图，模仿乌龟的长颈鹿，由乌龟变成的长颈鹿。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务，而无需任何额外训练。例如，当提示短语“将‘在公园里walking狗的人’被翻译成法语：”时，GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域，并且在以正确的方式提示时，能够执行多种图像到图像的翻译任务。

文本+图像提示：参照上面的猫在下面生成草图。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

OpenAI惊讶地发现DALL·E居然有这种神奇的能力，因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发，OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力，这是一种视觉智商测试，在20世纪得到了广泛应用。

文本+图像提示：一个几何形状序列。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确，而在另一些方面却有缺陷。

文本提示：中国食物的图片。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

时间知识

除了探索DALL·E关于随空间变化的概念的知识外，OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示：20年代发明的电话。

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

总结：方法和先前工作

DALL·E是一个仅有解码器的Transformer架构，它可以接收1280个token的文本和图像作为单个流（文本为256个token，图像为1024个token），并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask，使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask，以行、列或卷积注意模式对图像token使用稀疏注意，具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似，OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索，会对样本质量产生巨大影响。

GPT-3已经向我们展示，可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明，同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现，以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样，DALL·E是一种Transformer语言模型。OpenAI认为，涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来，OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来，例如对某些工作流程和专业的经济影响，模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后，Henry AI Labs在YouTube上分享了一个视频，简要介绍了OpenAI的DALL-E模型，并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释，仅供参考。

最后，大家对DALL·E 这个的神经网络模型有什么应用上的期待呢？二维设计师？

又会觉得它会引导什么AI革命吗？又或者觉得它会存在很多不可避免的限制？

参考链接：https://openai.com/blog/dall-e/

雷锋网雷锋网(公众号：雷锋网)雷锋网

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）