近几个月来,生成式AI模型的兴趣和研究加速发展,自然语言处理的进步使得机器能够理解和表达语言,同时还有可以根据文本输入生成图像的系统。今天,我们将展示CM3leon(发音类似“变色龙”),这是一款既能进行文本到图像生成,又能进行图像到文本生成的单一基础模型。
CM3leon是第一个多模态模型,其训练方法源自文本模型,包括大规模的检索增强预训练阶段和第二个多任务监督微调(SFT)阶段。这个简单的训练方法产生了强大的模型,并且表明基于tokenizer的transformer模型可以像现有的生成扩散模型一样高效训练。尽管CM3leon的训练计算量比之前的基于transformer的方法少了五倍,但它在文本到图像生成方面实现了最先进的性能。CM3leon既具有自回归模型的灵活性和效果,同时又保持了低训练成本和推理效率。它是一个因果性的掩码混合模态(CM3)模型,因为它可以根据任意图像和文本内容生成序列的文本和图像序列,这大大扩展了之前仅限于文本到图像或图像到文本的模型的功能。
虽然仅使用文本的生成模型通常会通过多任务指令调整来提高其遵循指令提示的能力,但图像生成模型通常是专门针对特定任务进行优化的。我们将大规模多任务指令调整应用于CM3leon的图像和文本生成,显示它显著提高了图像字幕生成、视觉问答、基于文本的编辑和条件图像生成等任务的性能。这再次强调了检索增强的潜力,并凸显了扩展策略对自回归模型性能的影响。CM3leon在生成复杂组合对象方面表现出色,例如下面的示例中带着墨镜和帽子的盆栽仙人掌。CM3leon在多种视觉语言任务中表现出色,包括视觉问答和长格式字幕生成。即使只在由30亿文本标记数据组成的数据集上进行训练,CM3leon的零样本性能与在更大规模数据集上训练的更大模型相比也不遑多让。
CM3leon的能力
有了CM3leon的功能,图像生成工具可以产生更连贯、更符合输入提示的图像。例如,许多图像生成模型在恢复全局形状和局部细节方面存在困难。而CM3leon在这方面表现出色。以下是CM3leon在各种任务中的能力的展示,所有任务都由单一模型完成:
文本引导的图像生成和编辑
对于复杂对象或包含许多约束条件的提示,图像生成可能会很具有挑战性。文本引导的图像编辑(例如“将天空颜色改成明亮蓝色”)具有挑战性,因为它需要模型同时理解文本指令和视觉内容。CM3leon在所有情况下表现出色,如下面的示例所示。
文本到图像生成
给定可能具有高度组合结构的文本提示,生成符合提示的连贯图像。例如,以下四张图像是为以下提示创建的:(1) 撒哈拉沙漠中戴着草帽和霓虹太阳镜的小仙人掌。(2) 一只人手的特写照,手模特。高质量。(3) 一只主角是浣熊的动漫人物,准备用武士刀进行史诗级战斗。战斗姿势。幻想、插图。(4) 一块写着“1991年”的幻想风格停车标志。
文本引导的图像编辑
根据图像和文本提示,编辑图像以符合文本中的指令。由于CM3leon模型的通用性,可以使用同一模型实现以上和以下所有任务,而不像之前的模型(例如InstructPix2Pix),它们仅用于文本引导的图像编辑。
文本任务
CM3leon模型还可以根据不同的提示生成简短或长篇的字幕,并回答有关图像的问题。
例如,想象一只狗拿着一根棍子。
提示问题:狗拿着什么?
模型生成:棍子
提示:非常详细地描述给定的图像。
模型生成:在这张图片中,有一只狗用嘴叼着一根棍子。地面上有草。图像的背景有树。
我们对指令调整模型进行了实证评估,用于各种图像字幕生成和视觉问答任务,并将其与先前的最先进基准进行了比较。尽管CM3leon模型的文本数据量(约30亿标记)相对于Flamingo(100亿)和OpenFlamingo(40亿)模型来说较少,但在MS-COCO字幕生成和VQA2视觉问答任务的零样本性能上,它与OpenFlamingo模型相当,并且在VizWiz任务上甚至比Flamingo模型高出近10分。
结构引导的图像编辑
结构引导的图像编辑涉及理解和解释不仅文本指令,还包括作为输入的结构或布局信息。这使得CM3leon模型能够在遵循给定的结构或布局指导的同时,对图像进行视觉上连贯和符合上下文的编辑。
目标到图像
给定图像边界框分割的文本描述,生成图像。
分割到图像
给定只包含分割的图像(没有文本类别),生成图像。此处的输入指示我们从中提取分割的图像。
超分辨率结果
以上所有生成的图像都是CM3leon模型的原始输出。然而,图像生成的常见技巧是在原始模型输出上添加一个单独训练的超分辨率阶段,以产生更高分辨率的图像。这对于CM3leon也很有效,如下面的示例所示,用于文本到图像生成任务。
四个提示的示例图像:(1) 一杯冒着热气的咖啡,背景是山。在公路旅行中休息。(2) 美丽、雄伟的道路,夕阳下。具有审美感。(3) 湖中央的小圆形岛屿,湖周围是森林。高对比度。
更多提示的示例:(1) 海龟在水下游泳。具有审美感。幻想。(2) 大象在水下游泳。具有审美感。幻想。(3) 一群羊。具有审美感。幻想。
CM3leon的构建方式
架构
CM3leon的架构使用了类似于已经确立的文本模型的仅解码器transformer。然而,CM3leon的独特之处在于它能够输入和生成文本和图像。这使得CM3leon能够成功处理我们以上分享的各种任务。
训练
CM3leon的训练采用了检索增强的方式,遵循我们最近的研究,大大提高了生成模型的效率和可控性。最后,如上所述,我们对不同的图像和文本生成任务进行了多任务指令微调。
随着AI行业的不断发展,CM3leon等生成模型变得越来越复杂。这些模型通过在数百万个示例图像上训练来学习视觉与文本之间的关系,但同时它们也可能反映出训练数据中存在的任何偏见。虽然行业在理解和解决这些挑战方面仍处于早期阶段,但我们相信透明性是加速进展的关键。
因此,正如我们在论文中描述的,我们使用了授权的数据集对CM3leon进行了训练。这表明了即使使用与所有先前模型不同的数据分布,也可以实现强大的性能。通过公开我们的工作,我们希望鼓励生成式AI领域的合作和创新。我们相信通过共同努力,我们可以创建不仅更准确,而且更公平、更公正的模型。
为多模态语言模型铺平道路
为了创建高质量的生成模型,我们认为CM3leon在各种任务上的强大性能是朝着更高保真度的图像生成和理解的一步。像CM3leon这样的模型最终可以帮助提升创造力,并在元宇宙中产生更好的应用。我们期待着探索多模态语言模型的边界,并在未来发布更多的模型。