PixArt-α是一种基于Transformer架构的高效文本到图像生成模型,具有以下特点:
高质量生成:生成的图像质量与最先进的图像生成器(如Imagen、SDXL和Midjourney)相当,达到接近商业应用标准。
低训练成本:训练速度显著超过现有大规模T2I模型,仅需要Stable Diffusion v1.5训练时间的12%,节省了近30万美元,并减少了90%的CO₂排放。
多阶段训练策略:将复杂的文本到图像生成任务分解为三个阶段,分别优化像素依赖性、文本图像对齐和图像美学质量。
高效T2I Transformer:在扩散Transformer(DiT)中引入交叉注意力模块,简化计算密集型的类别条件分支,并采用重新参数化技术。
高信息数据:利用大型视觉语言模型自动标注密集伪字幕,提高文本图像对齐学习的效率。
这里主要是自己闲暇时间里对PixArt-α论文的阅读记录,感兴趣的话可以参考一下,如果想要知己阅读原英文论文的话可以移步这里,如下所示:
摘要
最先进的文本到图像(T2I)模型需要显著的训练成本(例如,数百万GPU小时),严重阻碍了AIGC社区的基础创新,同时增加了CO2排放。本文介绍了PixArt-α,一种基于Transformer的T2I扩散模型,其图像生成质量与最先进的图像生成器(例如,Imagen、SDXL,甚至Midjourney)相当,达到接近商业应用标准。此外,它支持高达1024×1024分辨率的高分辨率图像合成,且训练成本低,如图1和2所示。为了实现这一目标,提出了三个核心设计:(1)训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本图像对齐和图像美学质量;(2)高效的T2I Transformer:我们将交叉注意力模块纳入扩散Transformer(DiT)以注入文本条件,并简化计算密集型的类别条件分支;(3)高信息数据:我们强调文本图像对中概念密度的重要性,并利用大型视觉语言模型自动标注密集伪字幕,以协助文本图像对齐学习。结果,PixArt-α的训练速度显著超过现有的大规模T2I模型,例如,PixArt-α仅需要Stable Diffusion v1.5训练时间的12%(约753 vs. 约6250 A100 GPU天),节省了近30万美元(28400美元 vs. 32万美元),并减少了90%的CO2排放。此外,与更大的SOTA模型RAPHAEL相比,我们的训练成本仅为1%。广泛的实验表明,PixArt-α在图像质量、艺术性和语义控制方面表现出色。我们希望PixArt-α能为AIGC社区和初创公司提供新的见解,加速构建他们自己的高质量且低成本的生成模型。
1 引言
最近,文本到图像(T2I)生成模型的进步,如DALL-E 2(OpenAI,2023)、Imagen(Saharia et al.,2022)和Stable Diffusion(Rombach et al.,2022)开启了一个逼真图像合成的新时代,深刻影响了众多下游应用,如图像编辑(Kim et al.,2022)、视频生成(Wu et al.,2022)、3D资产创建(Poole et al.,2022)等。
图1:由PIXART-α生成的样本展示了卓越的质量,以其对提供文本描述的忠实度和精确度著称。
图2:T2I生成器之间的CO2排放1和训练成本2比较。PIXART-α实现了异常低的训练成本,仅为28,400美元。与RAPHAEL相比,我们的CO2排放和训练成本分别仅为1.2%和0.91%。
然而,这些先进模型的训练需要巨大的计算资源。例如,训练SDv1.5(Podell et al.,2023)需要6000个A100 GPU天,大约花费32万美元,而最近更大的模型RAPHAEL(Xue et al.,2023b)甚至需要60000个A100 GPU天——大约需要308万美元,如表2所示。此外,训练还贡献了大量的CO2排放,造成环境压力;例如,RAPHAEL(Xue et al.,2023b)的训练导致35吨CO2排放,相当于一个人7年的排放量,如图2所示。如此巨大的成本对研究社区和企业家访问这些模型构成了重大障碍,对AIGC社区的关键进步造成了严重阻碍。鉴于这些挑战,一个关键问题出现了:我们能否开发一个高质量的图像生成器,同时消耗可承受的资源?
2 方法
动机
T2I训练缓慢的原因在于两个方面:训练管道和数据。
图3:LAION原始字幕与LLaVA改进字幕的对比。LLaVA提供高信息密度的字幕,有助于模型在每次迭代中掌握更多概念,并提高文本图像对齐效率。
T2I生成任务可以分解为三个方面:捕捉像素依赖性:生成逼真图像涉及理解图像中的复杂像素级依赖性并捕捉其分布;文本与图像之间的对齐:需要精确的对齐学习,以理解如何生成准确匹配文本描述的图像;高美学质量:除了忠实的文本描述外,美学上的愉悦性是生成图像的另一个重要属性。当前方法将这三个问题纠缠在一起,并直接使用大量数据从头开始训练,导致训练效率低下。为了解决这个问题,我们将这些方面分解为三个阶段,如第2.2节所述。
另一个问题,如图3所示,是当前数据集的字幕质量。当前的文本图像对经常存在文本图像对齐错误、描述不足、多样词汇使用频率低以及包含低质量数据的问题。这些问题在训练中引入了困难,导致不必要的数百万次迭代以实现文本与图像之间的稳定对齐。为了应对这一挑战,我们引入了一种创新的自动标注管道来生成精确的图像字幕,如第2.4节所述。
训练策略分解
通过将训练分为三个不同阶段,可以逐步优化模型的生成能力。
图4:PIXART-α的模型架构。每个块中集成了一个交叉注意力模块以注入文本条件。为了优化效率,所有块共享相同的时间条件adaLN-single参数。
阶段1:像素依赖性学习。当前的类别引导方法(Peebles and Xie,2023)在生成语义一致且合理的单个图像像素方面表现出色。训练自然图像的类别条件图像生成模型(Peebles and Xie,2023)相对容易且成本低廉,如附录A.5所述。此外,我们发现合适的初始化可以显著提高训练效率。因此,我们从一个ImageNet预训练模型中提升我们的模型,并且我们的模型架构设计为与预训练权重兼容。
阶段2:文本图像对齐学习。从预训练的类别引导图像生成过渡到文本到图像生成的主要挑战是如何实现显著增加的文本概念与图像之间的准确对齐。这一对齐过程不仅耗时,而且本质上具有挑战性。为了高效地促进这一过程,我们构建了一个由精确的文本图像对组成的数据集,具有高概念密度。数据创建管道将在第2.4节中描述。通过使用准确且信息丰富的数据,我们的训练过程可以在每次迭代中处理更多的名词,同时遇到比以前数据集少得多的模糊性。这种策略使我们的网络能够有效地对齐文本描述与图像。
阶段3:高分辨率和美学图像生成。在第三阶段,我们使用高质量美学数据对模型进行微调,以生成高分辨率图像。值得注意的是,我们观察到这一阶段的适应过程显著更快,主要归功于在前一阶段建立的强大先验知识。将训练过程分解为不同的阶段显著缓解了训练困难,实现了高效的训练。
高效的T2I Transformer
PixArt-α采用扩散Transformer(DiT)(Peebles and Xie,2023)作为基础架构,并创新地定制Transformer块以处理T2I任务的独特挑战,如图4所示。提出了几个专门的设计如下:
交叉注意力层。我们将多头交叉注意力层纳入DiT块。它位于自注意力层和前馈层之间,以便模型可以灵活地与从语言模型中提取的文本嵌入进行交互。为了便于预训练权重,我们将交叉注意力层中的输出投影层初始化为零,有效地作为恒等映射并保留输入供后续层使用。
Add_LN-single。我们发现DiT中的自适应归一化层(Perez et al.,2018)(add_LN)模块中的线性投影占据了很大比例(27%)的参数。如此大量的参数是无用的,因为我们的T2I模型不使用类别条件。因此,我们提出了add_LN-single,它仅在第一个块中使用时间嵌入作为输入进行独立控制(如图4右侧所示)。具体来说,在第i个块中,设S^{(i)}=[β_1^{(t)},β_2^{(t)},γ_1^{(t)},γ_2^{(t)},α_1^{(t)},α_2^{(t)}]为add_LN中的所有缩放和移位参数的元组。在DiT中,S^{(i)}通过块特定的MLP获得,S^{(i)}=f^{(t)}(c+t),其中c和t分别表示类别条件和时间嵌入。然而,在add_LN-single中,在第一个块中计算一组全局移位和缩放参数S=f(t),并在所有块中共享。然后,S^{(i)}通过g(S,E^{(i)})获得,其中g是求和函数,E^{(i)}是与S形状相同的层特定可训练嵌入,它自适应地调整不同块中的缩放和移位参数。
重新参数化。为了利用上述预训练权重,所有E^{(i)}初始化为在选定t(我们使用t=500)时产生与没有c的DiT相同的S^{(i)}。这种设计有效地用全局MLP和层特定可训练嵌入替换了层特定MLP,同时保持与预训练权重的兼容性。实验表明,结合全局MLP和层特定嵌入进行时间步信息处理,以及处理文本信息的交叉注意力层,保持了模型的生成能力,同时有效地减少了其大小。
数据集构建
图像文本对自动标注。LAION数据集的字幕存在各种问题,如文本图像对齐错误、描述不足和词汇使用频率低,如图3所示。为了生成高信息密度的字幕,我们利用最先进的视觉语言模型LLaVA(Liu et al.,2023)。使用提示“以非常详细的方式描述此图像及其风格”,我们显著提高了字幕的质量,如图3所示。
表1:不同数据集的名词概念统计。VN:有效不同名词(出现超过10次);DN:总不同名词;Average:每张图像的平均名词数。
然而,值得注意的是,LAION数据集主要由购物网站上的简单产品预览组成,这对于寻求对象组合多样性的文本到图像生成训练并不理想。因此,我们选择使用SAM数据集(Kirillov et al.,2023),该数据集最初用于分割任务,但具有丰富的多样对象图像。通过将LLaVA应用于SAM,我们成功获得了具有高概念密度的高质量文本图像对,如图10和图11所示。
在第三阶段,我们通过结合JourneyDB(Pan et al.,2023)和1000万内部数据集来构建训练数据集,以增强生成图像的美学质量,使其超越逼真的照片。详见附录A.5。
结果,我们在表1中展示了词汇分析(NLTK,2023),我们将有效不同名词定义为在数据集中出现超过10次的那些。我们将LLaVA应用于LAION以生成LAION-LLaVA。LAION数据集有246万个不同名词,但只有8.5%是有效的。使用LLaVA标注的字幕将有效名词比例显著提高到13.3%。尽管LAION的原始字幕包含惊人的21万个不同名词,但其总名词数仅为7200万。然而,LAION-LLaVA包含2.34亿个名词,有8.5万个不同名词,每张图像的平均名词数从6.4增加到21,表明原始LAION字幕的不完整性。此外,SAM-LLaVA在总名词数为3.28亿和每张图像30个名词的情况下优于LAION-LLaVA,表明SAM包含更丰富的对象和每张图像的优越信息密度。最后,内部数据也确保了足够的有效名词和平均信息密度用于微调。LLaVA标注的字幕显著增加了有效比例和每张图像的平均名词数,提高了概念密度。
3 实验
本节首先概述详细的训练和评估协议。随后,我们在三个主要指标上进行了全面比较。然后,我们深入探讨了PixArt-α中实现卓越效率和有效性的关键设计,并通过消融研究进行了验证。最后,我们通过应用扩展展示了PixArt-α的多功能性。
实施细节
训练细节。我们遵循Imagen(Saharia et al.,2022)和DeepFloyd(DeepFloyd,2023)使用T5大型语言模型(即4.3B Flan-T5-XXL)作为文本编码器进行条件特征提取,并使用DiT-XL/2(Peebles & Xie,2023)作为我们的基础网络架构。与之前提取标准和固定77个文本令牌的工作不同,我们将提取的文本令牌长度调整为120,因为PixArt-α中的字幕更加密集,以提供更多细粒度细节。为了捕捉输入图像的潜在特征,我们使用LDM(Rombach et al.,2022)中预训练并冻结的VAE。在将图像输入VAE之前,我们将图像调整大小并居中裁剪为相同大小。我们还采用了SDXL(Podell et al.,2023)中引入的多方面增强,以实现任意方面图像生成。使用AdamW优化器(Loshchilov & Hutter,2017),权重衰减为0.03,恒定学习率为2e-5。我们的最终模型在64个V100上训练了大约26天。更多细节见附录A.5。
评估指标。我们通过三个主要指标全面评估PixArt-α,即MSCOCO数据集上的Frechet Inception Distance(FID)(Heusel et al.,2017)、T2I-CompBench(Huang et al.,2023)上的组合性以及用户研究中的人类偏好率。
性能比较和分析
表2:我们全面比较了PIXART-α与最近的T2I模型,考虑了几个关键因素:模型大小、训练图像的总容量、COCO FID-30K分数(零样本)和计算成本(GPU天数3)。我们高度有效的方法显著减少了资源消耗,包括训练数据使用和训练时间。基线数据来源于GigaGAN(Kang et al., 2023)。表中的“+”表示未知的内部数据集大小。
表3:T2I-CompBench上的对齐评估。PIXART-α在属性绑定、对象关系和复杂组合方面展示了卓越的性能,表明我们的方法实现了优越的组合生成能力。我们用蓝色突出显示最佳值,用绿色突出显示第二佳值。基线数据来源于Huang et al. (2023)。
保真度评估。FID是评估生成图像质量的指标。我们方法与其他方法在FID和训练时间方面的比较总结在表2中。在COCO数据集上进行零样本测试时,PixArt-α达到了7.32的FID分数。值得注意的是,这是在仅占Stable Diffusion v1.5训练时间12%(753 vs. 6250 A100 GPU天)和训练样本1.25%(2500万 vs. 20亿图像)的情况下实现的。与通常使用大量资源训练的最先进方法相比,PixArt-α在消耗约2%训练资源的同时实现了可比的FID性能。尽管最佳性能模型(RAPHEAL)的FID较低,但它依赖于不可承受的资源(即比PixArt-α多200倍的训练样本、80倍的训练时间和5倍的网络参数)。我们认为FID可能不是评估图像质量的适当指标,更合适的评估应由人类用户进行,如附录A.8所述。我们将在未来探索PixArt-α的扩展以提高性能。
对齐评估。除了上述评估外,我们还使用T2I-Compbench(Huang et al.,2023)评估生成图像与文本条件之间的对齐,这是一个全面评估组合文本到图像生成能力的基准。如表3所示,我们评估了几个关键方面,包括属性绑定、对象关系和复杂组合。PixArt-α在几乎所有(5/6)评估指标上表现出色。这一显著性能主要归功于第2.2节中描述的第二阶段训练中的文本图像对齐学习,其中使用了高质量的文本图像对以实现优越的对齐能力。
用户研究。虽然定量评估指标衡量了两组图像的总体分布,但它们可能无法全面评估图像的视觉质量。因此,我们进行了用户研究以补充我们的评估,并提供对PixArt-α性能的更直观评估。由于用户研究涉及人类评估者且可能耗时,我们选择了表现最好的模型,即DALLE-2、SDv2、SDXL和DeepFloyd,这些模型可通过API访问并能够生成图像。对于每个模型,我们使用Feng et al.(2023)中的一组300个提示生成图像。然后将这些图像分发给50个人进行评估。参与者被要求根据生成图像的感知质量和文本提示与相应图像之间对齐的精确度对每个模型进行排名。结果如图5所示,PixArt-α在质量和对齐方面表现优于现有SOTA T2I模型(例如,DALL-E 2(OpenAI,2023)、Stable Diffusion(Rombach et al.,2022)等),并且在T2I-CompBench(Huang et al.,2023)上的表现也证明了我们在语义控制方面的优势。
消融研究
然后,我们对第2.3节中讨论的关键修改进行消融研究,包括结构修改和重新参数化设计。在图6中,我们提供了视觉结果并进行了FID分析。我们随机选择SAM测试集中的8个提示进行可视化,并计算SAM数据集上的零样本FID-5K分数。详情如下。
图5:基于Feng et al. (2023)的300个固定提示的用户研究。比例值表示参与者偏好相应模型的百分比。PIXART-α在质量和对齐方面均表现出色。
图6:左:消融研究的视觉比较。右:SAM上的零样本FID-2K和GPU内存使用情况。我们的方法与“adaLN”相当,并节省了21%的GPU内存。建议放大200%查看。
“w/o re-param”结果来自从头开始训练的模型,没有重新参数化设计。我们补充了额外的20万次迭代,以弥补预训练阶段缺失的迭代,以进行公平比较。“addLN”结果来自遵循DiT结构的模型,使用时间和文本特征的总和作为每个块中缩放和移位参数的MLP层的输入。“addLN-single”结果来自使用第2.3节中addLN-single模块的Transformer块的模型。在“addLN”和“addLN-single”中,我们都采用了重新参数化设计和20万次迭代的训练。
如图6所示,尽管“addLN”和“addLN-single”模型之间的FID分数差异相对较小,但它们的视觉结果存在显著差异。“w/o re-param”模型在整个测试集中一致显示扭曲的目标图像,并缺乏关键细节。
4 相关工作
我们从三个方面回顾相关工作:去噪扩散概率模型(DDPM)、潜在扩散模型和扩散Transformer。更多相关工作见附录A.1。DDPM(Ho et al.,2020;Sohl-Dickstein et al.,2015)已成为图像生成的高度成功方法,通过迭代去噪过程将高斯噪声转换为遵循数据分布的图像。潜在扩散模型(Rombach et al.,2022)是扩散模型的最新进展。这种方法通过在图像潜在空间上进行分数匹配并引入基于交叉注意力的控制来增强传统扩散模型。结果令人印象深刻,特别是在高密度图像生成任务中,如文本到图像合成。这为许多旨在改进文本到图像合成的后续工作提供了灵感,包括Saharia et al.(2022);Balaji et al.(2022);Feng et al.(2023);Xue et al.(2023b);Podell et al.(2023)等。此外,Stable diffusion及其变体已与各种低成本微调(Hu et al.,2021;Xie et al.,2023)和定制(Zhang et al.,2023;Mou et al.,2023)技术有效结合。
Transformer架构(Vaswani et al.,2017)在语言模型(Radford et al.,2018,2019)中取得了巨大成功,许多最近的工作(Dosovitskiy et al.,2020a;He et al.,2022)表明它在许多计算机视觉任务中也是一个有前途的架构,如图像分类(Touvron et al.,2021;Zhou et al.,2021;Yuan et al.,2021;Han et al.,2021)、目标检测(Liu et al.,2021;Wang et al.,2021,2022;Ge et al.,2023;Carion et al.,2020)、语义分割(Zheng et al.,2021;Xie et al.,2021;Strudel et al.,2021)等(Sun et al.,2020;Li et al.,2022a;Zhao et al.,2021;Liu et al.,2022;He et al.,2022;Li et al.,2022b)。扩散Transformer(DiT)(Peebles & Xie,2023)及其变体(Bao et al.,2023;Zheng et al.,2023)进一步用Transformer替换了基于卷积的U-Net(Ronneberger et al.,2015)骨干。这种架构选择带来了比基于U-Net的扩散模型更大的可扩展性,允许其参数的直接扩展。在我们的论文中,我们利用DiT作为可扩展的基础模型,并将其适应于文本到图像生成任务。
5 结论
在本文中,我们介绍了PixArt-α,一种基于Transformer的文本到图像(T2I)扩散模型,它在显著减少训练成本和CO2排放的同时实现了优越的图像生成质量。我们的三个核心设计,包括训练策略分解、高效的T2I Transformer和高信息数据,促成了PixArt-α的成功。通过广泛的实验,我们证明了PixArt-α在图像生成质量方面达到了接近商业应用标准。通过上述设计,PixArt-α为AIGC社区和初创公司提供了新的见解,使他们能够构建自己的高质量且低成本的T2I模型。我们希望我们的工作能激发该领域的进一步创新和进步。
附录A 附录
相关工作
A.1.1 去噪扩散概率模型
扩散模型(Ho et al.,2020;Sohl-Dickstein et al.,2015)和基于分数的生成模型(Song & Ermon,2019;Song et al.,2021)已成为图像生成的高度成功方法,超越了以前的生成模型,如GAN(Goodfellow et al.,2014)、VAE(Kingma & Welling,2013)和流(Rezende & Mohamed,2015)。与直接从高斯分布映射到数据分布的传统模型不同,扩散模型通过迭代去噪过程将高斯噪声转换为遵循数据分布的图像。这一过程可以从不可训练的前向过程中反向学习,其中少量高斯噪声被迭代添加到原始图像中。
A.1.2 潜在扩散模型
潜在扩散模型(即Stable diffusion)(Rombach et al.,2022)是扩散模型的最新进展。这种方法通过在图像潜在空间上进行分数匹配并引入基于交叉注意力的控制来增强传统扩散模型。结果令人印象深刻,特别是在高密度图像生成任务中,如文本到图像合成。这为许多旨在改进文本到图像合成的后续工作提供了灵感,包括Saharia et al.(2022);Balaji et al.(2022);Feng et al.(2023);Xue et al.(2023b);Podell et al.(2023)等。此外,Stable diffusion及其变体已与各种低成本微调(Hu et al.,2021;Xie et al.,2023)和定制(Zhang et al.,2023;Mou et al.,2023)技术有效结合。
A.1.3 扩散Transformer
Transformer架构(Vaswani et al.,2017)在语言模型(Radford et al.,2018,2019)中取得了巨大成功,许多最近的工作(Dosovitskiy et al.,2020a;He et al.,2022)表明它在许多计算机视觉任务中也是一个有前途的架构,如图像分类(Touvron et al.,2021;Zhou et al.,2021;Yuan et al.,2021;Han et al.,2021)、目标检测(Liu et al.,2021;Wang et al.,2021,2022;Ge et al.,2023;Carion et al.,2020)、语义分割(Zheng et al.,2021;Xie et al.,2021;Strudel et al.,2021)等(Sun et al.,2020;Li et al.,2022a;Zhao et al.,2021;Liu et al.,2022;He et al.,2022;Li et al.,2022b)。扩散Transformer(DiT)(Peebles & Xie,2023)及其变体(Bao et al.,2023;Zheng et al.,2023)进一步用Transformer替换了基于卷积的U-Net(Ronneberger et al.,2015)骨干。这种架构选择带来了比基于U-Net的扩散模型更大的可扩展性,允许其参数的直接扩展。在我们的论文中,我们利用DiT作为可扩展的基础模型,并将其适应于文本到图像生成任务。
PixArt-α vs. Midjourney
在图7中,我们展示了使用PixArt-α和当前SOTA产品级方法Midjourney(Midjourney,2023)生成的图像,使用在线随机采样的提示。在这里,我们隐藏了图像属于哪种方法的标注。读者可以根据提供的提示进行评估。答案将在附录末尾揭晓。
PixArt-α vs. 著名扩散模型
在图8和9中,我们展示了使用RAPHAEL选择的测试提示的比较结果。这里展示的实例展示了与现有强大生成模型相当甚至超越的性能。
自动标注技术
为了生成高信息密度的字幕,我们利用最先进的视觉语言模型LLaVA(Liu et al.,2023)。使用提示“以非常详细的方式描述此图像及其风格”,我们显著提高了字幕的质量。我们在图10中展示了自动标注的提示设计和过程。更多SAM数据集上的图像文本对样本如图11所示。
额外实施细节
我们在本节中包含了我们所有PixArt-α模型的详细信息。如表4所示,在256×256阶段,我们的模型主要关注文本到图像对齐阶段,较少时间用于微调,仅1/8的时间用于ImageNet像素依赖性。
PixArt-α模型细节。对于输入时间步的嵌入,我们使用256维频率嵌入(Dhariwal & Nichol,2021)。这之后是一个具有与Transformer隐藏大小匹配维度的两层MLP,并带有SiLU激活。我们采用DiT-XL模型,该模型总共有28个Transformer块,以获得更好的性能,ViT(Dosovitskiy et al.,2020b)中PatchEmbed层的补丁大小为2×。
多尺度训练。受Podell et al.(2023)的启发,我们将多尺度训练策略纳入我们的管道。具体来说,我们将图像大小分为40个桶,每个桶具有不同的纵横比,范围从0.25到4,类似于SDXL中使用的方法。在优化过程中,训练批次由来自单个桶的图像组成,我们为每个训练步骤交替桶大小。在实践中,我们仅在固定纵横比和分辨率(即256px)预训练模型后,在高美学阶段应用多尺度训练。我们采用DiffFit(Xie et al.,2023)中的位置编码技巧,因为图像分辨率和纵横比在不同训练阶段发生变化。
额外时间消耗。除了表4中讨论的训练时间外,数据标注和VAE训练可能需要额外的时间。我们将预训练的VAE视为模型动物园中的现成组件,与预训练的CLIP/TS-XXL文本编码器相同,我们的总训练过程不包括VAE的训练。然而,我们尝试训练VAE的结果是大约25小时的训练时间,使用64个V100 GPU在OpenImage数据集上。至于自动标注,我们使用LLAVA-TB生成字幕。LLaVA在SAM数据集上的标注时间约为24小时,使用64个V100 GPU。为了确保公平比较,我们暂时排除了VAE训练、T5训练时间和LLaVA自动标注时间的训练时间和数据量。
采样算法。在本研究中,我们纳入了三种采样算法,即iD-DPM(Nichol & Dhariwal,2021)、DPM-Solver(Lu et al.,2022)和SA-Solver(Xue et al.,2023a)。我们观察到这三种算法在语义控制方面表现相似,尽管在采样频率和颜色表示方面存在细微差异。为了优化计算效率,我们最终选择了使用20个推理步骤的DPM-Solver。
表4:我们在论文中报告了每个PIXART-α训练阶段的详细信息。请注意,这里的HQ(高质量)数据集包括4M JourneyDB(Pan et al., 2023)和10M内部数据。GPU天数的计算不包括VAE特征提取和T5文本特征提取的时间,因为我们提前离线准备了这两个特征,因此它们不是训练过程的一部分,不占用额外时间。
超参数分析
在图20中,我们展示了模型在不同配置下在各种数据集上的指标变化。我们首先研究模型的FID,并在图20a中绘制了MSCOCO上10k文本图像对的FID与CLIP曲线。结果显示,与SDv1.5相比略有提升。在图20b和20c中,我们展示了不同分类器自由引导(cfg)(Ho & Salimans,2022)尺度下的相应T2I-CompBench分数。结果显示,在这些不同尺度下,模型表现一致且出色。
更多由PixArt-α生成的图像
更多由PixArt-α生成的视觉结果如图12、13和14所示。由PixArt-α生成的样本展示了出色的质量,以其对给定文本描述的忠实度和精确度著称。如图15所示,PixArt-α展示了合成高达1024×1024像素的高分辨率图像的能力,并包含丰富的细节,并且能够生成任意纵横比的图像,增强了其在实际应用中的多功能性。图16展示了PixArt-α通过直接的文本提示操纵图像风格的显著能力,展示了其多功能性和创造性。
关于FID指标评估图像质量的讨论
在我们的实验中,我们观察到FID(Frechet Inception Distance)分数可能无法准确反映生成图像的视觉质量。最近的SDXL(Podell et al.,2023)和Pick-a-pic(Kirstain et al.,2023)等研究提供了证据,表明COCO零样本FID与视觉美学呈负相关。
此外,Betzalel et al.(2022)指出,FID中使用的特征提取网络在ImageNet数据集上预训练,与当前文本到图像生成数据的重叠有限。因此,FID可能不是评估此类模型生成性能的适当指标,Betzalel et al.(2022)建议使用人类评估者进行更合适的评估。
因此,我们进行了用户研究以验证我们方法的有效性。
定制扩展
在文本到图像生成中,将生成输出定制为特定风格或条件的能力是一个关键应用。我们通过结合两种常用的定制方法扩展了PixArt-α的功能:DreamBooth(Ruiz et al.,2022)和ControlNet(Zhang et al.,2023)。
DreamBooth。DreamBooth可以无缝应用于PixArt-α,无需进一步修改。该过程涉及使用5e-6的学习率对PixArt-α进行300步的微调,不包括类别保留损失。如图17a所示,给定几张图像和文本提示,PixArt-α展示了生成高保真图像的能力。这些图像在不同光照条件下展示了与环境的自然互动。此外,PixArt-α还能够精确修改特定对象的属性,如颜色,如图17b所示。我们吸引人的视觉结果表明,PixArt-α可以生成高质量的图像,并具有强大的定制扩展能力。
ControlNet。遵循ControlNet(Zhang et al.,2023)的一般设计,我们冻结每个DiT块并创建一个可训练的副本,并在其前后增加两个零线性层。控制信号c通过对控制图像应用相同的VAE获得,并在所有块之间共享。对于每个块,我们首先通过第一个零线性层处理控制信号c,将其添加到层输入x,然后将其输入到可训练副本和第二个零线性层。然后,处理后的控制信号被添加到冻结块的输出y中,该输出从输入x获得。我们使用5e-6的学习率在HED(Xie & Tu,2015)信号上训练ControlNet 20000步。
如图18所示,当提供参考图像和控制信号(如边缘图)时,我们利用各种文本提示生成一系列高保真和多样化的图像。我们的结果展示了PixArt-α生成高质量个性化扩展的能力。
关于Transformer vs. U-Net的讨论
Transformer网络在各种研究中已广泛确立了其优于卷积网络的优越性,展示了鲁棒性(Zhou et al.,2022;Xie et al.,2021)、有效的模态融合(Girdhar et al.,2023)和可扩展性(Peebles & Xie,2023)等属性。类似地,多模态融合的发现与我们在本研究中的观察一致,与基于CNN的生成器(U-Net)相比。例如,表3表明我们的模型PixArt-α在组合性方面显著优于流行的U-Net生成器。这种优势不仅归功于第二阶段训练中实现的高质量对齐,还归功于基于多头注意力的融合机制,该机制擅长建模长依赖关系。这种机制有效地整合了组合语义信息,更高效地指导视觉潜在向量的生成,生成与输入文本紧密对齐的图像。这些发现突显了Transformer架构在有效融合多模态信息方面的独特优势。
图7:与Midjourney的比较。这里使用的提示是随机在线采样的。为了确保公平比较,我们选择了两个模型生成的第一个结果。我们鼓励读者猜测哪些图像对应于Midjourney,哪些对应于PIXART-α。答案在论文末尾揭晓。
图8:PIXART-α与最近的代表性生成器(Stable Diffusion XL、DeepFloyd、DALL-E 2、ERNIE-ViLG 2.0和RAPHAEL)的比较。它们使用了与RAPHAEL(Xue et al., 2023b)相同的提示,其中人类艺术家希望在生成图像中保留的词语用红色突出显示。每行的具体提示在图的底部提供。建议放大200%查看。
图9:每列的提示(Xue et al., 2023b)在图中给出。我们给出了DALL-E 2 Midjourney v5.1、Stable Diffusion XL、ERNIE ViLG 2.0、DeepFloyd和RAPHAEL之间的比较。它们使用了相同的提示,其中人类艺术家希望在生成图像中保留的词语用红色突出显示。建议放大200%查看。
图10:我们展示了为LAION(左)和SAM(右)使用自定义提示的自动标注。绿色高亮显示的词语表示LAION中的原始字幕,而红色标记的词语表示LLaVA标注的详细字幕。
图11:使用LLaVA生成的标签的SAM数据集示例。LLaVA字幕中的详细图像描述可以帮助模型在每次迭代中掌握更多概念,并提高文本图像对齐效率。
图12:由PIXART-α生成的样本展示了卓越的质量,以其对给定文本描述的忠实度和精确度著称。建议放大200%查看。
图13:由PIXART-α生成的样本展示了卓越的质量,以其对给定文本描述的忠实度和精确度著称。建议放大200%查看。
图14:由PIXART-α生成的样本展示了卓越的质量,以其对给定文本描述的忠实度和精确度著称。建议放大200%查看。
图15:PIXART-α能够生成高达1024 × 1024分辨率的图像,同时保留丰富的复杂细节。此外,它还可以生成任意纵横比的图像,为图像生成提供了灵活性。
限制与失败案例
在图19中,我们用红色文本和黄色圆圈突出显示了模型的失败案例。我们的分析揭示了模型在准确控制目标数量和处理特定细节(如人类手部特征)方面的弱点。此外,由于我们的数据中字体和字母相关图像数量有限,模型的文本生成能力较弱。我们旨在探索生成领域中这些未解决的问题,在未来的工作中增强模型在文本生成、细节控制和数量控制方面的能力。
揭晓答案
在图7中,我们展示了PixArt-α和Midjourney之间的比较,并隐藏了图像与其各自方法的对应关系,邀请读者猜测。最后,在图21中,我们揭晓了这个问题的答案。很难区分PixArt-α和Midjourney,这表明PixArt-α的出色性能。