Google开发可在设备上顺畅执行的文本转图像模型

2024-02-07科技

Google开发了可以在移动设备上，以次秒（Subsecond）速度执行文本转图像的模型MobileDiffusion。MobileDiffusion是一种高效的扩散模型，在iOS和Android高端设备上，能在半秒内生成512x512的高品质图像。MobileDiffusion相较于其他图像生成模型小上许多，只有5.2亿参数特别适用于移动应用部署。

当前文本转图像扩散模型越来越成熟，用户只要输入文本提示，模型就可生成高品质图像，但是先进的模移动辄拥有数十亿个参数，因此执行成本也非常高昂，需要强大的台式机或是服务器才能快速运算。

研究人员指出，造成文本转图像扩散模型性能低落的主要原因有两个，第一是扩散模型固有设计需要迭代去噪生成图像，而这需要对模型进行多次评估，第二则是文本转图像扩散模型网络架构的高复杂性，通常具有数十亿参数导致运算成本高昂。

由于这些性能上的障碍，尽管在移动设备上执行生成式人工智能模型，具有强化用户体验、高隐私性的好处，但目前研究仍相对较少。当然还是有一些提升文本转图像扩散模型效率的研究，像是通过数值求解器或是蒸馏技术，减少模型的功能评估数量（Number of Function Evaluations，NFE），希望借由降低评估所带来的运算负担。但即便如此，由于模型架构仍然非常复杂，在移动设备上即便是少量的评估步骤，仍然可能执行地很慢。

MobileDiffusion则是研究人员试图突破移动设备有限运算能力的限制，借由仔细查看Stable Diffusion中UNet架构每个组成部分和计算操作，设计出高效文本转图像扩散模型。MobileDiffusion遵循潜在扩散模型的设计，具有文本编码器、扩散UNet和图像解码器，研究人员使用适用于移动设备的小模型CLIP-ViT/L14，作为MobileDiffusion文本编码器，并将改进效率的重点，摆在扩散UNet和图像解码器上。

扩散UNet是一种深度学习模型架构，用于生成或是转换图像，本身是一种特殊的卷积神经网络，其特点是具有对称的U型结构，有助于模型在进行图像处理时保留细节资讯。研究人员主要使用两种方法来来提升扩散UNet的效率，第一是在模型瓶颈处，也就是资讯最集中的地方，使用更多的Transformer区块以降低计算量，第二是使用轻量级可分离卷积。卷积区块主要用于图像特征截取，但是传统卷积操作计算量大，因此研究人员通过使用可分离卷积，在不降低模型性能的情况下，减少需要的计算量。

除了扩散UNet，研究人员也着手优化图像解码器，通过训练变分自编码器（Variational Autoencoder，VAE）简化图像表示，使图像资讯能缩小至原图八分之一，减少存储和计算需求，并使用简化版的解码器明显提高性能，在降低延迟接近50%的情况下，还可以维持甚至提升图像品质。研究人员还采用了DiffusionGAN混合模型实现一步采样，这是一种结合扩散模型和生成对抗网络（GAN）的新技术，能够一步骤生成图像，相较于传统的多步骤方法快上不少。

虽然MobileDiffusion只有5.2亿个参数，却可以生成不同领域的高品质图像。由于MobileDiffusion只需要半秒钟便可以在移动设备上生成512x512图像，因此可以在用户边输入文本提示的同时，迅速生成图像，能应用于移动设备创造各种即时图像生成体验。