AI 生图：技术变革与挑战

2024-10-17科技

2012 年，谷歌的吴恩达和 Jeff Dean 使用深度学习模型，耗费 1.6 万个 CPU 核心和来自 YouTube 的一千万张猫脸图片，经过为期 3 天的训练，成功训练出一个能够生成模糊猫脸的深度神经网络模型。尽管生成的图像质量并不高，但这个实验标志着深度学习在图像生成领域的重大进步。

2014 年，加拿大蒙特利尔大学 Ian Goodfellow 等人提出的生成对抗网络（GAN）算法为 AI 绘画带来新发展。通过生成器和判别器的对抗过程来生成图像，例如现在熟知的 Midjourney 底层就是基于 GAN 模型。

2015 年，谷歌推出「深梦」（Deep Dream）图像生成工具，尽管更像是一个高级滤镜，但也标志着 AI 绘画技术的进步。

2021 年，OpenAI 推出 DALL-E，实现了文字到图片的生成模式，具有革命性意义。DALL-E 截止目前已经更新到了第三个版本，涉及到多种模型，如 GPT-3（Transformer）、CLIP（视觉语言预训练模型）、VAE（自分编码器）、Diffusion（扩散模型）等。

在短短几年时间里，AI 生图技术从最初的模糊图像发展到如今能够根据文字描述生成高质量、复杂图像，其发展速度令人惊叹。这背后是算法的不断创新、计算能力的提升以及大量数据的支持。未来，AI 生图技术有望继续发展，为各个领域带来更多的创新和应用。

二、AI 生图的技术原理

（一）扩散模型基础

扩散模型的原理借鉴了物理学上的扩散现象。就像在一杯水中滴入墨汁，过一段时间后，墨汁和水混为一体，我们难以分辨墨汁是从何处滴入的。但如果把这个过程倒放，答案就显而易见了。在扩散模型中，训练图像就如同这杯水，噪声就是滴入的墨汁。向训练图像中不断加入噪声，直到变成一张毫无意义的纯噪声图片。而生成图像的过程就是在有这样一张噪声图之后，我们告诉 AI 它原来是什么样子的，让它给我们画出来。一步画成有点难，但生成这张噪声图的上一张很简单，AI 会开始预测刚刚的噪点都加在哪儿了，然后减去这个无用的噪点，得出上一张图是什么样子。这个过程不断重复，我们就能得到一张 AI 生成的图片了。

（二）特定扩散模型

2022 年，特定的扩散模型 sta disusion 逐渐进入主流市场，它尤其适用于根据文本描述生成图像的任务。其原因在于为了判断噪点哪些有用，哪些没用，引入了 Unit 模型。这个模型参考了人类的神经网络，有的神经元之间联系比较紧密。Unit 模型也是这个思路，它能根据我们的要求调整自己的筛选权重。先取部分要求来识别出那些无用的噪点，不断地降噪，最终生成我们想要的图片。

以输入「一只快乐的狗在草原上奔跑」为例，Clip 会将这句话分解成一个个向量，来寻找「绘图意向」。可以理解为有很多空间，其中一块空间全部放的是各种的狗，一个「狗的空间」，每一只狗是其中的一个点。Diffusion model 在还原图片的时候，就会靠近「狗」的这个空间，来尽可能像「一只狗」来还原，但是高斯噪声是随机的，所以最后图片上的狗每一次都长的不一样。同样，尽可能靠近草原，靠近快乐。

总的来说，特定扩散模型 sta disusion 通过 Unit 模型和 Clip 的配合，能够根据文本描述生成图像，为 AI 生图技术带来了新的突破。

三、AI 生图如何满足要求

（一）Unit 模型调整权重

Unit 模型参考了人类的神经网络，在生成图像的过程中，根据要求调整筛选权重起着关键作用。当我们向 AI 提供文本描述时，AI 需要判断哪些信息是有用的，哪些是无用的噪点。Unit 模型就像一个智能的过滤器，能够根据我们的要求调整自己的筛选权重。

例如，当我们要求生成「一只红色的苹果在绿色的草地上」的图像时，Unit 模型首先会分析这个文本描述中的关键元素，如「红色的苹果」和「绿色的草地」。然后，它会根据这些元素去识别图像中的噪点，那些与红色苹果和绿色草地不相关的部分就被视为无用的噪点。通过不断地调整权重，Unit 模型能够更加准确地识别出无用的噪点，并进行降噪处理。

在这个过程中，Unit 模型会逐步优化自己的筛选权重，以更好地满足我们的要求。它会不断地学习和调整，使得生成的图像越来越接近我们所期望的样子。最终，通过不断地降噪和优化，Unit 模型能够生成符合我们要求的图像。

（二）OpenAI 的桥梁作用

OpenAI 在文字和图片之间起着重要的桥梁作用。首先，OpenAI 把数据库中海量的图像挨个处理，打上标签，从 768 个维度重新编码这些信息，将其变成特征向量。这个过程可以想象成一个艺术家在评论一幅画作，他会先分析基本构成元素，然后分析画面细节和色彩搭配，还会记录下这些元素是如何组合在一起的，背后的意义等等。

对于文字处理，Clip 借助 transformer 的力量，把文字转化为具有大小和方向的向量。换句话说，我们眼中再复杂再难以描述的内容，在 Clip 眼里都是一堆数字罢了。向量的优点就是可以进行快速计算，例如巴黎减去法国加上英国等于伦敦。这样一来，文字和图像都被降维拆解成为同一空间内的特征向量，使得计算机能够继续进行处理。

接下来，让文字的向量和图像的向量分别关联起来，就完成了匹配。通过这种方式，AI 听懂了人话，就能根据我们的要求来生成图片了。OpenAI 的这种桥梁作用，使得文字和图片之间的转换更加高效和准确，为 AI 生图技术的发展提供了强大的支持。

四、AI 生图的质量变化

（一）早期的一眼假

在早期，AI 生成的图片常常让人觉得一眼假。这主要是因为训练素材的风格以及 AI 的降噪处理方式共同作用的结果。早期给 AI 的素材多是高强度磨皮的风格，这种风格本身就使得图像缺乏真实感。而 AI 在生成图像的过程中进行降噪处理，进一步强化了这种不真实的效果。最终生成的图像就像是过于完美的产物，失去了真实世界中的细节和瑕疵，从而给人一种不真实的感觉。

（二）微调模型带来真实感

直到最近一年，情况发生了巨大的变化。在 Stable decisionusion 这个基础模型之上，衍生出了许多微调模型，比如 Laura 模型。这些微调模型可以通过调整 Unit 的权重来影响结果，为图像带来更多的真实感。以许多真实感满满的 AI 人像为例，就常常使用 Laura 模型。这些微调模型能够更加精细地处理图像中的噪点，根据不同的需求进行针对性的降噪和优化。同时，它们还可以结合更加多样化的训练素材，避免了单一风格素材带来的局限性。例如，通过引入不同风格的真实照片作为训练素材，让 AI 学习到更多真实世界中的细节和特征。此外，一些微调模型还可以对图像的色彩、光影等方面进行更加细腻的调整，使得生成的图像更加接近真实世界的视觉效果。总之，这些微调模型的出现，极大地提升了 AI 生成图像的真实感，为 AI 生图技术的发展带来了新的突破。

五、AI 假人博主问题

（一）假博主的涌现

随着 AI 技术的流行，短视频平台上涌现出大量假冒真人的数字人账号。其中，有些是通过 AI 凭空生成的，有些则是盗用了真人肖像，不乏国外面孔。例如，卡塔琳娜是一位在中国生活了 5 年的俄罗斯女孩，拥有超过 10 万粉丝，其视频均由 AI 生成，而她的「脸」来自于乌克兰网红 Olga Loiek。Olga Loiek 不是唯一一个被「盗脸」的人，社交平台上还有很多网友发帖称，有 AI 博主盗用了自己的生活照。

这些假博主的账号通常颜值出众，或跟进热点及争议性话题，或输出情感类「心灵鸡汤」，或打着交友等噱头，赚取流量进而带货。以卡塔琳娜为例，她的商品橱窗里共 6 件商品，均为进口食品和保健品，截至 3 月 19 日，跟买人数达 2.5 万 +，已售件数达 2 万 +。

（二）背后的生意经

假博主背后已衍生出一条灰色产业链。首先，在带货方面，这些账号主要通过视频中附带商品链接的方式带货，粉丝以中老年人为主。例如，有短视频公司打造了几十个类似账号，每个账号每天耗费一两个小时，以积累粉丝、带货为目的。

其次，在卖教程方面，有人做起了专门的代理、培训生意。购买 AI 数字人视频制作教程会附送人物素材，收费为 2980 元，带货所得与学员均分。在电商平台上，输入「AI 美女」，即可看到「新手日入 2000+」「5 分钟制作视频」等极具诱导性的宣传语，多以网盘的形式发货，标价在几元至几十元间。

然而，这种行为可能涉及诸多法律问题。根据民法典规定，使用他人肖像需要经过他人的事前同意，否则构成肖像侵权。即使被侵权方在国外，也不影响侵权的认定，不过他们维权比较困难，成本比较高。虚假宣传也是一个值得关注的问题，使用他人肖像合成 AI 视频进行直播带货，可能会涉及到对于买方的虚假宣传，甚至欺诈。此外，在某种情况下，制作未经授权的真人数字复制品也可能涉嫌构成刑事犯罪，比如利用他人的肖像合成的 AI 视频，从事诈骗等违法犯罪活动。去年 8 月，公安部通报全国公安机关打击整治侵犯公民个人信息违法犯罪行为举措成效，其中提到，公安机关依托「净网」专项行动，组织专项会战，破获涉「AI 换脸」案件 79 起，抓获犯罪嫌疑人 515 名。

六、AI 生图的未来展望

AI 生图技术无疑展现出了强大的潜力和创造力，但同时也带来了诸多挑战，这使得其未来发展既令人期待又需要我们谨慎对待。

从积极方面来看，随着技术的不断进步，AI 生图在各个领域的应用前景广阔。在设计与创意产业中，设计师们可以更加高效地获取灵感，创作出独特的广告设计、产品包装和品牌标识，为企业带来全新的视觉冲击。在建筑设计领域，AI 生图能够快速生成方案并进行可视化展示，加速项目进展，提高设计效率和准确性。在医学领域，AI 生成图片技术可以辅助医生更准确地分析和诊断病情，提前发现病变，为患者提供更好的治疗方案。在影视娱乐产业中，AI 生成的图像和特效能够为观众带来更加震撼和逼真的视觉体验，同时降低制作成本，提高制作效率。

然而，AI 生图技术也面临着一些挑战。首先，版权和伦理问题亟待解决。目前，AI 生成的图像版权归属尚未明确，容易引发侵权纠纷。此外，AI 生图技术可能被用于生成具有误导性、歧视性或侵犯隐私的图像，引发伦理争议。其次，技术门槛和资源消耗较高，限制了其在大规模场景下的应用。AI 生图技术涉及深度学习、自然语言处理等多个领域的复杂技术，对开发者的技术水平和资源投入要求较高。许多小型团队或个人难以独立开展相关研究或应用开发工作。同时，AI 生图模型的训练需要大量的计算资源和时间成本。

为了实现 AI 生图技术的可持续发展，我们需要采取一系列措施。一方面，政府和相关部门应加强对 AI 生图技术的监管，完善相关法律法规，明确版权归属，保护知识产权和个人隐私。另一方面，企业和开发者应不断提升技术水平，降低技术门槛和资源消耗，提高生成图像的质量和效率。同时，要注重用户需求，提升产品的专业性能和实际应用价值，为用户提供更好的体验。

总之，AI 生图技术的未来发展充满了机遇和挑战。我们需要在充分发挥其优势的同时，积极应对各种问题，以实现其可持续发展，为人类社会带来更多的创新和价值。