AI杀疯了｜AI绘画发展历史全梳理

频道：AI绘画日期：2023-03-12 浏览：

人类绘画的历史可以追溯到距今几万年前的旧石器时代。那时，人们在岩石上绘制了许多形象的图案，这些图案可能具有某种宗教或神秘的含义。随着时间的推移，绘画逐渐演变成一种表现艺术，被用于描绘人类生活、历史事件、神话传说、自然景观等等。

我们几乎每个人都会说话，但是只有极少数的一部分人会画画。说话是一种普遍的交流方式，但是绘画是一种具有挑战性和独特性的艺术形式，需要不断的探索和发展。许多人从小就开始接受美术训练，不断努力和磨练，一般需要8到10年甚至更长时间，才能达到比较高的水平，能被大家称为画师。因为难度较大，所以一般找画师给你画画是一件昂贵的事情，不是一般人随便就能享受的。

之前，只有在科幻作家的故事里，会想象也许有一天，只要你会说话，就能够创造出一幅画。用语言画画这件事听起来就像霍格沃兹的魔法，但是它目前已经通过AI变成了现实。下面我们对AI作画的历史进行一个完整的梳理。

2012年，嘿我们用AI来画猫吧

AI绘画发展得挺早，但AI生成绘画是一个特别小众的领域。早在 2012 年全球人工智能和机器学习权威、华人科学家吴恩达带领团队，耗资100万美元，集结1000台电脑、16000个CPU的资源训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片。经过整整3天训练, 画出来了一张模糊的猫猫头：

虽然基本很难看出这是一张猫脸，且价格昂贵，根本没有商用的机会，但这是AI绘画的起点，意义重大。2012年，我愿称之为AI绘画起源之年。

2015年，迷幻和超现实

谷歌在2015年开源了deep dream项目，可以用它画出非常迷幻和超现实的图画，生成痕迹非常明显，但看起来已经比上面的猫脸像那么回事了，不是吗？这种画作，看起来并不比直接在照片上加滤镜来得高明，也不是大家想象中的，人来输出口令，AI来产生跟指令相关的绘画。

2015年，走入Gan的弯路

人们对于AI绘画的探索没有停止，其实比谷歌在2015年推出的deep dream项目还要早一年，加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法，这个算法一度成为了AI生成绘画的主流方向。

GAN的原理是通过训练两个深度神经网络模型，一个生成器（Generator）和一个判别器（Discriminator），使得生成器可以生成与真实数据相似的新数据样本，并且判别器可以准确地区分生成器生成的假样本和真实数据。在训练过程中，生成器不断尝试生成更加逼真的样本，而判别器则不断提高自己对真实样本和生成样本的区分能力。这两个模型相互对抗、相互协作，最终实现了高质量的数据生成效果。

用GAN模型已经可以生成比较高质量的图片了，但用它来生成也会有些问题：

①对抗学习非常麻烦，且对于显卡等资源消耗较高，之前我自己在跑生成对抗网络时，电脑经常直接黑屏。

②生成对抗网络很难理解图片各个部分是啥，所以它很难做到局部重新绘制，也就是很难进行修改。

虽然有各种各样的问题，但是研究人员还是在GAN算法的这条路不断前进，生成的图片效果不断提升，下图即为某GAN模型生成的二次元妹纸头像。

2015年，图像智能识别？反向用于文字画画

又是在2015年，一项人工智能的重大进展诞生——智能图像识别，可以通过算法识别并标记图像中的对象，然后他们还学会了将这些标签放入自然语言描述中去。这项重大进展目前已经进入了各种领域得到了应用，比如现在的各种智能门禁，已经让很多保安下岗了。但这个技术产生的价值并不只是这个，一些研究人员产生了好奇，如果把这个过程反向，通过文字来生成画面，是否也能实现呢？

于是他们向计算机模型输入了一些文字，看看能产生什么原因，结果模型真的生成了一些结果图片。如下图中所示，这是一些32X32像素的小图片，基本很难辨别出啥，但已经预示着无限的可能性。2015年，我愿称之为AI绘画的重要拐点之年。

2021年，重新出发

人们对AI绘画的探索，在生成对抗网络GAN的技术路线上继续进步，虽然也取得了一些成绩，但是距离人们想像的通过描述词直接生成绘画作品还有比较大的距离。研究人员把眼光开始移到其他可能的方向，一个在2016年就被提出的模型Diffusion Models开始受到更广泛的关注。它的原理跟GAN完全不一样，使用随机扩散过程来生成图像，从而避免了传统生成模型中存在的一些问题。

Diffusion Models的原理简单来说，先通过对照片添加噪声，然后在这个过程中学习到当前图片的各种特征。之后再随机生成一个服从高斯分布的噪声图片，然后一步一步的减少噪声直到生成预期图片。很快，基于Diffusion Models模型的图片生成成为主流。

终于来到了2021年，这一年，一家叫OpenAI的人工智能公司（他们更为有名的人工智能产品叫ChatGPT）宣布了DALL·E，他们声称这个模型可以从任何文字中创建高质量图像，它所使用的技术即为Diffusion Models。OpenAI于2022年发布了更为强大的DALL·E 2，现在已经免费开放了。但是OpenAI一直都没有公开DALL·E的算法和模型。

2022年，潘多拉魔盒已经打开

2月 Disco diffusion V5发布

在2022年的2月，由somnai等几个开源社区的工程师做了一款基于扩散模型的AI绘图生成器——Disco diffusion。从它开始，AI绘画进入了发展的快车道，潘多拉魔盒已经打开。Disco diffusion相比传统的AI模型更加易用，且研究人员建立了完善的帮助文档和社群，越来越多的人开始关注它。

越来越多的人开始使用Disco diffusion创作作品，但是它有一个致命的缺点就是它生成的画面都十分的抽象，这些画面用来生成抽象画还不错，但是几乎无法生成具象的人。

正当大家嘲笑AI绘画不过如此时，仅仅几个月后，Disco diffusion已经能画出非常像人的作品了，虽然你可能还是觉得这个画作很业余，很难超越一些人类画师的作品。那么，就让子弹再飞一会。

3月 Midjouney

3月份，一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台，借助discord聊天式的人机交互方式，不需要之前繁琐的操作，也没有Disco diffusion十分复杂的参数调节，你只需要向聊天窗口输入文字就可以生成图像。更关键的是，Midjouney生成的图片效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。

Midjouney发布5个月后，美国科罗拉多州博览会的艺术比赛评选出了结果，一张名为《太空歌剧院》的画作获得了第一名，但它甚至不是人类画师的作品，而是一个叫MidJourney的人工智能的画作。参赛者公布这是一张AI绘画作品时，引发了很多人类画师的愤怒和焦虑。

4月 DALL·E 2

4月10日，之前提到过的OpenAI的DALL·E 2发布了。无论是Disco diffusion还是MidJourney，仔细品一下，我们还是可以看出是AI生成的，但DALL·E 2的生成图你已经无法跟人类的作品做区分了。用DALL·E 2生成图片的质量已经高到离谱，如下图：

它还可以直接生成非常有质感的3D图像，3D设计师可能也快面临失业了。

可以说DALL·E 2已经是大家心目中的AI绘画完全体了，但它到目前为止还是没有开源，且需要付费才能够使用，而且用它生成图片的限制很多，比如死亡，色情，人脸，暴力，公众的人物等都是禁止在DALL·E 2上生成的。最大的可能还是有各种各样的法务风险，DALL·E 2确实能力太强了，不法分子可以用它来生成各种各样的假图。

有意思的是，在DALL·E 2刚发布的时候就有网友发起投票，问DALL·E 2可以保持自己是AI绘画最先进技术多久时间？大多数人选了几个月或1年以上。但很不幸，子弹飞的速度比想象中的快很多。

7月 Stable diffusion

7月29日一款叫Stable diffusion的AI生成器开始内测，人们发现用它生成的AI绘画作品，其质量可以媲美DALL·E 2，而且还没那么多限制。Stable diffusion共分4波邀请了 15000 名用户参与了内测，仅仅十天后，每天就有一千七百万张图片通过它生成。最关键的是，Stable diffusion的开发公司Stability AI崇尚开源，他们的宗旨是“AI by the people，for the people”。