AI绘画编年史

金刚葫芦叔

我们几乎每个人都会说话，但是只有极少数的一部分人会画画。说话是一种普遍的交流方式，但是绘画是一种具有挑战性和独特性的艺术形式，需要不断的探索和发展。许多人从小就开始接受美术训练，不断努力和磨练，一般需要8到10年甚至更长时间，才能达到比较高的水平，能被大家称为画师。因为难度较大，所以一般找画师给你画画是一件昂贵的事情，不是一般人随便就能享受的。 以前，只有在科幻作家的故事里，会想象也许有一天，只要你会说话，就能够创造出一幅画。用语言画画这件事听起来就像霍格沃兹的魔法，但是如今，它却已经通过AI变成了现实。下面我们就对AI作画的历史进行一个梳理和回顾。 2012年，嘿我们用AI来画猫吧AI绘画发展得挺早，但那时AI生成绘画是一个特别小众的领域。早在 2012 年全球人工智能和机器学习权威、华人科学家吴恩达带领团队，耗资100万美元，集结1000台电脑、16000个CPU的资源训练了一个当时世界上最大的深度学习网络, 用来指导计算机画出猫脸图片。经过整整3天训练, 画出来了一张模糊的猫猫头： 虽然基本很难看出这是一张猫脸，且价格昂贵，根本没有商用的机会，但这是AI绘画的起点，意义重大。2012年，我愿称之为AI绘画起源之年。2015年，迷幻和超现实谷歌在2015年开源了deep dream项目，可以用它画出非常迷幻和超现实的图画，生成痕迹非常明显，但看起来已经比上面的猫脸像那么回事了，不是吗？这种画作，看起来并不比直接在照片上加滤镜来得高明，也不是大家想象中的，人来输出口令，AI来产生跟指令相关的绘画。 2015年，走入Gan的弯路人们对于AI绘画的探索没有停止，其实比谷歌在2015年推出的deep dream项目还要早一年，加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法，这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型，一个生成器（Generator）和一个判别器（Discriminator），使得生成器可以生成与真实数据相似的新数据样本，并且判别器可以准确地区分生成器生成的假样本和真实数据。在训练过程中，生成器不断尝试生成更加逼真的样本，而判别器则不断提高自己对真实样本和生成样本的区分能力。这两个模型相互对抗、相互协作，最终实现了高质量的数据生成效果。 用GAN模型已经可以生成比较高质量的图片了，但用它来生成也会有些问题：①对抗学习非常麻烦，且对于显卡等资源消耗较高，之前我自己在跑生成对抗网络时，电脑经常直接黑屏。②生成对抗网络很难理解图片各个部分是啥，所以它很难做到局部重新绘制，也就是很难进行修改。虽然有各种各样的问题，但是研究人员还是在GAN算法的这条路不断前进，生成的图片效果不断提升，下图即为某GAN模型生成的二次元妹纸头像 2015年，图像识别反向用于文字画画又是在2015年，一项人工智能的重大进展诞生——智能图像识别，可以通过算法识别并标记图像中的对象，然后他们还学会了将这些标签放入自然语言描述中去。这项重大进展目前已经进入各种领域得到了应用，比如现在的各种智能门禁，已经让很多保安下岗了。但这个技术产生的价值并不只是这个，一些研究人员产生了好奇，如果把这个过程反向，通过文字来生成画面，是否也能实现呢？于是他们向计算机模型输入了一些文字，看看能产生什么效果，结果模型真的生成了一些结果图片。如下图中所示，这是一些32X32像素的小图片，基本很难辨别出啥，但已经预示着无限的可能性。2015年，我愿称之为AI绘画的重要拐点之年。 2021年，重新出发人们对AI绘画的探索，在生成对抗网络GAN的技术路线上继续进步，虽然也取得了一些成绩，但是距离人们想像的通过描述词直接生成绘画作品还有比较大的距离。研究人员把眼光开始移到其他可能的方向，一个在2016年就被提出的模型Diffusion Models开始受到更广泛的关注。它的原理跟GAN完全不一样，使用随机扩散过程来生成图像，从而避免了传统生成模型中存在的一些问题。 Diffusion Models的原理简单来说，先通过对照片添加噪声，然后在这个过程中学习到当前图片的各种特征。之后再随机生成一个服从高斯分布的噪声图片，然后一步一步的减少噪声直到生成预期图片。很快，基于Diffusion Models模型的图片生成成为主流。终于来到了2021年，这一年，一家叫OpenAI的人工智能公司（他们更为有名的人工智能产品叫ChatGPT）宣布了DALL·E，他们声称这个模型可以从任何文字中创建高质量图像，它所使用的技术即为Diffusion Models。OpenAI于2022年发布了更为强大的DALL·E 2，现在已经免费开放了。但是OpenAI一直都没有公开DALL·E的算法和模型。 2022年2月 Disco diffusion V5发布在2022年的2月，由somnai等几个开源社区的工程师做了一款基于扩散模型的AI绘图生成器——Disco diffusion。从它开始，AI绘画进入了发展的快车道，潘多拉魔盒已经打开。Disco diffusion相比传统的AI模型更加易用，且研究人员建立了完善的帮助文档和社群，越来越多的人开始关注它。 越来越多的人开始使用Disco diffusion创作作品，但是它有一个致命的缺点就是它生成的画面都十分的抽象，这些画面用来生成抽象画还不错，但是几乎无法生成具象的人。 正当大家嘲笑AI绘画不过如此时，仅仅几个月后，Disco diffusion已经能画出非常像人的作品了，虽然你可能还是觉得这个画作很业余，很难超越一些人类画师的作品。那么，就让子弹再飞一会儿。 3月 Midjouney3月份，一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台，借助discord聊天式的人机交互方式，不需要之前繁琐的操作，也没有Disco diffusion十分复杂的参数调节，你只需要向聊天窗口输入文字就可以生成图像。更关键的是，Midjouney生成的图片效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。 Midjouney发布5个月后，美国科罗拉多州博览会的艺术比赛评选结果出炉，一张名为《太空歌剧院》的画作获得了第一名，而它正是作者通过MidJourney生成的作品。参赛者公布这是一张AI绘画作品时，引发了很多人类画师的愤怒和焦虑。 4月 DALL·E 24月10日，之前提到过的OpenAI的DALL·E 2发布了。无论是Disco diffusion还是MidJourney，仔细品一下，我们还是可以看出是AI生成的，但DALL·E 2的生成图你已经无法跟人类的作品做区分了。用DALL·E 2生成图片的质量已经高到离谱，如下图： 它还可以直接生成非常有质感的3D图像，3D设计师可能也快面临失业了。 可以说DALL·E 2已经是大家心目中的AI绘画完全体了，但它到目前为止还是没有开源，且需要付费才能够使用，而且用它生成图片的限制很多，比如死亡，色情，人脸，暴力，公众的人物等都是禁止在DALL·E 2上生成的。最大的可能还是有各种各样的法务风险，DALL·E 2确实能力太强了，不法分子可以用它来生成各种各样的假图。有意思的是，在DALL·E 2刚发布的时候就有网友发起投票，问DALL·E 2可以保持自己是AI绘画最先进技术多久时间？大多数人选了几个月或1年以上。但很不幸，子弹飞的速度比想象中的快很多。 7月 Stable diffusion7月29日一款叫Stable diffusion的AI生成器开始内测，人们发现用它生成的AI绘画作品，其质量可以媲美DALL·E 2，而且还没那么多限制。Stable diffusion共分4波邀请了 15000 名用户参与了内测，仅仅十天后，每天就有一千七百万张图片通过它生成。最关键的是，Stable diffusion的开发公司Stability AI崇尚开源，他们的宗旨是“AI by the people，for the people”（人工智能来自于人，服务于人）。 Stable diffusion内测不到1个月，正式宣布开源，这意味着所有人都能在本地部署自己的AI绘画生成器，真正实现每个人“只要你会说话，就能够创造出一幅画”。 Stable diffusion的开源决定，让它迅速成为大家关注的焦点，人们将它跟各种各样的工具结合，比如有人将Stable diffusion的绘图能力做成了PS插件，你只需要画个草图，之后就能直接生成设计稿。这也正是adobe紧急推出年费888的Photoshop（beta）的原因，很显然，就连这位纵横平面图形图像领域数十年未尝一败的顶级大佬，面对横空出世的Stable diffusion内心也是慌得一批。 注：以上内容转载自百度百家号，本人在原文基础上做了部分修改。原作者：生产者Glen<a href="https://baijiahao.baidu.com/s?id=1760134473458673555&wfr=spider&for=pc&searchword=ai%E7%BB%98%E7%94%BB%E5%8F%91%E5%B1%95%E5%8F%B2" target="_blank" style="background-color:rgb(255, 255, 255); font-size:18px;">原文链接</a>今年，以chatGPT、stable diffusion为代表的生成式AI的崛起，不但正式掀起了第四次工业革命的浪潮，其取代创意性和脑力劳动的特性注定将对所有人的生产生活方式产生史无前例的巨大影响，尤瓦尔在《人类简史》中预言的“无用阶层”不但已经诞生，而且这个群体的规模正在AI的加持下飞速扩大。奇点已至。 这一次，人类真正站在了命运的十字路口。未来将何去何从，谁也说不清楚。但毫无疑问，一个全新的时代已经悄然降临。对于AIGC的影响，我们中的大多数人在万里长城的保护下可能只感受到了一点皮毛，但这只是暂时的，事实上这场技术革命也才刚刚拉开序幕，相信要不了多久，所有人都会意识到这个世界发生了怎样的变化。而眼下唯一能做的，就是尽可能去了解AI，学习AI，为应对未来的无限可能做好准备。