与 AI 共舞

Raymond Li

近几个月来，AI （artificial intelligence）在各个领域的应用火得很。社会对此的反应是万家欢乐几家愁。 朋友的女儿在谷歌公司工作，她给我们展示了一个长长的清单，列举了一系列领域现有的各种 AI 应用系统的名称。这些领域涵盖了视频、音频、图像、专业报告、科学研究、工程设计、企业管理、以及资料查询。 在 AI浪潮的冲击下，摄影师们有点茫然，众多的摄影爱好者更是不知所从。于是，美国全国各地的十九个华人摄影协会在七月中联合举办了专题讲座，请西悉尼大学人工智能研究室的教授、广为人知的北美四光圈摄影师张熖作了《生成式人工智能及其对摄影的冲击》的科学讲座。 十九个摄影协会！仅其中的一个，硅谷的“湾区摄影天地”在世界各地的成员就有500人之多。“都疯了！”有人禁不住脱口而出。 为谁而疯？为摄影，还是为 AI？ 该来的，终究还是来了。 图一，2016年9月22日早晨，本文作者在塞倫盖蒂草原上拍摄的日出景色之一。 　　该来的，终究还是来了。 故事还要从这篇文章的封面说起。封面所用的照片还是2016年秋天的一个早晨，在坦桑尼亚塞倫盖蒂的短草平原上拍摄的。 原来的照片（见图一）上只有斑马和初升的太阳。现在封面照片右侧的天空中出现了一行飞鸟。这样是不是在构图上平衡一些了？否则上半部分显得有点空旷。 那些鸟是 AI 在自行判断后给加上去的。 图一，2016年9月，我们摄影队在前往坦桑尼亚塞倫盖蒂马拉河流域的路途中。 　　那次我们一行四人经肯尼亚的内罗毕转去坦桑的阿鲁沙，再乘坐Toyata 的皮卡进草原。几个人在山丘、河谷、以及荒原上奔波了半个月，简直疲惫不堪。不只是早出晚归，还有一路风尘。 北京来的野生动物摄影师、我们的一位好朋友去过非洲很多次，那回也忍不住发了一通感慨。他坐在颠得骨头架子都要散了的卡車上，一边用双手紧紧攥柱扶手一边说：“以后科学发达了，我们就不用親自到这地方来了。坐在家里，操纵无人机，想到哪拍就到哪拍，想怎么拍就怎么拍。” 当时車上的人都笑了，同时也都沉浸在梦中。没想到，该来的，终究还是来了，而且还来得那么快。 只不过，这回不仅不用肉身去非洲了，而且也不用隔着大半个地球操控无人机，白天晩上地盯着遥控器的屏幕，追着动物按快门了。现在只要坐在电脑前，按按鼠标，就能“制造”出各种环境里的各种形态的狮子、猎豹、花豹、角马，还有犀牛了。 Adobe 公司的“判别式 AI 降噪”和“生成式 AI 填充”工具 　　人工智能的研究从上个世纪五十年代早期就开始了，至今经历了两个发展阶段。第一个阶段的是“判别式人工智能（Discriminative AI）”，第二个阶段的是1966年以来的“生成式人工智能（Generative AI）”。 现阶段的生成式人工智能系统使用机器来学习大量的视觉和文本等形式的数据，然后按照使用者的需要，根据一定的算法计算出最有可能出现的结果，再以视觉和文本等形式输出数据。 在整个过程中算法十分重要。目前的几种算法当中，稳定扩散模型（stable diffusion model）在生成图像方面著有成效。 Adobe 公司的“判别式 AI 降噪”工具 图三，与 photoshop 配套使用的 Camera Raw 15.4 版细节处理工具栏的截图。截图的下方增加了 Noise Reduction （降噪）的按钮。按钮下面的注解说：用 AI 去噪。所生成的图像以 DNG 格式存储。 　　近一年来，Adobe 公司先是在三个图像后期预处理软件的功能上使用了判别式人工智能技术，而且都取得了应用程度的進展。 这三个功能分别是：1）超级分辨率；2）细化；3）降噪。 我们在这里稍微多说几句与降噪有关的事。 今年4月，Adobe 公司在其 Camera Raw 15.3 版，Lightroom 6.3 版和 Lightroom Classic 12.3 版上推出了AI 降噪功能。 图三是与 photoshop 配套使用的 Camera Raw 细节处理工具栏的截图。截图的下方增加了去噪的按钮。按钮上面注明：“用 AI 降噪”。 目前 Adobe 公司开发出来的这一人工智能降噪的功能，只能适用于具有 Bayer Pattern 和 X-Trans Pattern 图像传感器的照相机的源文件（Raw File）。举例来说，佳能的單反和无反相机使用前一种传感器，而富士相机使用后一种传感器。 经过对不同厂家出产的降噪软件进行比较，Adobe 的 AI 降噪插件在去除噪点和保留原有细节方面效果最为显著。 Adobe 公司的“生成式 AI 填充”工具 图四，Adobe photoshop （Beta）版编辑工具栏截图。除了原有的“填充”和“内容感知填充”工具外，Beta 版新增了“生成式填充（Generative Fill）工具。 　　上面所说的 Adobe 的 AI 去噪工具是判别式人工智能技术的产物，而最近它推出的生成式填充工具则是生成式人工智能的应用。 事情是这样的，今年六月份，Adobe 在其产品栏目里推出了一款生成式 AI 的独立应用系统，名字叫做 Firefly（萤火虫），面向各𠆤行业的图像制作者。才过了一个月时间，这款应用程序就被加入到 photoshop （Beta）版中，成为了“生成式填充”工具。在这里，Beta 版就是试行版。 至此，在目前的 Beta 版 photoshop 里就同时拥有三种不同的填充工具。参见图四。 这三种填充工具如下： Fill（填充）：原有。用于在选择区域内作按照自动实行内容感知填充，或者按照摄影师的要求填充颜色、50%灰度、图像。该工具不能自主生成图像。 Content-Aware Fill（内容感知填充）：原有。由摄影师先行选取内容周边的感知区域，然后实行填充。该工具不能自主生成图像。 Generative Fill（生成式填充）：新增。用于两种指令情况。一种是摄影师不作为，任由人工智能系统生成它自己认为最合适的图像。第二种是摄影师输入文字指令，再由人工智能系统输出比较接近操作人员所要求的图像。 本文主要介绍生成式填充工具的应用和期望。 生成式填充工具应用之一：哥本哈根新港的扩展 图五，哥本哈根的新港。本文作者于2023年3月摄于丹麦哥本哈根。 　　新港 (Nyhavn) 是丹麦哥本哈根的 17 世纪的海滨、运河和娱乐区。它从国王新广场 (Kongens Nytorv) 一直延伸到皇家剧院 (Royal Playhouse) 以南的海滨，两旁排列着色彩鲜艳的 17 世纪和 18 世纪初的联排别墅以及酒吧、咖啡馆和餐馆。中世纪之后北欧的大航海巨幕从这里开启。安徒生老先生曾先后两次在新港居住。 新港的航道为西北-东南方向，向外通往北海。航道两边樓房的外面依次是人行道、马路，再就是码头。 图六，将图五照片的画布（canvas）向右侧（出海口方向）延伸原照片宽度的1/4。 图七，在生成式填充对话框的指令输入窗口（What would you like to generate?）里（见图像右下角的对话框）不输入任何文字指令。然后按下对话框右边的执行键（Generate）之后AI 自动生成的扩展图像之一。 　　不输入任何指令，于是 AI 给出三个选项。上面这张是其中的一个选项。它将原有的河道按照透视规则向右扩展。天空的云层，房屋建筑、码头、停靠的船只、以及水道都显得很自然。 图八，在生成式填充对话框的指令输入窗口输入如下指令：“Open to sea（通往海洋）”，接着按下旁边的执行键，AI 自动生成的扩展图像之一。 　　AI 给出的选项之一，是在樓房的右侧出现了一个修船的船坞，然后就是大海。 图九，在生成式填充对话框的指令输入窗口输入如下指令：Open to sea（通往海洋），接着按下旁边的执行键，AI 自动生成的扩展图像之二。 　　AI 给出的另一个选项，是在楼房的终端停了几条旧船，接着就是出海口了。航道中间还有一艘船正在驶出港口。 生成式填充工具应用之二：哥本哈根酒店的旋转楼梯 图十，哥本哈根 Radisson Collection Copenhagen 酒店大堂里连接一楼和二楼的旋转楼梯。本文作者于2023年3月拍摄。 　　在从哥本哈根返回奥斯陆的那天中午，我们在下榻的Radisson Collection Copenhagen 酒店大堂里等出租车。借此机会用手机拍摄了大堂里连接一楼和二楼的一座旋转楼梯。 这是一家由著名设计师和建筑师 Arne Jacobsen 设计的酒店，使其成为丹麦现代主义的真正发源地。酒店建于 1960 年。当时，哥本哈根有关市政部门为这座旋转楼梯颁发过优秀设计奖状。 这张照片有几个重要的缺陷。第一，因为是蹲在地上用手机在距离楼梯很近的地方拍的，所以所有的柱子、栏杆都向中间倾斜。第二，由于地面瓷砖反射顶蓬的灯光，画面显得凌乱。第三，手机的光学传感器像素低，任何后期的余地都比较小。 之前的photoshop 很难解决上述这些问题。 图十一，修图的第一步，先用 AI 填充功能除去了所有地上的反光。第二步，使用photoshop 原有的整形功能，从左右两个方向，将所有歪斜的柱子矫直。 　　经过矫正，柱子是直了，但是又带来两问题。一是左右两边各自出现了一个空白的三角地带。二是图像的上下发生严重变形，楼梯变矮了。 对于这种矫正之后产生的空白，过去只能用裁切的方法解决，就是切掉左右两侧。但是这样一来，不仅大厅的部分大幅缩减，而且楼梯上方的圆形开口也无法保持完整。 图十二，第三步，用generative fill这个新功能填充了左右两边的三角形空白区域。第四步，在上面新产生的图像基础上，再一次使用photoshop 原有的局部整形功能，矫正图十二中的上下变形的画面，使其恢复到可以接受的透视比例。 　　在照片右边，AI 填充工具扩充了大厅的休息区，靠窗的地方有了一台大屏幕电视机。地面的材料，以及新增加的天花板上的灯也都与原来大厅里的一致。在照片的左边，新增加了一道通往另一𠆤房间的门，而且立柱上还加装了灯饰。 　　做完这些事，再与图十去比较一下。这样的酒店是不是给你这位顾客的观感更好一些？ 生成式填充工具应用之三：Flakstad 海滩 图十三，挪威罗弗墩群𡷊 Flakstad 海滩之晨。本文作者于2023年3月拍摄。 　　今年3月，我们随云漫的摄影团到罗佛顿群岛去。一天早上，到一个鲜为人知的海湾去拍摄一种特别的沙纹。 春天陆地上的雪溶化之后，以千溪万流之势，向西北泻下，汇入挪威海。软泥和细沙随大小不一、方向不一的水流俱下，构成了形状和色彩各异的图案，造型不仅丰富而且独特。我们希望拍摄以这种沙纹为引导线，以 Flakstad 海角为背景的海滩。 　　在对比单反相机和手机的照片之后我们看出，1）手机的镜头（f/1.6）比相机的（f/2.8）角度更广。就单张照片来说，手机照片不仅可以容纳直至脚下的前景，还可以有更宽阔的视野，包括左侧水流入海的弧线。这样一来，作为前景的泥沙图案同时又可作为较为完整的引导线，使画面更加生动。 但是另一方面，相机照片的细节相对丰满，色彩也更丰富一些。所以在画质上相机照片是首选。 非常后悔当时没有将相机向左转动15～20度，再拍一张照片，然后在后期处理的时候，把这两张照片合并成一张。这样在水平方向的视角就能宽阔许多。 图十四，运用 AI 填充工具在照片的左边自动填充了五分之一的宽度，得到了上面的照片。 　　经过 AI 自动填充，沙纹自动顺着水流的走势向左前方延伸；远处的雲层和海浪也向左自然延伸； Flakstad 海角被顺势移到了图像中间偏右的位置，而不是堵在正当中。这样在视觉上是不是好了很多？ AI 填充工具尚不完美，人类仍需努力 图十五，京都二年坂夜色。2022年10月本文作者拍摄。 　　去年秋天一个傍晚，在前往京都高台寺的一个台阶上，偶然回头一望，看到了山坡下面二年坂商业街华灯初上的一幕。当时使用了中长焦镜头，手持相机拍摄。不幸的是，一辆汽车打着大灯，停在街口，还有一根粗大的电线杆竖在街当中。 根据过去的条件，无法在后期工作中完好地除去那辆车，只好把照片下面裁掉。因此，12x8 英寸的照片就变成 10x8 英寸的照片了。又因为以前 photoshop 的 Fill 工具的功能有限，在抹去电线杆后，产生了许多从电线杆周边自动拷贝来的元素，例如出现了两个一模一样的男人的脑袋之类，简直惨不忍睹。 图十六，用生成式填充工具修整后的京都二年坂夜色照片。 　　最近，用生成式填充工具重新为这张照片做了后期。这次不再需要进行无奈的裁剪，也不再为抹去照片中的一部分而担惊受怕了。 　　终于得到了一张可以接受的照片。 　　但是並非一步到位。一共用了20次这个工具，而且还经常需要与 photoshop 原有的填充工具结合着使用，一块一块图面地修整。 造成这种情况的原因，主要是作为摄影师，觉得还是应该基本上忠于原作，只希望比较自然地去掉一些障碍物，而不需要 AI 制造出一个全新的环境。看来达到这个要求还比较困难。 事实是，在图像上所选择的区域越小，选择区域周边的元素越复杂，AI 实现完美填充的难度就越大。 比如去掉电线杆，电线杆后面还有被挡住的半个人，这个人身后还有人，或者还有旁边的人的一条胳膊或半条腿。又比如去掉一个交通指示牌，指示牌原先挡住的地上的光和影就会显得怪异，所以还要反复修改地上的光和影，使得这些地方的砖块与周边的砖块相称。 图十七，稳定扩散模型中的输出过程（亦称“逆向扩散”过程）图解。取自张熖教授7月22讲座：《生成式人工智能及其对摄影的冲击》。 　　前面已经说过，生成式人工智能的算法很重要。在目前的几种算法当中，稳定扩散模型在生成图像方面著有成效。 如图十七所示，稳定扩散模型输出数据的过程分为下达指令，读取文字指令，产生图像几个环节。如何才能做到人机完美的相互理解，以及如何让 AI 系统能够产生出更像人类对自然场景的视觉感受那样的图像来，是两个期待进一步优化的地方。 图十八，闯荡在塞倫盖蒂草原的荒野上。2016年9月本文作者拍摄于坦桑尼亚。 　　与 AI 共舞，无异于与狼共舞。把一个非人类的物种一步一步地养大，驯化它，与它心灵相通，让它成为人类的助手。 AI 工具尚不完美，人类仍需努力！ ………………………… R&R Studio致⼒于纪实摄影和⽂学创作。风光和野⽣动物摄影；地⽅、城市、⼈物的历史和传记。⽤清新的画⾯传递⾃然的魅⼒；以简练的风格揭⽰⼈物及社会的轨迹。