<h3><font color="#167efb">又到周末了。北大84级的“周末讲座”第九讲隆重推出。</font></h3><h3><font color="#167efb">主题:人工智能 - 技术与人文</font></h3><h3><font color="#167efb">主讲人:<b>祝文菁</b>,北大84级计算机系。现在在Futurewei硅谷实验室负责未来计算与开源技术。</font></h3><h3><font color="#167efb"><br></font></h3><h3><font color="#167efb">下面就是他讲座的全部内容。</font></h3> <h3>今天的目的是和大家,尤其是非计算机专业的(包括文科,艺术)的同学们,分享如何认识什么是人工智能,怎么看待未来人工智能会对我们和下代的生活有什么样的影响。</h3> <h3>现在社会上的人工智能专家很多,很难分清多少是渲染,多少是现实,什么是未来可能的发展,所以我们希望在这里从科学技术和人文学两方面和大家一起分析人工智能,希望能为大家在看媒体或专业上生活上做判断时有点帮助。</h3> <h3 style="text-align: center;"><b>1)探讨人工智能前要先避免的一些误区</b></h3><h3><b><font color="#167efb"><br></font></b></h3><h3><font color="#167efb">第一个常见的误区是“<b>人类中心主义</b>”(Anthropocentrism)。</font></h3><h3><br></h3><h3>所谓误区:只是逻辑上,或概念上,或名词上的,而不是实际的论点。</h3><h3><br></h3><h3>作为一种伦理,人类中心主义很可以理解,但如果不经意地用到科学上,就会妨碍我们对客观的认识。比如说,有人认为机器只能计算,不会有智能,实际上是把智能"定义"为"只有人类可以做的事",这样逻辑上就无法讨论人工智能了。还有一个常见的说法,机器不会有“感情”,其实无非就是把感情“定义”为人才可以有的事。我们今天先不接受这样的做法。</h3><h3><br></h3><h3></h3><h3>这类误区其实极其常见,一旦机器可以做某件事了,我们会自然地把它从“智能”的定义里去掉,可以说是人之常情,也不是今天才开始。所以我们在不停地改“智能”的定义,来保障机器不是智能的,但最终我们还是会面临机器是不是会人会的所有(或大多数)能力的可能性。</h3> <h3>和人类中心主义类似但更广义的是<font color="#167efb"><b>生物中心主义</b></font>(Biocentrism),认为生物(有机化学物质,进化而来)是有特殊地位的东西,但又讲不清到底特殊在哪里。我们也要避免这个主义。</h3> <h3><font color="#167efb">第二个误区和前面的情况相关,我把它叫做“灵魂误区”</font><b style="color: rgb(22, 126, 251);">。</b><font color="#010101">我们讨论机器智能的时候要避免过于随意地引用“灵魂”,“上帝”,“心”,“意识”,等等。</font></h3><h3><br></h3><h3>人是有心的,但人的心只是驱动血液一个水泵而已。所谓一个浪漫的“心”,是指你的脑子。灵魂也一样,在你的脑里。如果我们信仰上帝或其他的神,这并不矛盾,我们讨论的问题只是可以衡量的东西。一旦我们描述了什么是信仰,一个机器说不定也可以有信仰。人确实是有灵魂的,有意识的,那是人脑的一个功能;我们也有信仰,同样是人脑的功能。</h3><h3><br></h3><h3>今天讨论的前提是“以行为为中心的定义”。</h3> <h3><font color="#167efb">第三个误区是对emergentism“涌现原理”的误解。</font>有人觉得你把电脑打开,不就是一些特别简单的加减乘除吗?哪来的智能。</h3><h3><br></h3><h3>这个悖论是由对复杂系统中Emergent Behavior原理不理解造成的。Emergence(涌现)是指一个复杂系统可以被观察到新的行为,而它的组成部分没有这样的行为。这和“Reductionism”是相反的方向。对一个机器的“复杂度”衡量可以是“你要用多少话才能讲清它在做什么”,也可以是“你要用多少话讲清它的行为”。有的机器你可以很容易讲清它在做什么(加减乘除),但是它的行为可以是无限的复杂。所以看到一个机器很简单,并不能推断这个机器很笨(行为)。</h3><h3><br></h3> <h3><font color="#167efb">第四个误区是对计算的误解。</font></h3><h3>在我们从长远的角度看人工智能的时候,我们不应该把我们的眼光局限于今天的”电子数字计算机“,我们应该记住区分Computing和Digital Computer(特别是冯诺伊曼架构计算机)。<br></h3><h3><br></h3><h3>我们也许今天还没有一个“物理”的机器可以实现所谓广义的人工智能,并不能由此推断不可能,也不能推断现有的算法(抽象的计算方法)不能实现智能。</h3><h3><br></h3><h3>计算其实是宇宙中极其常见的事物,我们应该把原理层面的问题和工程层面的问题分开。</h3><h3><br></h3> <p style="text-align: center;"><b>(2)什么是人工智能</b></p><h3></h3> <h3>人工智能(Artificial intelligence)这个名字从诞生那天起就被人抨击,但正因为它的模糊性,你怎么理解都行,反而有生命力,从研究人员,工程师,到政治,广告,三教九流都可用。</h3><h3><br></h3><h3>缺点呢,你就没法严格地分析了,所以我们需要事先选择好一个稍微严谨一点的定义。</h3> <h3>所谓“人工”,无非想说这是人造的,Merriam-Webster词典定义Articifial为:“humanly contrived often on a natural model”。也就是说,我们仿照人脑,或有智能的生物,制造的机器。</h3><h3><br></h3><h3>这一点其实不很准确。</h3><h3><br></h3><h3>首先,我们研究人工智能虽然常常会去自然生物和人类神经系统找启示,但并不是总在模仿人脑。比如现代的人工智能算法“神经网络”只是一个名词,并不等同生物神经网络。</h3><h3><br></h3><h3>反过来说,人脑的演变基本是一个生物进化的“算法”,(见上周名师们的讲座),也不见得和人工智能在原理上有根本差异。</h3> <h3>比如说,今年8月29日,UCSD发表了一项研究成果,成功地用人的皮肤细胞变成的干细胞培育出Neural Organoids(小快脑组织)并观察到复杂的神经电波。</h3><h3><br></h3><h3>你说这是“Artificial”吗?</h3><h3><br></h3><h3>人脑的神经电波通常都是和人的某个思想联系起来的,那这块脑细胞是在试管里思考吗?它在想什么呢?</h3><h3><br></h3><h3>还有,大家可能都听到过马斯克(Musk)搞的脑电接口,也会加一点Artificial到自然里,情况只会越来越复杂。</h3> <h3>所以,在我们对人工智能的定义里,只要是人设计的,都可以算,不一定非要是电子或数字的。</h3><h3><br></h3><h3>【加州大学圣地亚哥研究人员在实验室培育的脑组织模块和与它通讯的计算机】</h3> <h3>第二个字“智能”,那就更复杂了。</h3><h3><br></h3><h3>首先,人自己的智能就众说纷纭。上周的讲座(人类的起源)中考古学里对于“人类”的定义就有一定的模糊性。但是我们认为自己是智能的,这一点是信誓旦旦的,自己取名为“智人”(Homo Sapiens)。笛卡尔说“我思故我在”,把智能作为人类的根本定义。</h3><h3><br></h3><h3>所以我们不妨把人的智能作为“公理”,这样也解决了“存在性”问题。</h3><h3><br></h3><h3>但是,我们对人脑的研究(科学)和对人的认知,在心理,艺术,哲学,等各方面的认识,也还很肤浅并且在快速的变化中,所以,我们对智能的定义是天天在改的。人工智能技术的发展,逼迫我们对自己的智能做更深的思考。举个例子说,最近微软的一个程序可以考美国初中8年级Science测试得个A或B的,我们不得不问,现在学校用的这些考试靠谱吗?同样的,我认为不久以后AI程序会考过SAT,我们还要用SAT来录取大学吗?脑科学上对人脑工作原理的研究也得益于人工智能,研究人员已经发现了人脑的一些机制在原理上和AI算法异曲同工,所以正在倒过来影响我们对人脑的研究。</h3> <h3>在科技界一般的共识是“智能”是一种“行为”的定义,即智能是智者做的事(Intelligence is as intelligence does)。</h3><h3><br></h3><h3>其中最易懂的是“图灵测试”,图灵为了规避对智能的定义模糊问题,设计了一个浅显易懂的测试。</h3><h3><br></h3><h3>把一个人和一台机器放到两间隔开的房间里,另外有一个“人”来做测试员。测试员可以通过一个不可见的方式(互相都看不见)问“任何”问题,并得到从两个房间来的回答,如果测试员无法区分人和机器,那么我们不得不肯定,这个机器也是智能的了。图灵测试有很多现代版,但基本哲学基础是(1)我们用可观察的现象来做决定;(2)人类本身是智能的;(3)和人类一样在可观察的现象上等同的东西也是智能的;(4)人有能力判断可观察现象的等同性。<br></h3> <h3>如果有朋友没有听说过图灵测试,其实我们天天在用。你在网站登录时,常常需要做一件事(比如认识几个歪歪扭扭的字母)证明你不是个机器程序,叫做CAPTCHA,即(Completely Automated Public Turing test to tell Computers and Humans Apart)的缩写。</h3><h3><br></h3><h3>很多人对这样以行为为标准的定义很不喜欢,认为大大贬低了人的地位,他们努力地想找到一些东西来证明这个定义的片面性。</h3><h3><br></h3><h3>哲学家研究人脑时(The philosophy of mind)提出一个Intentionality问题,认为人做事是有目的的,而机器则不能有。现代的科学不断地得到数据证实,一旦我们把“目的性”定义清楚,机器也可以在行为上显示目的性,主动性等等。人文学科的学者常常反对行为主义的定义,但是,我认为大部分反对意见都犯几个常见的错误,一是模模糊糊不愿说清楚,二是引用神秘的东西。</h3> <h3>举一个例子,John Searle (UC Berkeley哲学家)提出了“中文房间问题”。在图灵测试中的一间房里有一个会中文的人,另一间房间里是一个只会英文的人,但他有一部英汉字典,测试员只问中文问题。这个只会英文的人,因为可以用字典帮助,也可以回答所有中文问题,我们这样就可以说第二间房里的人会中文吗?Seale的观点是说:当然不能。因此他想用这个例子来证明图灵测试不管用,证明“行为主义”没有抓住智能的所有方面。</h3><h3><br></h3><h3>其实不然。因为Searle在第二间房间放的那本字典,不是一般的字典,它是可以把“任何”中文问题,完美地翻译成英文,并且解释任何中文中有而英文中没有的概念,使坐在第二间房的人可以用英文回答问题,然后又完美地把英文回答翻译成中文,包括回答所有英文里特有的内容。这样的“字典”,本身就是智能的了,本身就是懂中文,也懂英文,还会翻译,甚至中国文化,这样的系统当然是“懂中文”的!它比任何人类翻译都强,它是超级智能的。</h3> <h3>最后这一节里讨论一下意识问题(Consciousness)。许多人把意识问题和智能问题合为一体,我们所指的意识问题是自我意识问题(Self-awareness),也就是“【‘我’是什么】的问题”,What is the “I”,自由意志(Free will)的问题,或者机器人会有自我吗?</h3><h3><br></h3><h3>比如在对动物研究的时候,人们用所谓的“镜子测试”,即动物是不是可以认得镜子里像是不是它自己。一些实验证明大猩猩,大象,海豚等都能通过镜子测试。人类婴儿要到18个月后才能,这是个问题,难道说18个月之前的小孩没有自我意识吗?</h3><h3><br></h3><h3>另外一种测试是医生用的,如果一个病人被怀疑是植物人了,如何证明这个病人没有自我意识了呢?医院里一般用语言,警觉,头脑电波,有目的的动作等来考虑,但是还是不很可靠。</h3> <h3>最近一个俄国哲学家Victor Argonov,把意识定义为能否自己提出并争辩自我意识问题,作为判断有无自我意识的标准,采用计算机学里的循环递归函数的方法,也很有意思。</h3><h3><br></h3><h3>自我意识问题也和脑体问题相关(Mind Body Problem),相应的在人工智能领域也有Embodied AI研究,即给AI大脑一个身体(即机器人)。</h3><h3><br></h3><h3>让这个机器有一个身体,可以更容易分开你我他,学会自我保护,以及通过和世界的接触来学习环境等,这方面的研究更加提升了机器自我意识的成分,可以说是在教机器人“自私”。</h3> <h3>机器人领域有不少其他技术挑战,比如材料,能源,可靠性等,虽然也很困难,但不是智能的关键。但是人类对人工智能的“观点”可能会因为这些表面问题的改变发生质的变化。这也是人类“自我中心”的一种表现。</h3><h3><br></h3><h3>在人工智能的研究中,计算算法上可以把脑功能的各个部分分开实现,比如Sub-Conscious的Object Recognition(visual cortex)与所谓主观意识部分(frontal cortex),如果我们把自我解释为人对自己的思考,那么计算机当然也能实现这些功能。最终对意识问题的解答,还要等脑科学对人脑机制更深入的了解,才会有定论。但不管哲学问题怎么解答,意识是有意识的东西做的事,一旦人工智能实现了这些功能,我们其实不会太追究纯粹的哲学问题,而哲学家则会去关注更深一层的未解问题。</h3> <h3>不管是那种定义方式,只要是基于可判断的标准,对人工智能的讨论就可以在清楚有成效的范畴。从实际生活中来看,图灵测试的基本原理还是成立的。</h3><h3><br></h3><h3>我们总结一下几点:</h3><h3><br></h3><h3>智能是许多类问题的集合,不是一个单独问题。</h3><h3><br></h3><h3>我们研究了的智能问题,都是计算问题。我们不能肯定所有问题都是计算问题,但是很多我们关心的都是计算问题。我们不能肯定所有的智能计算问题都可以用已知的算法和机器实现,但不少可以,而且有希望很多能够在不远的将来实现。</h3><h3><br></h3><h3>以行为为基础观点来看人工智能最靠谱。</h3><h3><br></h3><h3>既然我们不认为人脑有什么神秘的或非物质的东西,而是进化来的物理的东西,那么人脑也应该遵循上面的逻辑。不过这只是可能性之一,不是定论。</h3><h3><br></h3><h3>超级智能,即超越人类,或不存在于人类的智能,不仅存在,而且至少在单点上到处都是。进化算法并不是最优算法。</h3> <h3>最后提一个更深层次的问题,大家可以嚼一嚼。因为人脑是物质的,有限的东西,那么人能问的问题也是有限的,是不是有些问题是人问不出来的呢?要回答这类问题,我们需要对人工智能的理论基础有一定的了解。</h3> <p style="text-align: center;"><b>(3)人工智能的理论基础和原理</b></p> <h3>我们选择性地介绍几个人工智能的基础理论,然后用一个例子把人工智能的原理串起来。</h3><h3><br></h3><h3>因为我们定义的人工智能是一种计算,人工智能技术实际上只是计算技术的一部分,没有太特殊。</h3><h3><br></h3><h3>图灵在设计最原始的计算机模型时,已经推理出计算是可以思考的,在第一台电子计算机还没有诞生的时候,他已经在思考计算机下棋,音乐,机器学习。因此说,现在大流行的人工智能热,并不是新发明,只是技术进步的一步,也许是很重要的一步,但只是一步而已。有兴趣这段历史的朋友可以看看电影「Immitation Game」里图灵和侦探的那段对话,“Can machines think?”,和图灵1950年发表的“Computing Machinery and Intelligence”。</h3> <h3>【今年夏天去参观了图灵在二战期间于英国Bletchley Park工作时的办公室,他设计的计算机器成功解密了德军的多种加密机,为盟国的最后胜利作出了巨大的(匿名的)贡献。】</h3> <h3>【可计算性理论(Computability)】</h3><h3><br></h3><h3>图灵-丘奇Thesis(论断)认为,所有可实际计算的问题,都是图灵机可以计算的。图灵机有不可计算的问题,比如“停机问题”。基于这个论点,我们抽象出通用图灵机(Universal Turing Machine),一个计算机模型,来代表所有可计算的东西和能计算的机器。</h3><h3><br></h3><h3>如果你听人讲Turing-Complete,就是指某个机器或语言可以计算所有通用图灵机能计算的东西,也就是走到头了,能算的都包含在里面了。我们把图灵机叫做Universal,因为所有可计算的东西,图灵机都能做。</h3><h3><br></h3><h3>中文翻译的“通用”不能表达这个中心意思。还有,Thesis是论断的意思,即有强推理的观点,但不是自然的定律。图灵也讨论了超越Universal图灵机的计算,称为超图灵机,我们后面还会提到,但现有的科学或技术还不能完全肯定超图灵机是可行的。</h3> <h3>如果智能作为一个问题是可计算的,那么图灵机就可以实现,也就是说我们现有的人脑,理论上以后也应该可以实现。我们只是不知道这个以后是多久,或者成本是多高等等。要回答这些问题,我们需要复杂性理论。</h3><h3><br></h3><h3>另一个基本的计算理论是复杂性理论(Complexity Theory),用于分析一个问题的复杂度,针对某个输入,在计算机上实现时需要多少程度的时间,空间等。</h3><h3><br></h3><h3>比如说搜索问题,在一个长队伍里找你的朋友。如果队伍是无序的,你必须一个一个从头到尾看,那么这个算法的复杂度是O(N),平均来讲你需要½ N的步数,N是队伍的长度。直观地说,如果队伍长度翻了8倍,你找朋友的时间也翻了8倍。如果我们事先把队伍排个序,比如按姓氏笔划,而你知道你朋友的姓,那么我们可以把搜索的步数缩减为O(logN),其中log是对数函数。也就是说,队伍长度翻8倍时,你搜索的时间只翻了3倍。</h3> <h3>你觉得这算什么呀,8和3差别不大。</h3><h3><br></h3><h3>对数是指数的逆反,大家可能听说过有人和一个国王下棋打赌的故事,国际象棋有8x8=64个格,下赌的赌注是:在第一个格子里放一颗米,在第二个格子里放比前一个格子多一倍的米,也就是2颗米,如此类推,把棋盘上的64格都放满。国王欣然答应,殊不知这是指数级的,它的复杂度是O(2^N)。</h3><h3><br></h3><h3>我们做了个手工的计算和估计,最后需要的米,是人类历史上所有的米产量加在一起还不够,不信的朋友自己可以试试,你可能会见到你一生中最大的数字。</h3> <h3>但如果我们面对的是另外一个问题,如果它的复杂度是O(logN),对数级,那这就完全倒过来了。也就是说,即使那个队伍里排的是人类历史上生产出来的所有的米粒,你也能在64步之内找到你钟爱的唯一的那颗米!</h3> <h3>想象一下,let it sink in。</h3><h3><br></h3><h3>因为只有理解复杂度的概念,才能对一个计算问题有一个度化理性的判断,才能避免极度乐观和极度悲观,避免被舆论左右。</h3><h3><br></h3><h3>另外相关的是我们日常中用的计算机的实际速度。大家都会熟悉所谓的摩尔定律(Moore’s Law),摩尔早年推算说,计算机技术界应该能够在每2年左右,把计算机的芯片里的半导体翻一倍,并保持成本价钱不变。摩尔在1965年时最早讲了这个预言,当时他在仙童半导体公司,他的预言一半是对半导体技术的理解预测,一半成了技术界的自我目标,成了Self-fulfilling Prophecy。不管怎么说,他极其成功地预测了后面几十年的计算机发展轨迹。</h3> <h3>摩尔定律直接和问题的复杂度相关。我们定义一个问题的复杂度,是以“通用图灵机”为基本度量的,是一种抽象的度量。但如果实际的计算机的速度可以指数级的增长,那么我们不就可以解决指数级的问题了吗?</h3><h3><br></h3><h3>很多“未来学家”对人工智能的预测是基于一种广义的摩尔定律,认为人的技术是在某种意义上在指数增长,比如见Ray Kurzweil, “The Singularity is Near”。还是用上面的例子,如果那个国王可以让他的国家的农业成倍地指数级增长(真的大跃进哈),即便是他们从一颗米开始,64年后他也可以成功还赌债了。</h3><h3><br></h3><h3>当然,这是不可能的,许多物理和其他约束保证指数级现象不可能永远成立,问题是,我们不知道界限在哪里。尤其是,指数增长的效果主要在最后尾巴里大爆炸,我们不知道这个大爆炸是在我们的预期之前还是之后。</h3> <h3>所以,我们要回答的是,智能的复杂度是什么?</h3><h3><br></h3><h3>关于指数级的增长,我们也可以倒过来用,一旦人工智能(的一部分)成功的实现了,那它的功效也是指数的。再借用一下古人类史,如果Homo Sapiens(智人)的智能在多少多少万年前比Neanderthal(尼安德特人)多了那么一点点,正好在进化上很重要,那么这点优势会让Homo Sapiens有能力进一步开放智力,从而进一步有优势,长期以往,有一天就开始爆炸性增长了,就会有工业革命,信息革命等等。</h3><h3><br></h3><h3>人工智能根本上就像自然界造人脑的过程一样,即便现在还不是时候,最终可能会归根结底决定未来人类的命运,甚至宇宙的命运。比如见Yuval Harari, “Homo Deus”。</h3> <h3>附注一点,前面提到UCSD的脑组织研究,他们发现Neanderthal的脑神经网络间的连接数比人类的要少,也许这就是我们幸运的地方也未可知。</h3><h3><br></h3><h3>【香农信息理论】</h3><h3>下一个介绍的基础理论是香农信息理论。Claude Shannon在1948年发表了“一个关于通讯的数学理论”,其中定义了如何衡量“信息”,信息的单位,或者说,什么是信息。</h3><h3><br></h3><h3>不要被理工科的术语迷惑,其实这是个非常易懂的概念,文科学里其实更看重。</h3><h3><br></h3><h3>我们为了表达复杂的情形,会用成语(五十步笑百步)或幽默(光屁股坐板凳),就和下面的原理类似。当一个男生爱上一个女生时,他可能会很迷惑,说不清楚,这不光是他害羞,也是他想表达的信息量太大,他的大脑处理不过来,把他的思想转化成线性的人类语言复杂度太高。不光是处理量很大(计算),还有产生出来的语言量(香农信息量)也太大。</h3> <h3>信息可以用不同的语言表达,导致最终的“文件”大小不一样,如果我们把不增加信息的水分都挤掉,剩下的干货,可以用来作为信息的一种度量,即信息的复杂度。</h3><h3><br></h3><h3>举个例子,很多人听说过“生命游戏”(如果没听说过,可以看这段视频:https://www.bilibili.com/video/av11279860/),它的计算不复杂(即程序不长),但行为可以很复杂,即没法容易地概括它的行为(说不清楚)。如果把它的行为录像,这个片子文件会很大。</h3><h3><br></h3><h3>另外一个很重要的概念是Entropy(熵),可以用来表达一个随机事件有多随机。而交叉熵(Cross Entropy)可以用来比较两个随机变量的差异,或距离。信息论里的熵和物理学(热力学,量子力学)里的熵也是异曲同工的,有人认为它们是统一的概念。</h3> <h3>下面用一个例子讲机器学习的原理。</h3><h3><br></h3><h3>深度学习(Deep Learning)原理。</h3><h3><br></h3><h3>回到我们恋爱了的男生的例子,他能怎么解决信息复杂度太大的问题呢?</h3><h3><br></h3><h3>一种可能的办法是这样的:通过长期的人类进化,我们的大脑学会了压缩信息的办法;通过大量的社交活动,我们的大脑学会了恋爱场的规则和语言;这些训练让他把所有对这个女生的感情(高维度,高信息)总结为一个二维(低纬度)的声音波:(念)我爱你。因为这个女生也是人类的一份子,她的大脑也学会了解码的能力;她也在同一个文化中同一个恋爱场里学会了解码规则和语言,所有她马上就听懂了那些复杂的信息。也许这个通讯的过程中还包括,眨眼睛,心跳,红脸,等其他信息维度,这个女生同样学会了对这些表情解码的方式,甚至他不说“我爱你”都难不到她,这就是智能。</h3> <h3>人工智能里一个常见的算法叫做VAE(variational autoencoder),原理有些类似。</h3><h3><br></h3><h3>一个人类程序员写了个叫VAE的程序,这部分是事先有的,就好像是进化给的基因,爸妈给的,人把这个基础的能力给了VAE。</h3><h3><br></h3><h3>然后我们要来训练这个程序,就像教育小孩一样,让它学会表达爱。VAE程序分两部分,一步分叫VE,另一半叫VD。它的训练过程如下:</h3><h3><br></h3><h3>我们(人)先选出大量的有关恋爱表情的照片(或视频,或情书,等等),其中包括了我们希望VAE学会的恋爱知识,这个叫数据集。然后我们把这些数据输入给VE,VE程序是一个深度神经网络(没关系,不需要知道这是什么,只是带很多参数的程序罢了),VE程序做的事是把信息消化吸收,并同时把原来高纬度的大数据压缩成一个低维度的数据(比如说,2维,<x,y>),这部分叫做“Encoder”。</x,y></h3> <h3>E然后把这个数据交给VD,VD做反过来的事,拿到一个2维的数据(类似“我爱你”)之后,把这个信息解码,编出好的可能的解释来,当然不一定对,VD最后输出一个尽量和输入相同的照片。我们把VD叫做Decoder。</h3><h3><br></h3><h3>因为VAE程序的输入和输出是一样的,这个程序的好坏很容易打分,只要比较输入和输出间的区别即可。深度学习的一个基本技术是如何把上述程序优化,我们通过大量地数据集和训练,可以把VAE培训到非常熟练,每次出错率很低,甚至比人还低。</h3> <h3>现在我们来看看训练好的VAE学会了什么呢?</h3><h3><br></h3><h3>第一,VAE把大量的实际恋爱中遇到的表情等“学习”到了它的神经网络里,作了总结消化。并产生了一个内部表达的方式(2维数据码),计算机术语叫Representation Learning。</h3><h3><br></h3><h3>第二,如果需要,它可以随时产生一个2维数据,并把这个数据码高质量地变成一张照片(或者说,如果它有控制脸部表情的机制,它就能在脸上表达出来。比如哈,但道理是这样的。)</h3> <h3>请大家仔细想想这里到底发生了什么。</h3><h3><br></h3><h3>我来解读一下,你不一定需要同意我的解读,但至少可以往这些方向想想。</h3><h3><br></h3><h3>首先(1)它学会了对视觉信息的学习吸收,并不只是信息的拷贝,而是成了知识。而且它(2)学会了怎么使用这些知识来表达它需要的感情。(3)它也能融会贯通,包括一定程度创造性。</h3><h3><br></h3><h3>我们可以把VE生成的二维空间想成一张地图,在这张地图里,VE总结出来了哪个区域是高兴,哪里是难过,愤怒,嫉妒,爱慕,等等。而VD呢,则总结出如果要表达爱慕,应该表现出怎么样的表情,眼睛应该怎么眯,眉毛放哪儿,嘴角要不要翘,等等。</h3> <h3>在这张地图里一般会有很多空地,上面什么也没有标,VD可以随机地在这些空地里选个地点,然后按VD学会的方法表达出来,这就是非常不常见的一种表情,用的好,在演员脸上就叫做“天才”,“创造力”。</h3><h3><br></h3><h3>它也可以用来欺骗。如果VAE并不爱她,可是夜色迷人,它也可以在爱慕地区随便选个点,VD就能作出一种独特的爱慕的样子来,还完全是VAE的性格。</h3><h3><br></h3><h3>如果你觉得这样的学习机制和人脑的可能很相像,那你不孤独。</h3><h3><br></h3><h3>你说VAE有智能吗?</h3><h3><br></h3><h3>上面的例子里我们跳过了重要的一步,他到底是怎么学习进步的呢?这可以用概率理论。</h3> <h3>【概率统计和贝叶斯推理】(Statistical and Bayesian inference)。</h3><h3><br></h3><h3>在上面的例子里,这位男生突然发现那女生莫名奇妙地不高兴了,是什么原因呢?我们用概率帮助他做反向推理,猜测最有可能的原因是什么(Maximum Likelihood),是他说错了什么话,还是因为她不舒服了。明白了哪些原因最可能,下次就可以在那些方面改进一下,这就叫做学习。</h3><h3><br></h3><h3>贝叶斯推理则帮助我们用新的证据(数据)来调节对某件事的判断,比如相信的程度,又是学习。</h3><h3><br></h3><h3>要介绍贝叶斯推理,我们可以用心理学里的许多实验,比如Cab Driver Problem(出租车司机问题),有兴趣的朋友可见Daniel Kahneman, “Thinking, Fast and Slow”。这个心理测验问题如下:</h3><h3><br></h3><h3>“一辆出租车撞了行人后跑了。这个城市里只有两个出租车公司,一个蓝车,一个绿车。城里的出租车大约85%是绿车公司的,15%是蓝车公司的。事故当时只有一个现场的目击者,这位目击者说她看见是辆蓝车。因为事故当时天黑,法院的专家觉得目击者只有80%的时候是对的,20%的时候是错的。请问你觉得肇事的是蓝车的可能性有多大?”</h3> <h3>贝叶斯推理把我们对某个设想的肯定当作一个不确定的概率,事先的概率叫Prior,实践中收集一些数据,根据这些实际数据和设想相符与否,来更新对这个设想的判断,更新后的叫Posterior。</h3><h3><br></h3><h3>在上面的问题里,测验中大多数人会选择(蓝车,概率80%)。但这可能是错误的,正确答案是用贝叶斯概率,要把Prior也考虑进去,也就是说,因为本来绿车就多,不做任何假设下,绿车的概率大,这个叫Prior。用贝叶斯定理:</h3><h3><br></h3><h3>绿车是肇事车的概率 = 85% x 20% / (85% x 20% + 15% x 80%) ~= 58.6%</h3><h3><br></h3><h3>蓝车是肇事车的概率 = 15% x 80% / (15% x 80% + 85% x 20%) ~= 41.4%</h3><h3><br></h3><h3>所以绿车的概率高一些。</h3> <h3>概率统计方法,和贝叶斯推理,在人工智能里用的相当广泛,我这儿浅浅点到,绝不敢在这里班门弄斧。贝叶斯推理的特点是它在决策理论中应用很大,可以用于“主观判断”,也因此和人脑科学以及人工智能挂钩。</h3><h3><br></h3><h3>现代人工智能还有一个基础理论是【高纬度的线性代数】,可是太过于数学了,咱们就先免了。</h3><h3><br></h3><h3></h3><h3>最后总结一句:因为人工智能其实是普遍智能的理论,它会用到各行各业的学术成果,不仅数学和理工,而且人文也同样用到。我认为人工智能界现在急缺人文背景的学者专家。</h3> <p style="text-align: center;"><b>(4)人工智能的技术前沿的现状和发展</b></p> <h3>人工智能的第二春大约发生在2012年。这年里发表了一系列革命性的成果,包括“ImageNet Classification with Deep Convolutional Neural Networks”,由Alex Krizhevsky, Ilya Sutskever, Geoffry Hinton发表在2012年的NIPS会议上。这个网络被叫作“AlexNet”,是个卷积神经网络(Convolutional Neural Network, CNN)。</h3><h3><br></h3><h3>从那时起,机器学习,尤其是基于神经网络的深度学习(Deep Learning),成了人工智能的代名词,这一节里我们也主要讲深度学习方法下的人工智能。</h3><h3><br></h3><h3>但先铺垫一下人工智能的大图,从人工智能大的范畴来看,我觉的(1)普通程序,没什么特别,只是现在人工智能这个标签值钱,大家换了排号。这也无可厚非,因为人工智能本来就是普通程序,而普通程序本来就是智能的;</h3><h3><br></h3><h3>2)符号处理,比如以前的逻辑程序Prolog, Lisp,现在很少见了;</h3><h3><br></h3><h3>3)贝叶斯统计推理,线性回归,大数据等,相当的普遍,大多数商用可能是这种类型的机器学习;</h3><h3><br></h3><h3></h3><h3>4)基于神经网络的深度学习。</h3><h3><br></h3><h3>下面介绍机器学习,然后介绍深度学习。</h3> <h3>机器学习,指的是,先由程序员写一个框架程序A,这个程序里有很多未知的参数,即A(theta)。</h3><h3><br></h3><h3>程序员再写一个培训程序B,并给A的输出给一个评分标准,叫Loss或Cost函数。</h3><div><br></div><div>我们再收集一个大数据集S。</div><h3><br></h3><h3>程序B把S中的数据一个一个给A,然后对A的输出打分,并根据分数的高低来调整A的参数theta,以求降低分数(因为Loss是负分哈,越低越好)。</h3><h3><br></h3><h3>这其实只是数学上的优化算法,要优化的Loss可以是我们前面讲到过的Maximum Likelihood或cross entropy,程序A就越来越好了。即,它的答案越来越符合我们的期望了。这就是“学习”。</h3><h3><br></h3><h3>B程序还需要保障A不作弊,比如死记硬背,或者钻考题的漏洞,等等,这些也很讲究。A程序是个偷懒的大骗子,必须逼它才学得好。(“故天将降大任于是人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身...”,机器也一样。)</h3><h3><br></h3><h3>机器学习一般又分三类,其实这些分类法不太科学,不过无妨。有老师的叫监督学习(Supervised Learning),没老师的叫无监督学习(Unsupervised Learning),还有一种没法说了,叫强化学习(Reinforcement Learning)。生成对抗网络Generative Adversarial Network(GAN)也可以理解为另一种类型。</h3><h3><br></h3><h3>有老师的就是说有正确答案的。比如上面提到的ImageNet论文是要给程序一张照片,让程序分辨照片里的东西是狗是猫,还是汽车等等。有正确答案的情形,每张照片的背后写着照片里的东西是什么,程序A看不见,程序B(老师)可以看见。这样B就可以用标准答案给A打分,B调整的目标就是让A(theta)答对的机率越高越好。有老师的学习效率高,学得好,但是有一个成本:人必须一张一张照片给答案,人工费用高。还有,如果有的问题没有标准答案呢,比如恋爱,那这个方法不行。</h3> <h3>没老师怎么学?自己研究。比如前面的VAE程序就没有老师,它的两个部分,一个编码,一个解码,判断优缺就是比较解码后的图是不是和源图一样。所以编码和解码的程序合在一起就是A,而训练部分的程序就是B。打分的标准就是两张图之间的“距离”,或信息差。无监督学习也常常用来做自动分类,比如可以把鸟分成子类,或凑成群,和科学家一样。</h3><h3><br></h3><h3>强化学习很不一样,它基于动态系统或动态控制理论(Dynamic programming)的贝尔曼方程式(Bellman Equations)。</h3><h3><br></h3><h3>强化学习一般是基于马可夫决策模型(Markov Decision Process)的,用随机实验来产生想象的步骤和价值判断,并形成策略(Policy),按策略产生实际行动(Action),然后根据外界环境给予的反馈(Reward),学习调整策略(Policy)和价值(Value)(分别称为策略学习和价值学习)。</h3><h3><br></h3><h3>强化学习的例子在心理学(对人)和神经学(对人和动物)相当普遍,比如小老鼠走迷宫的实验。</h3><h3><br></h3><h3>小老鼠为什么要走迷宫,因为走出了迷宫才有吃的(这是外界给的反馈信号),走错了可能被电击。</h3><h3><br></h3><h3>小老鼠第一次走迷宫时大致是随机的挑路走,走通了一次的时候就面临一个难题,是记住这条路,每次都走它好呢,还是实验一下别的路,说不定有更好的。这叫做探索还是坐享其成的矛盾(Exploration vs. Exploitation)。</h3><h3><br></h3><h3>这个矛盾可以用随机抽样的方式来克服(美名为“门特卡罗”)。门特卡罗是个赌场。</h3> <h3>强化学习的最著名例子就是谷歌的阿法狗打败人类最高围棋手的算法。</h3><h3><br></h3><h3>强化学习也经常用在机器人上,比如OpenAI的机器手。但机器人太贵了,研究成本太高,还受物理世界的限制,太花时间,所以强化学习研究常常是用游戏来代替。比如OpenAI的捉迷藏游戏里多个玩家能自己学会使用工具,合作,谋划策略等。</h3><h3><br></h3><h3>强化学习的算法极其广义,有人认为它是广义人工智能的希望,但是学习过程很不容易。</h3><h3><br></h3><h3>人体里的多巴胺(Dopamine)被认为是人感到快乐的源头,因此可以是人学习的外部反馈信号。神经科学里的实验也证明了生物神经系统里有类似的强化学习过程,包括时差学习(Temporal difference learning,TD)。</h3><h3><br></h3><h3>下图展示计算领域的强化学习,和心理学(叫Conditioning)与神经生物学的强化学习的关系:</h3> <h3>下面我们开始讲讲深度学习。</h3><h3><br></h3><h3>深度学习狭义地讲是指学习程序里的表达学习的结构(即上面的A(theta))是一个多层次多参数的神经网络。</h3><h3><br></h3><h3>深度学习的成功一般可以归结为3方面:互联网和移动手机为我们收集了大量的数据;深度神经网络算法;新的芯片技术,比如GPU,TPU,等等。</h3><h3><br></h3><h3>几年前的研究用数据集是以万为单位的,从统计的角度讲,刚刚可以有效。今日商用数据集通常都是以十亿(Billion)为单位。数据的质量也很重要,不然垃圾进垃圾出,学不到什么。大型数据集的重要性我们就不多分析了。</h3><h3><br></h3><h3>要了解神经网络算法,我们可以先描述一下计算定义,然后用一些代表性的例子。</h3><h3><br></h3><h3>所谓神经网络,是指一类算法,它是通过把一系列小的元素互联成网络图形成的。这些元素叫Neuron(神经元),类比生物里的神经元。</h3><h3><br></h3><h3>把许多神经元连接起来,就叫神经网络。连接的具体方式叫架构(Architecture)。全部集成在一起叫模型(Model)。</h3><h3><br></h3><h3>所谓深度,原意是这个网络有很多层,很深。但现代的网络不见的只是深,也可以宽,其实无所谓,只要“大”就行。具体地到底怎么设计新架构,那就是前沿的研究项目了。</h3><h3><br></h3><h3>每个神经元是一个很简单的数学函数:它包括两部分,前一部分是一个线性组合,后一部分是一个非线性的Activation函数。</h3><h3><br></h3><h3></h3> <h3>生物神经元的Dendrite和Neucleus部分可以想象为一个模拟的计算机,而Axon和下一个神经元的Dendrite连成一个Synapse,可以想象为数字化的跳跃函数。</h3> <h3>生物神经元的Synapse有两种,一种用电子方式传播信息,另一种以化学方式传信息。</h3> <h3>Synapse控制一个神经元对下面一个神经元是不是放电,是人脑功能的基础。</h3><h3><br></h3><h3>人工智能算法里用的神经元简单多了,但原理有些像。</h3><h3><br></h3><h3>线性部分把输入的数据x1, x2, x3, … 和神经元内部的参数w1, w2, w3, … 对应地乘起来,然后相加:x1*w1 + x2*w2 + x3*w3 + …。这个叫线性组合。</h3><h3><br></h3><h3>非线性部分一般是一个专门设计的函数,稍微有点讲究,但也没多大奥秘。下面这个函数叫ReLU,就是常用的之一。</h3> <h3>你看它像不像在控制放电还是不放电?就是个开关,神经元内的压力大过一个界限了就按比例放电,不然不放电(零)。</h3><h3><br></h3><h3>人脑里有多少神经元?大约80-100 Billion。人脑有多少Synapses? 大约500 Trillion。耗能约20瓦。</h3><h3><br></h3><h3>人工智能神经网络里有多少神经元?嗯,有点不好答,不过,今年OpenAI发布的GPT-2 NLP模型含1.5 Billion个参数。(参数不能算是神经元,也不能算是Synapse,但有一定正比关系吧。)耗能?(有人估计相当于法国的用电量,瞎估计的吧,一定很大。)</h3><h3><br></h3><h3>这些比较没太大意义,两者实际上差别巨大,不能比较。但是我们还是忍不住要比,给你过过瘾,下面是一张全图,只要你别当真。</h3> <h3>我们的神经网络设计好后能做什么呢?什么也不会,因为它只是一个框架,没有任何知识。要有知识,必须先学习。我们前面例子里的程序A和程序B就是这个意思。</h3><h3><br></h3><h3>学习的过程(一般叫训练的过程,以老师的视角说话了)我们已经介绍了,使用一个高质量的数据集,然后有一个优化算法,一点一点地调参数,以达到某种衡量标准的最优化。</h3><h3><br></h3><h3>现代人工智能的一个技术突破是这个培训过程,基于Gradient Descend和Back Propagation的算法,能够把15亿个参数调的好好的,不容易。</h3><h3><br></h3><h3>这里还需要大量的计算,超出了一般计算机的专长,所以我们设计一些特定的处理器芯片来帮助。这些芯片是用来强化高维度代数的矢量矩阵卷积计算的,造成了原本有些死气沉沉的芯片行业突然又生机勃勃。</h3><h3><br></h3><h3>调好后我们得到的是一个训练好的模型(Model),也就是一个程序加一堆调好的参数。这个模型,就可以被用到各种各样的系统中,像手机,云服务,智能音响,汽车,...给物体带来智能,所以可以把它比喻为“脑”。</h3><h3><br></h3><h3>这一步一般叫推理(Inference),计算量小多了,但也要一个加速的矢量芯片。高于3维矢量叫Tensor(张量),所以谷歌把它的芯片叫Tensor Processing Unit(TPU),把它的软件叫Tensorflow。</h3><h3><br></h3><h3>上面讲的基本适用于大部分深度学习的例子,但是强化学习不一样。我们前面讲到,强化学习是基于动态控制和马科夫决策论的,并不是神经网络,那为什么有人把它也列为深度学习呢?</h3><h3><br></h3><h3></h3><h3>强化学习的关键是一个优秀的“策略家”和一个优秀的“评估师”,也叫“批评家”。我们可以把他们两位的工作看作是两个非常复杂的函数,而神经网络可以模仿逼近任何函数,所以我们用深度神经网络来实现这两位,并称为深度强化学习。</h3><h3><br></h3><h3></h3><h3>策略家决定下步棋放哪里,评估师决定任何一个棋局的价值,胜算是几成。在培训的过程中,比如,策略家一开始可以胡乱下,分析师慢慢地学会一些评估经验,然后策略家可以根据评估的价值,选高价值的下。同时,策略家也意识到,光是贪婪地选最有价值的下不行,因为世界这么大,怎么知道有没有更好的棋呢?所以策略家会时不时选一些随机抽样的棋下,这个叫探索(Exploration),探索是智能地搜索,会有效地找到好棋。这样一来评估师见的场面多了,它的能力也加强了。你看,他们俩互相提高,学得越来越好。</h3> <h3>下棋必须有对手,原来还以为要找人类高手下棋才能学到真经,其实不用,只要同一个程序的两份对着下棋就可以,因为随机成分在,它们不会下一样的棋,在输赢中两个程序都学到了新东西。这样在13天内,就从零开始学会并超越了人类几千年才学会的围棋手艺。强化学习的最难的事之一是赢了以后怎么归功的问题(Credit assignment problem),围棋里下了一步关键的棋,可能要很久以后才会把它的效能体现出来,我们赢了之后怎么知道是哪一步棋起的作用呢?这就是教练比赛后分析,需要智能,才能帮助运动员不断进步。</h3><h3><br></h3><h3>最后我们再举几个经典的人工智能模型的例子:</h3><h3><br></h3><h3>(一)图片分类,ResNet</h3><h3><br></h3><h3>ResNet = Residual Network,最早发布在2015年,主要作者He Kaiming,清华的,当时在微软,现在Facebook。ResNet是一种做图片分类的深度卷积神经网络,其中卷积部分和前面讲到的AlexNet是一样的。新的是Residual部分,Residual学习的实现是加一些层与层之间跳过中间层的短路,来帮助它学到新东西,而且加快了学习速度。ResNet的层次可以选,比如ResNet-50是50层的,ResNet-50用ImageNet培训后做图片分类的出错率大约是20%多。</h3> <h3>第一图:程序识别出这是个足球,概率93.43%,它很肯定这是足球。</h3><h3><br></h3><h3>第二图:是深度神经网络的示意图。</h3><h3><br></h3><h3>(二)实时物体识别,YOLO-v3</h3><h3><br></h3><h3>YOLO = You Only Look Once (实时)</h3><h3>物体识别程序看一张图,把图里的关注物体识别出来,框定清楚,标明类比等。这样的系统可以用在自动驾驶,或安全监控等。一个实时的物体识别程序需要能在处理时跟上视频的节奏。比如每秒处理30张图片,我们就可以用于视频监控了。</h3> <h3>(三)自然语言:翻译,阅读,写作,GPT-2</h3><h3><br></h3><h3>GPT-2 = Generative Pretrained Transformer, v2</h3><h3><br></h3><h3>GPT-2是现在最先进的自然语言模型之一,它是今年初由OpenAI的研究人员发布的。它的设计基于所谓的“Tranformer”神经网络模块,不同于以往的Recurrent神经网络(RNN)。Transformer是谷歌的研究人员最早设计的使用关注(Attention)机制解决早先的RNN里的语意记忆问题。GPT-2也是生成式网络的例子,G是Generative,和前面的VAE有类似之处,包含Encoder和Decoder。</h3><h3><br></h3><h3></h3><h3>GPT-2有1.5 Billion个参数,使用了8百万个网页来学习。OpenAI的人选了一些GPT-2最优秀的例子,下面我们来欣赏一下,但是记住这是家长给朋友看孩子的成绩,都是最好挑出来的,并不是每次都这么好。</h3><h3><br></h3><h3>命题提示(人写的):</h3><h3>In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.</h3><h3><br></h3><h3>下面是GPT-2程序写的作文:</h3><h3><br></h3><h3>The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.</h3><h3>Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.</h3><h3>Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.</h3><h3>Pérez and the others then ventured further into the valley. “By the time we reached the top of one peak, the water looked blue, with some crystals on top,” said Pérez.</h3><h3>Pérez and his friends were astonished to see the unicorn herd. These creatures could be seen from the air without having to move too much to see them – they were so close they could touch their horns.</h3><h3>While examining these bizarre creatures the scientists discovered that the creatures also spoke some fairly regular English. Pérez stated, “We can see, for example, that they have a common ‘language,’ something like a dialect or dialectic.”</h3><h3>Dr. Pérez believes that the unicorns may have originated in Argentina, where the animals were believed to be descendants of a lost race of people who lived there before the arrival of humans in those parts of South America.</h3><h3>While their origins are still unclear, some believe that perhaps the creatures were created when a human and a unicorn met each other in a time before human civilization. According to Pérez, “In South America, such incidents seem to be quite common.”</h3><h3>However, Pérez also pointed out that it is likely that the only way of knowing for sure if unicorns are indeed the descendants of a lost alien race is through DNA. “But they seem to be able to communicate in English quite well, which I believe is a sign of evolution, or at least a change in social organization,” said the scientist.</h3> <h3>下面是阅读理解(阅读理解问题更难,这叫做One-Shot,因为只见到这片文章一次)</h3><h3><br></h3><h3>The 2008 Summer Olympics torch relay was run from March 24 until August 8, 2008, prior to the 2008 Summer Olympics, with the theme of “one world, one dream”. Plans for the relay were announced on April 26, 2007, in Beijing, China. The relay, also called by the organizers as the “Journey of Harmony”, lasted 129 days and carried the torch 137,000 km (85,000 mi) – the longest distance of any Olympic torch relay since the tradition was started ahead of the 1936 Summer Olympics.</h3><h3>After being lit at the birthplace of the Olympic Games in Olympia, Greece on March 24, the torch traveled to the Panathinaiko Stadium in Athens, and then to Beijing, arriving on March 31. From Beijing, the torch was following a route passing through six continents. The torch has visited cities along the Silk Road, symbolizing ancient links between China and the rest of the world. The relay also included an ascent with the flame to the top of Mount Everest on the border of Nepal and Tibet, China from the Chinese side, which was closed specially for the event.</h3><h3><br></h3><h3>下面是问答题。</h3><h3><br></h3><h3>Q: What was the theme?</h3><h3>A: “one world, one dream”.</h3><h3><br></h3><h3>Q: What was the length of the race?</h3><h3>A: 137,000 km</h3><h3><br></h3><h3>Q: Was it larger than previous ones?</h3><h3>A: No</h3><h3><br></h3><h3>Q: Where did the race begin?</h3><h3>A: Olympia, Greece</h3><h3><br></h3><h3>Q: Is there anything notable about that place?</h3><h3></h3><h3>A: birthplace of Olympic Games</h3><h3><br></h3><h3>Q: Where did they go after?</h3><h3>A: Athens</h3><h3><br></h3><h3>Q: How many days was the race?</h3><h3>A: seven</h3><h3><br></h3><h3>Q: Did they visit any notable landmarks?</h3><h3>A: Panathinaiko Stadium</h3><h3><br></h3><h3>Q: And did they climb any mountains?</h3><h3> A: Everest</h3> <p style="text-align: center;"><b>(5)人工智能对人类社会的影响,人类的未来</b></p> <h3>下面讨论一下人工智能会对人类社会的影响。在这样的讨论里,时间范畴很重要,是多远的将来。我个人的想法是,分我们自己一代,和我们孩子一代,再远就是未来学了。</h3><h3><br></h3><h3>对我们这一代,人工智能会持续不断地快速创新和跳跃性地发展,基本原因是它的三个动力继续在发力:数据继续爆炸,计算力继续指数增长,而算法研究本身也在指数增长。</h3><h3><br></h3><h3>除了这几个原动力之外,又有了新的动力,包括大量的资本,新的行业被信息化(医疗,运输,基因,药物等),新的突破性计算技术(比如Neuromorphic computing, Quantum computing)。</h3><h3><br></h3><h3>这周硅谷刚有个人工智能芯片峰会,其中Neuromorphic computing很占风头。</h3><h3><br></h3><h3></h3><h3>下面是一些我们这代人需要担心的事。</h3><h3><br></h3><h3>在经济上,人工智能可能加剧全球的贫富悬殊,资本的控制力过大,引起反弹,和经济不平衡。在西方发达国家,对经济政策的讨论已经开始,比如数据保护(GDPR),反垄断,全民基本收入(UBI,Andrew Yang, Democrat),机器人收税,等。我们需要思考后资本主义(Post-Capitalism)的经济思想和体制的建立。</h3><h3><br></h3><h3></h3><h3>在社会关系上,很多人担心人工智能的歧视问题。人工智能的智能常常是用人的数据训练出来的,这些数据,还有我们训练它的方式,都可能会引进歧视。比如工作面试,可能人工智能会做得比人好,但是如果我们把这件事交给人工智能,怎么能确保它不歧视?</h3> <h3>和歧视相关的是可解释性问题。不少人要求人工智能必须能对人解释,需要时人可以干预。一旦机器有了智能,它的行为和一个人的行为会非常相似,变得不能解释,这是智能的本性。如果机器的能力到了超人类的水平,那就更不能解释了。我们如何建立和机器的信任关系,如何管住一个比我们更能干的机器。</h3><h3><br></h3><h3>由此引伸,未来很多工作被叫做“Super Job”,人的职位是和机器接口,怎么和机器合作一起完成一项工作。</h3><h3><br></h3><h3>比如说你和一个机器一起作为一个队,和另外一对人加机器,下围棋比赛。如果机器要下一步棋,你不同意,或不理解,你和机器之间怎么协调呢?难道机器还需要一步一步解释给你听吗?</h3><h3><br></h3><h3>最近有个组织作了一个调查,问大家是不是愿意一个机器替换你“现在”的老板。20%多的人回答愿意,因为他们或不喜欢现在的老板,或者觉得机器更公平。回答不愿意的人呢,则提到机器没人情味,我们没法糊弄它,偷不了懒。年轻人更多愿意的。很有意思的是,如果把这个机器变成看起来像人样的机器人,支持率大幅上升到40%多,可见人的心理弱点。</h3><h3><br></h3><h3>Joaquin Phoenix演的电影Her对这些问题描写地比较有意义,没看过的朋友可以看看。</h3><h3><br></h3><h3>以后的社会问题将会有”拥有人工智能的人”和”没有人工智能的人”之间的矛盾,Haves and Havenots。我们需要赋予“人做的事”以价值。如果一个卡车司机的工作让位给机器了,这位卡车司机以后做什么?他们不能成为人工智能的牺牲品。这位卡车司机不仅需要工作,而且需要“有意义”的工作,给人以“价值”。VICE的纪录片“The Future of Work”大家可以参考。警告:以后我们不是“资本创造了一个无产阶级”,而是“智能创造了一个无用阶级”。即便是我们可以在经济上给每人“基本收入”,他们的生活如何能有价值自豪感尊严,还是个大问题。</h3> <h3>我们现在的所谓DeepFake问题(即:用人工智能造出的假照片,视频,文章等等。下面的照片,那个是真的?),只是很小的一个苗头,这样的“真相”问题,以后会无法解决,因为算法很快或已经达到超人的水平。我们该如何知道什么是现实,什么是宣传机器?需要人文科的思想家帮我们思考,而且解决的办法也需要是机器智能的。</h3> <h3>(右边的照片是AI做的,是假的)</h3> <h3>如果一个机器人犯了法,谁能抓住它?警察靠得住吗?你相信公司能管住他们的机器吗?我们其实已经走进这个机器的圈子了,只是没人在足够地担心而已。如果我们不理解这些机器,我们怎么立法?</h3><h3><br></h3><h3>人的道德观是我们社会的基本,道德观可惜是模糊的,人工智能会把人的缺点暴露的无处藏身,这些模糊里,有的是“虚伪”(我们不愿意承认),有的是“随机”(我们不愿意承认),有的是人无能为力的(我们用同情来替代),如此等等。我认为人的道德观是人类文明的珍珠,如何把它教给机器?</h3> <h3>人工智能正在许多领域卷起一场革命,这场革命最终会触及各行各业。人文学科的也不例外。我们这代人在这个关键的转折点上,需要为人工智能创建一个明亮的方向。我们应该以牺牲个人隐私为代价吗?应该牺牲人身自由吗?应该让一小部分公司或组织控制未来谁拥有人工智能吗?</h3><h3><br></h3><h3>从正面看我希望人工智能可以真正地帮人类解决医疗问题,这是个全球问题。医疗的自动化可以全面实现非常经济的个人化医疗,从而奠定我们可以长寿并且保持长寿的经济来源。2040年以后,可以实现医疗全面人工智能化吗?人类的很多病可能是基因造成的,所谓老年病,可能并不是真正意义上的病,人工智能可以把80岁变成50岁,并且不增加医疗开支。现在的苹果手表,基因癌症疗法,自动X片诊断,等只是一个起步。</h3><h3><br></h3><h3>从硅谷往南一个多小时,有个小城叫Pacific Grove,这里有个海滩叫Asilomar,美不胜收。海滩旁边有个不大的会议中心,历史上很重要的Asilomar Conference on Recombinant DNA1975年在这里举行,奠定了生物工程的伦理基础。</h3> <h3>2017年又举办了Asilomar Conference on Beneficial AI,期望类似的可以形成一些共识。</h3> <h3>我觉得人工智能是人类创新的必然一步。物理学家Richard Feynman有一句名言,“我不能造的,我就没有理解。” 我们若要理解人脑,就一定要造出一个人工脑来;同时只有造出一个人工脑,才能真正地明白人脑。如果我们这一代还没有达到那个水平,我们的下一代应该可以。</h3><h3><br></h3><h3>我们的下一代应该怎么看人工智能?</h3><h3><br></h3><h3>他们的世界,从2020年到2100年,很有可能是智能大爆炸的时代,不管他们学什么,需要明白人工智能是什么,并且学会如何使用它,调动它,为你服务。他们将从业于我们上面说的Super Job,解决我们上面提到的那些难题。她们应该更多地学习如何管理机器人,如何解决AI Ethics,避免人类社会的动乱,避免人的价值(自由,民主,平等等等)的散失。</h3><h3><br></h3><h3>在星球大战第三集(The revenge of the Sith)中,女主角Padme看着参院推举出一个独裁者来,自言自语说,“哦,原来民主是这么死去的... 在雷鸣般的掌声中” 。如果人类失去自己,失去自主,也会在不知不觉中发生。</h3><h3><br></h3><h3>我儿子小学毕业时说,“In 20 years I will be… teaching robots morality.” 是的,机器人训练师也许是个职业,就像当老师。他相信不久的将来智能机器人将服务于人类生活各方面,而我们人类主人不仅只创造机器人,更要为他们的行为道德负责。</h3><h3><br></h3><h3>我们还有能源问题,环境问题,和平问题... 我们不能继续把环境当作成本,以后环境就是创收。不能继续使用现有的GDP作为优化的指标。如果这些体制问题处理好了,未来的问题不是没有工作,而是重新定义工作,有无限的工作我们可以想象人类值得去做。</h3><h3><br></h3><h3>广义人工智能的实现,会给人类无穷的创造力,我们的下一代绝不能把这些创造力用于人类狭隘的事上,他们应该把眼光放的远些。不要为一滴油,一片药,一小块地,这些小事争吵。我们应该把人工智能这样宝贵的礼物,用于解决人类的健康长寿问题,解决能源问题,帮助我们走向太阳系和银河系,外面有的是地,去找一个新的美洲,地球以后就是一个人类的考古博物馆和自然公园。未来的人生可以是无限的创造性的乐园,我们为了下一代要往这个方向努力,我们的下一代也许就能见到这么一个未来。</h3><h3><br></h3><h3>Yuval Harari在「21世纪的21堂课」里说,“<b>在后面的几年或几个年代里,我们还有机会。只要我们努力,还可以问自己我们想做什么样的人。但想抓住这个机会,得马上行动了”。</b></h3>