顿悟与理解一一AI的语言能力何以令人惊叹(20231020)

G.HUANG_lt

<p class="ql-block"><br></p><p class="ql-block"><i>黄国营 / 文</i></p><p class="ql-block"><br></p> <p class="ql-block"><br></p><p class="ql-block"> 前天(10月17日),百度发布“文心一言”4.0版,理解、生成、逻辑、记忆四方面的能力,在短时间内有了大幅度提升,据称比GPT-4已毫不逊色,这是巨大的进步。我们还记得3月份首次发布时,当众大出洋相,甚至导致股价大跌。</p><p class="ql-block"><br></p><p class="ql-block"> 士别三日,当刮目相看。AI时代高速迭代,更是如此。笔者测试,“文心一言-4.0”的文生图,应该说与Midjourney和OpenAI仍有相当差距,但语言的理解和表达能力,的确已大有长进。</p><p class="ql-block"><br></p><p class="ql-block"> 发布会上举了个例子:假如有人问文心一言,“我想回承德买房,能用公积金贷款吗,手续怎么办?我在北京工作。” 它能否理解并作出恰当的回答呢?</p><p class="ql-block"><br></p><p class="ql-block"> 自然语言与形式语言不同,具有很大的模糊性和随意性,意义之间存在大量交织的隐含关系。但AI能理解前后乱序的表述,比较模糊的意图表达,话语中隐含的潜台词,把问题转化成“一名河北承德户籍的用户,能不能用北京的公积金在承德贷款购房”这样逻辑清晰的询问,然后针对这个问题给出回答和办理步骤。</p><p class="ql-block"><br></p><p class="ql-block"> 这种能力,在政务、营销客服等领域,乃至日常生活,都有非常广泛的应用前景。</p><p class="ql-block"><br></p> <p class="ql-block"> “我想回承德买房,能用公积金贷款吗,手续怎么办?我在北京工作。” </p><p class="ql-block"> 别以为这简单,这个提问,其实有好几个小陷阱需要跨越:</p><p class="ql-block"><br></p><p class="ql-block"> <b>第一,句子理解和篇章理解</b></p><p class="ql-block"><br></p><p class="ql-block"> 这是一个前后乱序的表述。大部分人日常交际,都是想到哪儿说到哪儿,不会那么严谨。就像这个询问,先说了买房和办理公积金,最后才说“我在北京工作”,这就对理解能力提出了更高的要求。</p><p class="ql-block"><br></p><p class="ql-block"> 这里的理解不是逐句进行的,而是在基于记忆的篇章层面的统筹分析。操作时机器需保持足够多的前后文记忆,需要进行跨越句子的前后文语义检索、分析、推理。现在AI的记忆力越来越强,能覆盖的文本越来越长,不仅能记住和分析你当下的提问,还能联系你前面一系列的语句一起分析作答,甚至还能涉及你以前的问题。</p><p class="ql-block"><br></p><p class="ql-block"> 大语言模型的“上下文长度”通常指的是,在模型进行预测时所使用的历史文本的长度。它是指模型在生成文本时所考虑的之前的语境或先前的语句的长度。上下文长度对生成文本的质量和连贯性有很大的影响。如果上下文长度较短,模型可能无法充分理解语境,因此可能会产生不准确或无关的回复。而如果上下文长度较长,模型可以更准确地理解语境,并生成更准确、连贯和有意义的回复。</p><p class="ql-block"><br></p><p class="ql-block"> 这是因为大语言模型使用的是一种称为“Transformer”的架构,它通过多层的自注意力机制和注意力权重来捕捉文本中的长距离依赖关系。当上下文长度较长时,模型可以捕捉到更多的语境信息,从而更好地理解和生成文本。这显示了理解对语篇、语境的依赖度。</p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"> <b>第二,字面意义和蕴含意义</b></p><p class="ql-block"><br></p><p class="ql-block"> 这里有两个简单表述。一个是“在北京工作”,这就隐含了“在北京缴存公积金”;另一个是“回承德购房”,一个“回”字,暗示了提问者大概率是承德户口。</p><p class="ql-block"><br></p><p class="ql-block"> 其实所有的词语,除了字面的字典意义之外,都有大量蕴含的其他意义。词语所蕴含的意义,无法由词典给出,这些意义的范围、层面是纷繁复杂乃至于无穷的,涉及与该词相关的所有知识,包括百科知识和普通常识。而人们理解过程所调用的,不仅是字面的词典意义,更有词典外的蕴含意义,包括百科的、日常的、文化的。而最麻烦的是,这词语字面外的意义难以发掘,难以结构化、形式化,处理的时候缺乏“抓手”。</p><p class="ql-block"><br></p><p class="ql-block"> 如何从一个词语出发,发现与之相关的纷繁知识,并从中挑选出与当下问题相关者,使之参与眼前的分析,这样的理解,才能实现并达到了一定的深度。理解是立体多维度的,有不同的维度和深度。针对一个问题作出正确回答,未必是真正理解,即便“理解”了,理解的维度、深度也可能不同。对“理解”的“理解”,实际上是有很多不同的“理解”,我们需要深究,AI时代更提出了诸多问题。其实我们作为学生在应对试题,或作为教师在阅卷比较的时候,应该早有感受和体会。</p><p class="ql-block"><br></p><p class="ql-block"> <b>第三,理解篇章和理解意图</b></p><p class="ql-block"><br></p><p class="ql-block"> AI机器人,要结合询问上下文,把所有信息点组合在一起,准确理解了真正的问题。上例询问,是问“一名河北承德户籍的用户,能不能用北京的公积金在承德贷款购房”,然后针对这个问题给出了回答和办理步骤。</p><p class="ql-block"><br></p><p class="ql-block"> AI要围绕询问整体篇章,确定中心问题所在,然后恰如其份准确作答。这也并不简单,人与人之间交际,也有答非所问,或不着边际,不着痒处,回答给出的信息或过多、或不足。无论是人、是机器,对询问作答,都需要聚光和聚焦,确定范围与重点,这都是需要智能处理的。</p><p class="ql-block"><br></p><p class="ql-block"> 这实际涉及对询问者意图的识别判断。除了对询问聚焦之外,其实还涉及到询问者的实际行为意图,在此就不多说了。</p><p class="ql-block"><br></p><p class="ql-block"><b>顿悟和理解</b></p><p class="ql-block"><br></p><p class="ql-block"> 我们在测试和使用“大语言模型”生成产品如ChatGpt或文心一言时,会很惊讶和好奇,它是怎样听懂的。其实它们的设计者也仍未能弄清说清。现在基于大语言模型的AI机器人仍像一个黑箱,明显的“有效性”,却缺乏“解释性”。理解过程到底是如何运作的?</p><p class="ql-block"><br></p><p class="ql-block"> 一般的说法是,当数据达到一定巨大数量的时候,就会出现“涌现”,出现前此所没有的功能。“涌现”在数学和科学界许多领域已有多年研究,但基本上还停留在一些量变发展到某个阈值就会发生质变的有趣例子,并未能找出其本质规律。</p><p class="ql-block"><br></p><p class="ql-block"> 天量的语料和庞大的算力,确实是AI爆发“涌现”的关键,其间机制及规律正是我们探索的重大新课题。语言学有唯理主义和经验主义两大派,前者基于规则,后者基于统计。自然语言处理是摆脱了理性主义注重规则推理的传统,采用经验主义的统计方法,才决定性地走上了突破之路,而且一路开挂。</p><p class="ql-block"><br></p><p class="ql-block"> 但至今大语言模型基于统计的生成式软件,虽然成果赫然,但解释性很差,人们还说不清其内部运作机制及过程。在使用中,我们感觉到它好像是一种“顿悟”,是一种多维度网络知识汇聚碰撞的结果,而不是传统的线性单向推理所带来的理解。</p><p class="ql-block"><br></p><p class="ql-block"> 我们的语言是线性的,表示语言的文字是线性的,我们的语法也是线性的,因而我们默认理解也是线性的。其实不是。理解是多维度立体的,神经网络便是其原型。理解、包括语言理解的元素不是字词句,而是意义单元。正在兴起的“多模态”的综合处理,将会更有力地说明这一点。</p><p class="ql-block"><br></p><p class="ql-block"> 传统意义上的“理解”,意含“顺着纹理进行剖析”,是线性的、单向的。我们将“理解”形式化的逻辑,也是线性的、单向的。但实际上并非如此。元人刘将孙 《登仕郎赣州路同知宁都州事萧公行状》中有:“纷纭蜂舞,未易缕析而理解者。”事实上,我们最基础的理解是“纷纭蜂舞”,不是“缕析理解”。只有到了更高的抽象层次,才会“缕析理解”。注意,更高的层次,不等于更高级更好更有用。事实上,“蜂舞”式的理解是更常见、更自然、更真实的。</p><p class="ql-block"><br></p><p class="ql-block"> “顿悟”是非逻辑的,非线性的,非单向的、非分析性的,非可离散接续的,是诸要素瞬时汇聚碰撞激发的。大语言模型的理解,正具有这些特点。当然,认知过程是复杂的,自然会有多种过程的复合,但其中会有一种机制是基本的。</p><p class="ql-block"><br></p><p class="ql-block"> “顿悟”,如果不是作为佛学的一个术语,不是作为一种宗教修行的境界,其实更能说明我们日常“理解”的形态。顿悟,其实就是基于大量网状存储知识面临某一情景而激发的一种即时理解,本质上就是一种多维信息碰撞的“涌现”。可能这正是在生成式“大语言模型”内发生的情况。</p><p class="ql-block"><br></p><p class="ql-block"> 卡尼曼曾在《思考,快与慢》中分析,人类的认知处理过程包括两个系统:System 1是快速、本能和情感化的;System 2是缓慢、深思熟虑和逻辑的。目前,LLMs与System 1更为接近,这可能就解释了大模型在应对复杂任务方面的局限性。 </p><p class="ql-block"><br></p><p class="ql-block"> 为突破这一局限性,许多学者已提出几种模仿人类“深思熟虑”且“逻辑性”的思维框架。其中包括提供分步式解决方案的“思维链(Chain of Thought, CoT)”和提供树状检索方案的“思维树(Tree of Thought, ToT)”等方法,试图提供对思维过程更一般性的建模。但因各种技术原因,都未能取得真正成功。</p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><b>从检索到会话</b></p><p class="ql-block"><br></p><p class="ql-block"> 以往人们在网上寻找知识,是通过“搜索”,输入一个关键词,谷歌或百度会给出一大串的网页链接,然后你在其中筛选一些相关文章,再在阅读中寻找有用信息。仍然颇为费时费力,而且弹出来的最前面还有一大堆令人讨厌的广告。</p><p class="ql-block"><br></p><p class="ql-block"> 现在有了AI的加持,重构了新搜索,使搜索成为底层过程,并把结果整理成文,尽量准确、完整、有条理地回答你所需要了解的问题。既是一次成形,又可多轮交互、层层追问。筛除了大量的无关枝节、垃圾内容,直指关键信息。准确度和效能大增,体验效果也大为改善。</p><p class="ql-block"><br></p><p class="ql-block"> “大语言模型”生成式AI的突破,使信息处理因而信息社会正在经历一场蝶变。</p><p class="ql-block"><br></p> <p class="ql-block"><b>人人都是提示工程师</b></p><p class="ql-block"><br></p><p class="ql-block"> 语言大模型,最神奇的地方,就是AI的神奇理解能力。现在,你说的每一句话,它大概率都能听懂,很多时候,它比你的朋友同事更懂你在说什么。甚至有时,它还能启发你突然领悟自己到底在问什么,在说什么。因为它的底层所基于的不是一个人,而是全人类汇集沉淀的智慧。</p><p class="ql-block"><br></p><p class="ql-block"> 当然,在实际运用中,如何发问仍十分重要,明晰、精确而巧妙地发问,不但可以事半功倍(笨拙的提问则事倍功半),还可势如剥笋,直抵问题核心。所以国外“prompt engineer”(提示工程师)已经成为迅速发展的新行业,如何根据需要,恰当而巧妙地组织问题,成为有效而且高效的问题解决方案。</p><p class="ql-block"><br></p><p class="ql-block"> 现在AI时代面临一个既矛盾而又相成的问题:一方面,我们要训练AI机器人能应对五花八门、未加深思熟虑、十分随意、支离破碎、甚至颠三倒四的“人话”,以发展其“类人”的智能;另一方面,要让大家在与AI机器人打交道的时候,学会更准确、更巧妙地组织白己的提示语言(prompt )及要求,使人机交互更有效、更高效。</p><p class="ql-block"><br></p><p class="ql-block"> 目前“提示工程师”(prompt engineer)是一个新职业,他们通过和AI机器人对话,使之生成自己需要的文字(生活知识、百科知识、各类应用文、诗歌散文、小说剧本、论文专著、计划图表、应用程序等),图片(美术创作、图徽广告、装饰设计)和视频(广告乃至电影)。</p><p class="ql-block"><br></p><p class="ql-block"> 人工智能会淘汰很多工作和岗位,同时也将创造更多工作和岗位。汽车淘汰了牛车夫、马车夫,就赶快学会驾驶汽车吧,尽快成为新司机、老司机。</p><p class="ql-block"><br></p><p class="ql-block"> 不用很久,我们每一个人都会在日常生活和工作中面对AI机器人,进行人机对话、人机交互,如何更好地对机器说话,是普通人有效、高效使用人工智能的关键,人人都将是“提示工程师”,人人都要学会驾驭人工智能,使之为自已服务。</p><p class="ql-block"><br></p><p class="ql-block"> 在没有人工智能之前,人与人之间,不也是要好好说话,要会说话吗?</p><p class="ql-block"><br></p> <p class="ql-block"><br></p><p class="ql-block"><a href="https://www.meipian.cn/4xb3orvr?first_share_to=copy_link&share_depth=1&first_share_uid=11332435" target="_blank">与AI虚拟爱因斯坦的三段对话</a></p><p class="ql-block"><br></p> <p class="ql-block"><br></p><p class="ql-block">测试截图:</p> <p class="ql-block"><br></p><p class="ql-block"><a href="https://www.meipian.cn/4xd9mcb6?first_share_to=copy_link&share_depth=1&first_share_uid=11332435" target="_blank">AI创作的剧本《螃蟹》</a></p><p class="ql-block"><a href="https://www.meipian.cn/4xb3orvr?first_share_to=copy_link&share_depth=1&first_share_uid=11332435" target="_blank">与AI虚拟爱因斯坦的三段对话</a></p><p class="ql-block"><a href="https://www.meipian.cn/4w3vryn5?first_share_to=copy_link&share_depth=1&first_share_uid=11332435" target="_blank">“多模态”正迎面走来一一人工智能“写诗作画”测试</a></p><p class="ql-block"><a href="https://www.meipian.cn/4uw9u19f?first_share_to=copy_link&amp;share_depth=1&amp;first_share_uid=11332435" target="_blank">AI复制人,希望你代替我永远活下去!</a></p><p class="ql-block"><br></p><p class="ql-block"><br></p>