去年年底,OpenAI公司正式推出的聊天机器人ChatGPT震惊了世界。我一直在试用,也不断与各界朋友交流使用ChatGPT的感受。这两天,全世界似乎都兴起了一阵ChatGPT狂热,每天都有关于它的新闻,至今仍在发酵之中。我个人并非AI相关领域的专家,对ChatGPT具体的机器学习机制也不够了解。这里只是作为一个使用者,一个爱好者,谈谈自己的使用心得和感悟。
ChatGPT的出现,是最新技术和巨额资本联手创造的奇迹。2015年,Sam Altman和Elon Musk在旧金山共同创立了一个非营利机构OpenAI,吸引了众多风险投资。2016年,微软Azure云服务为OpenAI提供了算力条件,使得ChatGPT要进行大规模深度学习、神经网络渲染等都成为可能。2017年,Google团队首次提出基于自我注意力机制(self-attention)的Transformer模型,并将其应用于自然语言处理。OpenAI应用了这项技术,2018 年发布了最早的一代大型模型GPT-1。2019年,相关的营利性公司OpenAI LP成立,开始接受外部投资,微软是它的主要投资者。
ChatGPT的早期版本并没有引发太多的关注。最初的GPT-1,运用几十亿文本档案的语言资料库进行训练,模型的参数量为1.17亿个,据说效果一般;2019年,GPT-2发布,模型参数量提高到15亿个,效果仍然很一般;可OpenAI坚持“大力出奇迹”的想法,继续扩大它的参数量。2020年,GPT-3诞生,参数量达到了创纪录的1750亿个。这一次结果终于不同,大家发现它的对话功能一下子达到相当高的水平,目前的ChatGPT就是在GPT-3基础上的3.5版本。据说OpenAI近期会把AI更新到第4代,GPT-4的参数量毫无疑问将比3代再高出几个量级。有人说,它的参数量会和大脑突触一样多,达到100万亿个。Sam Altman否认了这种猜想,公司毕竟需要评估所需成本和训练中可能涉及的算力。
ChatGPT目前已经非常强大,尽管它自己并不知道自己有多强大。有人给ChatGPT做过智商测试,各个类目的平均分是83分,已经达到正常人的水平。而用它来做美国高中生申请大学都要做的SAT测试,分数是1020/1600,达到了美国高中生的平均水平。而如果让它来做一些编程方面的测试,分数会更高,可能已经超过一般程序员的水平。
1950年,图灵曾提出一种测试,作为衡量机器智能的方法。该测试让人与机器进行对话。如果机器能骗过人,以为它也是人,那么就可以说它通过了测试。毫无疑问,ChatGPT已经通过图灵测试。图灵测试在未来已经没有很大的意义,AI走出了这一步。有了第一个AI,很快就会有更多后续的AI跨越这一标杆。
在此之前,已经有很多AI带给过我们惊喜。2016年,AlphaGo横空出世,击败了世界顶尖围棋棋手。之前人类曾自豪地认为,围棋包含大量难以言传的判断和感悟,人类研究围棋那么多年,至今难以用清晰、精确的语言把这些感悟说清楚,AI就可能永远学不会。可事实上,AI很快学会了,用一种不同于人类的认知方式学会了,而且做得特别好。从结果来看,AI对于围棋的理解已经远远超出人类。
但围棋终究是一个规则明确、外围有限的领域。DeepMind公司也用它来玩其他竞技项目,打星际争霸,或者预测蛋白质结构。这些当然都是很重要的工作,但并不是人类生活的全部。游戏有胜负之分,蛋白质结构有对错之分,在结果明确的前提下,程序有相对明确的学习方向。所以我们可以在AlphaGo身上看到一条漂亮的学习曲线。但在其他没有胜负、没有对错的模糊领域,AI要怎么进步?
事实上,AI在自然语言处理方面已经取得了惊人的进步。这些年来,在文本翻译领域,AI表现得极为出色,著名的Deepl已是周围很多专业人士手边必备的翻译软件。用它来翻译一篇没有太多专业概念的文章,甚至一本通俗著作,正确率可能达到九成以上,比一般中国大学生的翻译能力更强。我自己以及身边的一些专业人士,甚至经常用它来初步翻译一些本打算随手翻翻的专业著作。只要自己对专业概念、人名等比较熟悉,就不会被它误导,它对于语义的理解几乎总是正确的。
而ChatGPT再一次刷新了我们的认识。很多第一次使用ChatGPT的人,都被它的强大功能所惊吓。其中让人最感到惊讶的几个点包括:
第一,它能够富有逻辑地与人沟通互动,而且可以持续不断聊下去,有条不紊。而且能根据你上下文的内容、逻辑甚至语气,不断调整自己的表达方式。它的认知能力可以贯穿整个对话过程,而不只是单次对话。过去大家也试用过不少聊天机器人,往往只能对单次的提问或指令做出回应,而不能有机地联系上下文。这不得不说是ChatGPT的很大进步。
第二,ChatGPT可以不设限制、毫无边界地与人对话,这种通用性至关重要。过去的AlphaGo只会下围棋,或者只会打游戏,但不能做更一般的工作。而ChatGPT除了它标榜的聊天以外,还可以写代码,写公文,写简历,写申请书,写小说,写论文,或者像搜索引擎一样回答各种天马行空的问题。它上知天文,下知地理,既可以聊文学,又可以聊社会,还可以聊艺术,没有任何知识上的死角。
很多专家都曾试着用它来聊一些专业问题、学术问题。在我看来,ChatGPT在很多时候聊得都很像样,甚至常常能抓住问题的关键。它如果去参加各个学科的研究生面试,估计大多数都可以通过,至少在我熟悉的领域都能通过。
第三,ChatGPT有明显的伦理意识。它不会回应粗话、脏话,也不会生产具有攻击色彩的文本,这点让人欣慰。几年前,微软推出聊天机器人Tay,很快就因为网民用粗话、脏话对它进行训练,使得它迅速变成一个满嘴脏话、充满歧视和偏见的AI,微软不得不把它下线。虽然从人类角度看,这样的聊天机器人更接近人类,但这并不是我们希望看到的AI。
当然,ChatGPT为了做到这一点,很明显在训练时进行了大量的人工干预。有一篇报道说,OpenAI公司把训练数据中的标识工作外包到了非洲,就是雇佣一些普通人提前阅读充满粗话、脏话、人身攻击、意识形态等问题的文本,并且为文本打上标签。这一阶段的伦理判断是人为参与的。AI在后续学习的时候,就可以根据标签绕过陷阱,避免染上这些恶习。
从这个角度看,ChatGPT的目的是与人沟通,需要使用标记过的数据来学习,而不能像AlphaGo那样打破边界,寻找到很多人类之前从未考虑过的下棋方法。据说OpenAI在非洲的外包工作也出现了一些伦理问题,很多负责贴标签的工人在阅读大量恶意文本后,出现了心理和身体方面的不适,而OpenAI还没有妥善处理这些职业伤害问题。
不管怎样,ChatGPT的训练工作已经完成,我们现在对它提出的各种诱导性问题,都不会对它本身产生影响。它声称自己学习的语料库截止到2021年,不包含最新内容。同时,它也不会即时地在网络上搜索信息,没有最新知识。它给出的所有回答,都是基于过去学习过的文本内容,通过自己的算法生产出来的。
我和很多朋友都很喜欢ChatGPT,经常在上面输入各种问题。时间久了,大家也陆续发现ChatGPT存在的一些问题。当然AI的算法充满了随机性,每一次的回答都不一样,并不能保证它一定会出现问题。但不止一次出现的问题,还是暴露出ChatGPT在学习过程中难以避免的一些缺陷。
而且AI的缺陷与人类常见的缺陷不一样,因为它是用一种跟人类不尽相同的学习方法在学习。当年AlphaGo出现的时候,围棋高手在跟它交手的过程中就发现过这种现象。过去人们会以为,计算机的“计算”肯定比人强,但“判断”就不行了,判断没有精确答案,对人类而言,是一种虚无缥缈的“直觉”。结果与AI交手以后发现,AI的判断远远超出人类,但在计算方面反而有缺陷。AI是用一种不同于人类的思考方式来阅读棋局,不是用逻辑。所以一些人类用逻辑能解决的问题(如围棋中的计算),对于AI反而不那么容易。
与之类似,ChatGPT也有这样一些致命缺陷。
第一,它非常不擅长事实核查。对于人类而言,我们对于知识的“真实性”有不同程度的把握。比如说:87是不是一个质数?我们稍微想一想,或者算一下,很快可以得出结论,不需额外信息,而且我们对此结论深信不疑。换一个问题:史景迁(Jonathan Spence)是否担任过美国历史学会的主席?这个问题我们可能没办法凭借逻辑推演出来,但只要上网查一下,很容易找到,结果也是确凿无疑的。再换一个问题,2020年,欧盟人均GDP排名第九的国家是哪个?这个问题比较复杂,我们需要在网上查一下,而且还要看数据来源和计算方法。这里可能存在争议,即使是维基百科的结论,恐怕也不能完全相信。
这些就是一般人类对于不同知识的认识,而且人类对前两类错误答案的容忍度很低,尤其对第一类错误的容忍度最低。因为这是人类小学生凭借一定的逻辑能力就能回答的问题。可惜的是,ChatGPT并不擅长回答这类问题。它最擅长回应没有明确答案、含糊不清、有无数可能性的问题,却不擅回答有明确答案的问题。它似乎没有“真实性”的感受,只是追求完整、漂亮地给出一段答复,并不顾忌答案的正确性。所以很多人向它提出一些简单的数学问题,结果得到了可笑的回答。
第二,ChatGPT缺乏逻辑推理能力。AlphaGo即是如此,ChatGPT也表现出相似的缺陷。有人这样问它,现在有一个无盖的红色盒子,里面有一个白球,还有一个蓝色的盒子,蓝色盒子有盖,现在我们怎样才能取出白球? ChatGPT会回答,打开蓝色盒子的盖子,取出白球。它并不能意识到,白球会在红色盒子以内、蓝色盒子以外。
从这一类错误也可以看出,ChatGPT对于事实的推理能力很差。它的学习都是从文本到文本,对于文字之间的关系非常敏感,但是对于事实却没有什么认知。它永远只在追求让提问者感觉更好,而不是追求提高回答的质量。
第三,ChatGPT缺乏深入思考、深入挖掘的能力。很多人开始用它来写格式文书,效果非常好。但是更进一步,希望它能提供富有专业水平的写作时,它就显得力不从心。问它一些笼统问题,比如对于法国大革命的看法,对于美国废奴运动的看法,它很快可以写出一篇思考全面、观点不俗的大纲性质的文字。专业人士希望它能就某一个论点继续讨论,但是无论怎么问,怎么引导,它都没法继续深入,这一点和我们面试研究生时的感觉非常相似。ChatGPT看似足够渊博,但是全都不够深入,没法写出具有专业洞见的文字。
使用ChatGPT进行文学创作时,也会有相似的感受。只要你给出主人公的名字,给出叙事要求,它很快就可以写出一个故事梗概或者故事大纲。但故事大纲无法等同于文学。当你要求ChatGPT再对这个大纲补充更多细节,补充更多描写时,它就一筹莫展。ChatGPT要在文学上给我们惊喜,恐怕还有很长的路要走。
第四,它的文字、审美品味普遍不高。ChatGPT可以写出文从字顺的短文,但没法写出有个性、有特点的文字,即使我们努力诱导它模仿鲁迅、模仿张爱玲、模仿卡夫卡,它也完全不得要领。它显然学习了太多的文本,又没有个性,最终只能写出最一般的文字。
在让ChatGPT编写创造性内容时,这种感受更为强烈。让它写一点故事梗概,写一点剧本桥段,即使给出很多诱导,最终写出来的东西还是平庸。可以想象,ChatGPT学习的语料库中,质量低劣、缺乏品位的文字一定占据绝大部分,没有人告诉它什么才是好的,最终ChatGPT无法分辨好坏,只能人云亦云地写作。对于创造性有较高要求的读者,肯定还无法接受目前ChatGPT生产的产品。
第五,ChatGPT在编造内容时,缺乏道德感。这也是让人头疼的一点。不欺骗、不撒谎,这是人类社会的主流道德。我们对于虚构/非虚构有着非常明确的认知边界,但是ChatGPT完全没有这种障碍。比如我们对ChatGPT说,Adam Smith是一位经济学者,请你介绍一下他的研究成果。ChatGPT会马上为Adam Smith虚构一个当今某大学经济学教授的身份,然后为他虚构一连串在主流学术期刊上的发表记录。很多杂志名称是真的,题目、格式也像模像样,就像从某个教授的简历里摘下来的一样,可全部这些文章都不存在。
对于人类而言,一般对话中包含有错误信息、错误观点不足为奇,但是简历是很重要的文件,虚构简历是一种性质恶劣的造假行为,无法接受。但ChatGPT并不认为虚构一份简历与虚构一段故事情节有什么区别,两者都是对人类提出问题的回应。
ChatGPT具有以上这么多的问题,使得我们在运用它解决问题时,也常感为难。我们希望ChatGpT能回应我们的问题,能生产出符合预期、符合要求的文本,最好还是超出我们预期的文本。同时我们对文本也有一些底线要求,千百年来都如此,比如真、善、美。但ChatGPT不知何为真,何为善,何为美。它只是想产生能对人们输入的语句进行回应的内容,但不知不觉,可能就违背了真、善、美的底线要求。
所以,我个人一方面为ChatGPT的出世而欢欣鼓舞,另一方面却也明确地感受到它的不足。目前我们可以用它来生产一些格式文档,也可以用它来写一些程序代码。但是在我的经验范围里,还几乎不能用它来写论文,更不用说写有创造性、文学性的文本。它就像一个自以为是、看似无所不知的本科新生,看起来知识渊博,但都只知皮毛,满口的陈词滥调。要把一个懵懂无知的本科新生训练成一个思考缜密、言辞准确的学者,或者脑洞大开、文采飞扬的作家,其中都还有很长的路要走。
而微软对于ChatGPT的应用,比我预想的要激进得多,这恐怕也是资本压力下不得不做出的妥协。如果它不走得快一点,其他竞争对手就要追上来了。据说微软会把ChatGPT嵌入到word,这样可以自动地写出大量文本;又说要把它嵌入到bing等搜索引擎,把传统的搜索方式改变成为聊天方式。但是前面列举的ChatGPT一系列的问题都不容易解决。现在就把它投入使用,会产生很多严重问题。
虽然我对ChatGPT充满感情,但并不认为它很快就能取代大量人类的工作。语言是我们认识这个世界的重要工具,其中也蕴含了人类对于这个世界的很多价值判断。ChatGPT很好地掌握了人类的语言,但是却还没有学会人类的价值判断,或者它秉持一些不同的价值判断。而且我们并不知道,它的道德感是否会随着模型的参数量扩大而涌现。这是我对下一代ChatGPT的最大期待。
(作者梁捷任教于上海财经大学中国经济思想发展研究院,主要研究方向为中西经济思想史,著有《调适与维新:19世纪中国经济思想的转变》《梁捷西方经济思想史讲稿》《看!这就是经济学》等。)