图片来源@视觉中国
文|雷科技
一夜之间,ChatGPT「开眼了」。
4 个月前发布 ChatGPT 最初就只支持文本输入和文本输出,也就是进行文字聊天。然而在 GPT-4 发布之后,ChatGPT 甚至可以看懂一些梗图,并解释「梗」在哪。但 GPT-4 升级远不止如此。
美国当地时间 3 月 14 日,OpenAI 正式发布了多模态大型语言模型 GPT-4。OpenAI 在介绍中表示,虽然 GPT-4 在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。
与 ChatGPT 发布之初基于的 GPT-3.5 大模型相比,OpenAI 宣称 GPT-4 拥有更强的语言理解能力,在准确度上有了显著提升,虽然还无法解决「胡说八道」的问题,但出现概率已经降低了 60%。
此外,GPT-4 的训练语料库还停留在 2021 年 9 月之前,但对科学、医学、法律等特定领域进行了知识面的扩充,不仅能在美国统一律师资格考试中取得前列成绩,在奥赛、GRE 等考试均取得了很高的分数,甚至 SAT 成绩——可以理解为美国高考成绩——已经超过了 90%的考生,跨过哈佛、斯坦福等名校的门槛。
部分考试成绩,图/OpenAI
同时 GPT-4 的其中一个重点升级是增加了对图片输入的支持,有了对图片进行总结和评论的能力。在官方示例中,GPT-4 就针对去年热传的一组图片进行了解读,并指出其中的「笑点」。
机翻,图/OpenAI
Twitter 上还有用户获得图片输入测试资格展示了,GPT-4 如何根据冰箱里剩下的食材推荐今日菜谱。不仅是人类的黑话被 ChatGPT「破译」了,ChatGPT 也第一次「触碰」到了现实世界,让 ChatGPT 未来在更多场景的使用成为了可能。
但需要一提的是,目前图像识别功能还处于测试阶段,暂时不公开使用,仅限部分客户公司和研究人员使用。但除此之外,GPT-4 的所有升级都已经面向 ChatGPT Plus 用户和部分 ChatGPT API(应用程序接口)全面开放。
不过,GPT-4 相比 GPT-3.5 到底带来了多大的进步,又可能会掀起什么样的风暴,以及中国的 ChatGPT——特别是即将在 3 月 16 日发布的百度文心一言,还有赶超的机会吗?
GPT-4 大大大升级
在 OpenAI 发布 GPT-4 的直播中,第一个介绍的就是对更长内容的支持——可以直接读取的 token 数从 4096 个(GPT-3.5)升级到了 32000 个,约等于可以一次性输入 25000 个英文单词。
很多普通用户可能用不上也不理解这项升级的重大意义,但大幅增长的上下文长度将极大扩展 ChatGPT 的推理能力和用例数量,比如可以将患者的全部病史一并输入,或是将冗长的法律合同输入,都能减少 ChatGPT 对前后分开内容的「误读」,提高输出内容的准确性和实用性。
OpenAI 也提到,简单聊天中 GPT-4 升级并不明显(不包括图片输入支持),但当任务的复杂度达到足够的阈值,GPT-4 将体现出远比 GPT-3.5 更可靠、更有创造力的表现。
此外,ChatGPT 在 GPT-4 大模型的加持下,不仅能够生成更具说服力和吸引力的内容,还支持更个性化的需求和聊天风格。官方示例就展示了「苏格拉底」风格设定下的 GPT-4 老师是如何调教人类学生,一步一步思考并解出方程组「3x + 2y = 7, 9x -4y = 1」的正确答案。
GPT-4,图/OpenAI
如果对比下基于 GPT-3.5 的 ChatGPT 就能明白它们之间的差距。
我们将同样的设定和问题输入 ChatGPT(GPT-3.5),它不仅没有表现出「苏格拉底」循循善诱的教导,反而直接给出了推导过程——答案还是错误的「x=23/27,y=22/9」。
ChatGPT(GPT-3.5),图/OpenAI
从过程到结果,GPT-4 至少在教导人类解方程式这件事上吊打了 GPT-3.5,甚至可以说已经很接近人类老师的教导过程。甚至我们可以想象,GPT-4 如果充分学习了鲁迅的资料,或许赛博「鲁迅」老师也可以成为所有人的语文老师,甚至是终身导师。
这也引出了另一个升级重点——不同语言的能力。OpenAI 官方承认,GPT 不管从语料库、基准测试、开发人员都是以英文为主,故而对英文的理解和输出能力都胜过其他语言。
但即便如此,在 GPT-4 下,包括中文在内的大部分语言处理能力基本都超过了 GPT-3.5 的英文处理能力。中国版 ChatGPT 的压力更大了。
不过,尽管 GPT-4 的能力再一次实现了惊人的进步,包括在对抗性事实性评估中的得分比 GPT-3.5 高出 40%,但还是存在一些「一本正经地胡说八道」,即 AI 对事实产生「幻觉」,并出现推理错误。
比如之前 ChatGPT(GPT-3.5)回答并流传出的「林黛玉三打白骨精」,我们在基于 GPT-4 的 Bing Chat 中也进行了测试,虽然提醒了我们这不是原著中的情节,但同样「虚造」了改编视频的存在,这一点可以从引用资料中轻易得出结论。
图/必应
就如 OpenAI CEO 山姆·阿特曼所说,GPT-4 仍然存在缺陷,但它有明显的改进,相比以前的模型不仅幻觉减少、偏见减少,还更有创意。
另外据 OpenAI 官网介绍,摩根士丹利、多邻国、By My Eyes 等 6 个企业客户已经率先使用了 GPT-4,其中大概也包括微软。
微软和 OpenAI 又前进了一大步
早在今年 2 月,就有传闻称微软将在当时尚未发布的 Bing 上集成 GPT-4。事实证明的确如此,Bing 团队在 GPT-4 正式发布后就表示:
我们很高兴确认 New Bing 基于 GPT-4 运行,这是我们为搜索定制的。如果您在过去五周内的任何时间使用过新版 Bing,那么您已经体验过这个强大模型的早期版本。随着 OpenAI 对 GPT-4 及更高版本的更新,Bing Chat 也将从中受益。
事实上,微软德国技术总监也在上周提前透露了 OpenAI 将在本周发布 GPT-4。而 OpenAI 过去两年还与微软一起从头设计了一台专用于语言训练的超级计算机,GPT-4 就是跑在这台超级计算机上训练出来的。
再考虑到 2019 年的十亿美元投资和今年年初的数十亿美元投资,微软和 OpenAI 很大程度上已经绑为一体。而 GPT-4 的正式推出再次确立了微软和 OpenAI 在生成式 AI 上的领先,开发者 Pietro Schirano 就表示:「我不在乎它是不是通用人工智能,GPT-4 是一项令人难以置信的变革性技术。」
图/Twitter
与此同时,ChatGPT 的巨大成功一方面已经吸引了大量的商业应用,包括微软的 Bing Chat,同时也为微软 Azure 云计算平台拉来了大量客户,为微软继续力挺 OpenAI 进行大量的研发和资金投入提供了充足的条件。
这样的强强联合,国产 ChatGPT 们还有希望吗?
国产大模型的差距又被拉大了?
时至今日,没有人会怀疑 ChatGPT 以及大语言模型的重要性了,包括科技部部长王志刚也在几周前重点谈到了 ChatGPT,指出就像踢足球都是盘带和射门,但要做到梅西那么好很难:
ChatGPT 在技术进步上,特别是保证算法的实时性与算法质量的有效性上,非常难。
换句话说,开发一个类似 ChatGPT 的对话机器人不难,但要实现 ChatGPT 同等水平的自然语言理解能力以及实时性,难度极高。
在国内一众宣称正在开发类 ChatGPT 中,只有阿里、腾讯、百度对大语言模型进行了大规模且长期的投入,而且百度也是三家之中对于 AI 倾注心血和时间最多的一家。可以说,从技术实力上,百度是目前最有希望在大语言模型上追赶 OpenAI 的中国公司。
日前,百度也已经宣布将于 3 月 16 日下午召开文心一言发布会,如果顺利,文心一言将成为国内大公司推出的第一个类 ChatGPT 产品。不过据 WSJ 报道,百度从年前就在紧锣密鼓地进行类 ChatGPT 的开发,包括春节假期期间,甚至将原计划的支持中英双语缩减为专注中文。
在算力、资金、技术等方面都不占优势的情况下,指望百度一举追上甚至超越 OpenAI 不现实。而且随着谷歌开放 PaLM API(5400 亿参数量的业界顶尖模型),以及 GPT-4 的进一步升级,大幅提高了通用版 GPT 的门槛,留给后来者的机会也越来越小。
但一方面,不管是 OpenAI 还是谷歌对中文的重视程度明显不足,再加上网络和法规等诸多因素,注定很难在国内直接大规模落地,百度等国内公司如果能在中文上追平甚至超越 OpenAI,也不失为一种可行路径。
另一方面,围绕大语言模型和生成式 AI 的商业模式还有大量的未知,OpenAI 和百度一样需要不断地进行商业化尝试。百度此前宣布包括魅族、携程、兴业银行、美通社等 400 多家企业将首批接入文心一言生态,意图明显希望极大地扩展生成式 AI 的用户群体,除了考虑生态的建立,可能也是提前抢占中国更广泛用户的心智。
当然,在文心一言真正推出落地之前,很难评判它的真正实力和潜力。而且可以预见,文心一言将不可避免地被用来与 ChatGPT 进行对比,届时才是检验百度在大语言模型和生成式 AI 实力的时刻。