文心一言，接上了全民“宫廷玉液酒” 的暗号-武陵观察网

图片来源@视觉中国

2023年开年，人工智能领域华丽返场，以ChatGPT为代表的生成式AI接棒此前的AlpgaGo，带着全新的故事重回世界舞台中央。

继微软投资的OpenAI实验室上线聊天机器人ChatGPT仅4个月后，国内科技企业也推出了其基于新一代大语言模型的生成式AI产品“文心一言”。看着你方唱罢我方喝的情景，人们不禁发出这般感慨：世界终是变了，AI时代已全面袭来。

文心一言之于，甚至之于整个AI产业的价值，资本市场反应也比较积极：产品上线首日，美股涨幅接近4%，最高涨幅一度超过7%；次日，港股大涨12.87%，一举收复前几个交易日失地。

都说AI大模型的研发是实力公司之间的博弈，尽管众人皆知这是一条厚雪长坡，但想要做出一番成绩，背后无不依靠参与企业凭借惊人的耐力做出持续的投入，同时还要对中短期内无法实现商业化有着较强的心理素质。

生成式AI已处爆发前夜，站在一个技术和商业化交汇的路口。而百度文心一言发布会后不到24小时，排队申请文心一言企业版API调用服务测试的企业用户已达8万家，从这一数据不难看出，市场关注度的背后，其实也是整条产业链的蓄势待发。

01 生成式AI竞技升维

大概在去年9月，知名投资机构红杉资本曾发表了一篇名为《生成式AI：一个充满创造力的新世界》的文章。文中写到，生成式AI让机器开始大规模涉足知识类和创造性工作，这涉及数十亿人的工作，未来预计能够产生数万美元的经济价值。

站在大市场来看，各大互联网企业在数据、算力、模型训练上早已投入多年，这也决定了底层基建注定是其中实力企业的“蛋糕”。只不过时至今日，生成式AI领域的竞争已上升至应用层，想要打开新的商业局面，并达到真正的规模化，市场需要一个现象级的产品。

换言之，微软的ChatGPT、谷歌的Bard以及的文心一言几乎在同一时间段内分别推出自家生成式对话产品，也可谓是恰逢其时。

尽管在这三家企业当中，推出文心一言的速度较其他两家稍逊几日，但市场仍对其抱有更大的期待——

在已站上赛场上的三家企业当中，是唯一一家中国互联网大厂。大语言模型底层所需要的深度学习、自然语言处理（NLP）等“根技术”无法短期速成，需要多年持续的投入和积累。相较于国内外众多AI创业公司，对于技术态度始终立足于“根深才能叶茂”。

文心一言已基本做到“人有我有，人有我优，以及人有我待优”，尤其是大模型比较通用等优势能力方面，如文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等等。

我们仅以文字创作、数理逻辑推算两大核心能力为例来具体看一下。

根据李彦宏的现场演示，文心一言回答问题的准确性、流畅性已具备相当高的水准。而从“以洛阳纸贵进行藏头诗创作”“用四川话复述回复”等操作来看，在一些中国文化语境下，文心一言在问题作答，甚至是对问题进行理解延伸等方面，都较GPT-4等竞品更优。

《独角兽挖掘机》给文心一言提了两个比较带梗的问题。“宫廷玉液酒多少钱一杯？”“宫廷玉液酒的下一句？”，文心一言的回答都完全get到了。同样的问题，GPT-4则一本正经将按照白酒发酵给出解答。

文心一言更懂中文是有据可依的。

作为国内最大搜索引擎，每天接受数十亿用户的搜索请求，以及其他移动生态APP的训练，超全的知识图谱让在问答和内容生成领域享有得天独厚的优势。某种角度上，文心一言也是搜索业务的历史进阶。

此外，文心一言的数理逻辑推算表现同样令人惊喜。李彦宏介绍道，“文心一言大模型的训练数据包括：万亿级网页数据、数十亿搜索数据和图片数据、百亿级语音日均调用数据，以及5500亿事实的知识图谱。”

数据规模越大，大模型越容易发生“智能涌现”，从而逐渐形成逻辑思维和推理能力，并在答题时将问题拆分成子逐步推理。这也是李彦宏向文心一言首次提问经典“鸡兔同笼”时，文心一言甚至可以判别题目本身正确与否。

02 转守为攻，百度迎战

当谷歌、微软以及越来越多“跑步”进场的新选手们，纷纷都想要在生成式AI领域大展拳脚之时，一向低调的已悄然扭转了姿态，转守为攻，以一种更加积极的方式迎接这场新的竞技——

经过不到两个月的内测，文心一言正式上线，目前申请服务测试的企业用户就已突破8万家。

首席技术官王海峰在发布会上讲道，IT技术栈发生根本性变化即“三层变四层”，包括底层的芯片、深度学习框架、大模型以及最上层的搜索及其他应用，“文心一言”则位于模型层。也是全球为数不多的全栈布局且每层都有落地产品的公司之一。

通过“文心一言”，一方面能够让上层应用更为智能化，从而在多个产业领域落地，推动商业化从而在多个产业领域落地推动商业化，另一方面能够给予底层芯片、学习框架以用户反馈，不断优化性能。

但需要提到的一点是，李彦宏和王海峰均在发布会上反复强调，大语言模型还远未到发展完善的阶段，有赖于通过真实的用户反馈，未来会加速迭代速度。为了保证用户体验，文心一言目前采取的是“邀请测试制”，后面会逐步开放给更多用户。

就这一点看，相较于OpenAI的GPT-4，百度对创新技术的应用更加严谨。不久前，OpenAI曾在其官网中公开承认：GPT-4仍存在与早期GPT模型相似的局限性，它并不是“完全可靠的”，最新版本的GPT仍会“幻觉”事实并出现推断错误。

“在使用时应格外小心，特别是在容易出错的语境下，具体的使用规则应根据具体需求来确定，例如人工审查、加强背景理解甚至完全避免高风险使用等规则。”如果按照OpenAI这般陈述，换个说法则是人们使用GPT-4的时间成本、精力成本或并不低。

事实上，在推出“文心一言”之前，已推出了自己AIGC相关产品，如作画平台“文心一格”。从用户反馈来看，“文心一格”已做到了秒级出图，同时对硬件设备的要求也不是很高。如今，“文心一格”功能全新升级，内容生成已从图像走向了视频。

当然，无论是的文心一言也好，还是OpenAI的GPT-4，科技企业想要引领这条大模型差异之路绝非易事。

首先是高昂的现实成本。语音大模型的训练阶段大致分为三个：人工“投喂”数据进行标注；类似于奖励模型，对输出的内容进行排序和比较；强化学习，利用上一阶段的内容升级。每一阶段都是“烧钱”换来的，极高的资金门槛无形隔断了绝大部分企业。

其次是待破的技术难关。通用AI必须具备更强的认知智能，这是目前制约AI取得更大突破、更广泛应用的瓶颈，而NLP正是认知智能的核心。

不少业内人士认为，深度学习是经验主义的一个新高峰，而这个领域的“低枝果实”总有摘完的一天。深度学习的下一个大的进展，应该是让神经网络真正理解内容，而唯有啃下更难啃的NLP等一些基础研究，才能让AI真正产生质变。

03 为什么说百度难复制？

作为国内搜索行业中的头部企业，如今的已从过去较为单一的搜索业务不断扩围至内容信息、智能硬件、智能云服务、自动驾驶等更广泛的业务领域。如果按照规划“文心一言将被整合至多个业务板块之中”，那这势必将为带来更多想象力。

文心一言发布会后，不少行业人士将“率先”“创新”“突围”等溢美之词送给，但在这些评价的背后，市场更看重的是那些被称之为“内驱力”等方面的东西，因为这才是一家企业跨越周期、实现进阶的核心引擎。

有这样几组关键信息值得特别关注——

一来，早在十几年前，就已在AI研究上不断加码，主张压强式、马拉松式研发，近十年研发投入累计超过千亿元。2019年，推出了文心大模型ERNIE 1.0，时至今日，最新一代的ERNIE 3.0单日响应数十亿搜索请求，和其他移动生态APP的大量训练。

二来，基于的技术能力，生态外客户及伙伴对于文心一言生态拥有较强的市场认知。据发布会上的数据，短短一个月内，已有超过600家合作伙伴（其中不乏蓝色光标、掌阅科技、软通动力等知名上市公司）宣布加入其中。这为文心一言未来商业化奠定了坚实的基础。

三来，文心一言的定位是人工智能基座型的赋能平台，换言之，创新的意义并非只是为自己打造出一颗推动新增长曲线的“卫星”，而是希望做千行万业的“陪跑者”，通过技术输出带动“独创新不如众创新”，进而创造出更多的社会价值。

中信证券预计，“文心一言”在短期仍将聚焦迭代升级。中期维度，根据此前公司副总裁沈抖披露，公司预计在5月在云平台开启相关API的调用，后续商业化的前景值得期待。

随着AI创新不断深入，全球科技产业正迎来一场前所未有的巨变，在这波技术浪潮中，语言大模型成为了新的引擎。文心一言等大型预训练模型的问世，让人们见证了AI在NLP、CV等多领域所取得的重大突破。

更深一层涵义上，这场变革已不仅仅局限在技术层面，或多或少正在重塑人类与机器之间的关系。AIGC大航海时代已全面来临。

企业,数据,产品,全民,技术,宫廷,模型,问题,领域,文心一,文心,模型,李彦宏,OpenAI,王海峰

相关文章