垂直大模型和通用大模型,究竟哪条赛道能够通向终极人工智能的“罗马城”,答案或许是——条条大路通罗马。
基于大模型的现代农业模型。(视觉中国供图)
“万模群舞”或在不远的将来
无论是何种类型的大模型,在“百模大战”的背景下,其功能、用途、场景的重复都无法避免。但在业内人士看来,大模型的发展还远未触及天花板,不仅“百模大战”不是终点,“万模群舞”或许就在不远的将来。
“大模型的研发是一个拼细节的过程。从技术路线上看,目前各家基本上都是基于Transformer架构来做,方法很类似,但效果确实不一样,决定成败的是细节。”腾讯有关负责人接受采访时说,由于资源投入程度、细节把握程度的不同,最后不同产品的差异会逐渐显现。“从应用领域来说,会迎来一个‘百花齐放’的场景,比如有的专注于自然语言处理,有的专注于医疗领域,有的专注于教育领域等。就目前而言,大模型的天花板还远远没有触到,技术体系和应用场景都在不断演进。”腾讯有关负责人说。
无论是“百模大战”还是“万模群舞”,要避免低水平的雷同复制,杜绝“重复造轮子”带来的资源浪费,关键仍在于不断丰富大模型的应用生态。今年5月,国际期刊《自然》发表了一项百度在生物计算领域的突破性研究成果,其提出的mRNA序列优化算法LinearDesign,对生物医学领域创新具有重要价值,这也是中国互联网科技企业首次以第一完成单位的身份在《自然》正刊发表成果。而在这背后,是百度在2022年5月便推出的“文心”生物计算大模型。借助大模型,人类能够快速找到并设计出活性更好、性质更优的候选药物分子,从而大幅提升新药研发和疫苗设计效率,让新药研发从单点突破的“手工作坊”阶段进入到规模开发阶段。目前,基于“文心”生物计算大模型和飞桨深度学习框架搭建的面向小分子、大分子和RNA的药物设计平台——飞桨螺旋桨PaddleHelix,已经应用于超过30家医药企业。
“无论是从技术层面还是产品层面,百花齐放、百家争鸣对于当下大模型发展都更加有利。算法研究阶段可能五花八门,但到工程选型阶段,可能会逐渐聚焦到一个或少数几个类型。而到了具体产品选型层面,面向不同市场、不同行业,产品形态可能又是多种多样的。”清华大学计算机系教授唐杰认为,无论哪种大模型都有各自的局限性,各种模型互相学习、竞争,在市场中大浪淘沙是必经之路。
中国移动“九天”AI酷玩体验站。(视觉中国供图)
基于大模型的住院医生站管理系统。(视觉中国供图)
给大模型发展更多耐心
“百模大战”虽然激发出了更多可能,但也带来了不少负面影响。当众多厂商蜂拥而上大模型时,参差不齐的产品让人眼花缭乱,其中暗藏的法律、道德风险也应引起人们的警惕。
例如,在面向公众的大语言模型产品中,“一本正经胡说八道”现象已经多次引发质疑。“我们常说大模型会产生‘幻觉’,就是因为大模型的内容准确性还不高、专业性能力不足,如果大模型产生的内容直接公开在互联网,会使当前良莠不齐的互联网信息质量更加低下。”方炜认为,大模型目前在内容安全、版权、主体责任等方面还存在多种风险。
而当深入到具体行业时,不同行业的不同特点也对大模型在准确度、安全性、专业性等方面提出更高要求。360创始人周鸿祎接受采访时表示,虽然公开的大模型是通用的,甚至是万能的,但是当深入到具体行业时仍然面临着缺乏行业深度、不懂企业内部知识、易导致企业内部数据泄露、无法控制成本等问题。方炜也同意这种说法:“例如大模型应用在通信网络保障方面时,就不允许有任何差错,目前准确性还有待提升。”
除了目前大模型自身仍然存在的缺陷,随着竞争的逐渐激烈,我国在相关数据、算力、算法等方面的困境也逐渐暴露。
例如,在训练数据方面,唐杰指出,目前我国的数据开放态势并不强,“大多数机构还是想把数据握在自己手里”。但唐杰也坦承,即使机构有数据开源的意愿,在目前环境下,仍然存在多重风险。他建议,我国关于大模型训练数据应用、开源的相关法律法规还需要进一步细化、健全,让有开源意愿的机构能够放心地进行数据开源,充分激发互联网精神。
而在算力方面,“百模大战”对算力的高需求也让我国本就紧张的算力资源更加捉襟见肘。在“东数西算”基础上建立起的算力互联网或许有望成为解决这一问题的答案。通过对不同地区的算力资源进行调度,实现算力资源的均衡分配。但目前仍然需要在高带宽、低延迟的算力网络建设方面突破更多技术瓶颈。
如果说数据和算力是大模型的硬件“基础设施”,算法则体现着更多“人”的因素。小冰公司首席执行官李笛认为,就训练大模型而言,参数的数量并不是最重要的,工程化过程中的调优才是真正的考验。“研发、训练一个大模型可能只需要一个月,但调优可能需要一年的时间。这个过程格外需要谨慎、细致、耐心,有足够的定力和专注力,也是一种‘工匠精神’的体现。”
耐心,是谈及大模型发展时多位业内专家反复提及的关键词。“大模型不是把数据‘喂’进去,算力一跑就有了。这其中有许多复杂细致的工作要做。”唐杰表示,人工智能自20世纪50年代被提出至今,其发展已经历过多次起伏,任何技术的发展都不是一蹴而就的,要对其有充分耐心。