3月16日,百度自研的大语言模型“文心一言”正式亮相。百度董事长、CEO李彦宏在发布会现场表示,这是全球第一个直接对标ChatGPT甚至GPT-4的产品,尽管初期的使用体验或许并不完美,百度还是坚持发布,一大原因是考虑到市场的需求。
据百度官方数据,至今已有650家客户宣布接入文心一言生态。
3月16日起,文心一言即进入邀请测试阶段。首批用户可通过邀请测试码,在文心一言官网体验产品,更多用户可后续陆续加入。
此外,百度智能云即将面向企业客户开放文心一言API接口调用服务,3月16日起正式开放预约。
在发布会上,李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成这5个场景下的表现。
(图源/百度)
在展示的demo中,文心一言对影视文艺作品、鸡兔同笼等问题能够“对答如流”。李彦宏称,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等,这让文心一言具备较强的中文理解能力。但同时,目前文心一言对英文语种、代码场景的训练还不够多,表现还有待提升。
值得一提的是,输入文字描述后,文心一言能够生成图片、语音、文字三种模态的内容。比较之下,OpenAI最新推出的GPT-4支持输入图片和文字,但只能生成文字。
在AI领域有一个“数据飞轮”的概念,也就是说:使用更多数据可以训练出更好的模型,吸引更多用户,从而产生更多用户数据用于训练,形成良性循环。这也解释了百度代表的互联网大厂们涌入AI大模型领域的原因。
不过,就像李彦宏在会上说的:“在AI技术发展的过程中,一大趋势是从判别式AI向生成式AI发展……无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,没法速成。”
如果说ChatGPT、文心一言开启了一波NLP(自然语言生成)大模型的产业浪潮,那么面向未来的技术深化、商业化落地等种种挑战,AI企业们要走的路还有很长。(作者|市界 董温淑,编辑|董雨晴)