·“大模型是产品。单一的大模型技术本身无法直接产生价值,技术只有放到场景里才能产生实际价值。如果达不到提升效率、改善体验、降低成本这样的效果,大模型始终只是一个玩具。”
京东集团技术委员会主席、京东云事业部总裁曹鹏。
7月13日,京东发布千亿级大模型“言犀”,支持语言、语音、视觉、多模态等,融合70%通用数据与30%数智供应链原生数据。京东表示,言犀大模型具有更高产业属性、更强泛化能力、更多安全保障,将深入零售、物流、金融、健康、政务等知识密集型、任务型产业场景,解决产业实际问题。
京东集团技术委员会主席、京东云事业部总裁曹鹏表示,京东云实施“分步走”策略,基于内部实践构建通用大模型,经由高复杂场景大规模淬炼迭代,最终将大模型能力向真实商业场景开放。
数智供应链原生数据集提供差异化的模型能力
据京东云介绍,“从供应链中来,到产业中去”是其宗旨。言犀大模型源于产业、服务产业,融合70%通用数据与30%数智供应链原生数据。这也意味着,完成了“通识教育”的大模型,在30%数智供应链原生数据的训练下,拥有了大模型的“智商”。
曹鹏表示,用京东原生数据集训练大模型,带来了商品推荐、金融政策、理财规则、物流体验等领域的能力。相对于标准的通用大模型,京东的大模型对于零售、健康、物流、金融有更深入的理解。“数据集上的差异可以让京东在擅长的行业里提供差异化的模型能力。”
“对其他企业来讲,大模型是产品,从一开始就会考虑大模型用什么形式对外提供服务。对我们来讲,大模型是工具,我们想的是怎么产生价值,再进一步对外提供服务。”曹鹏表示,京东围绕供应链布局所有技术研发,技术对京东来说是工具、手段,而非目标。
他认为,单一的大模型技术本身无法直接产生价值,技术只有放到场景里,才能产生实际价值。如果达不到提升效率、改善体验、降低成本这样的效果,大模型始终只是一个玩具。“我们一直在寻找在哪些产品、哪些系统、哪些场景里能够真正把大模型用起来。现在大模型已经从探索研究院走出来了,变成京东集团的底层能力。”
京东集团技术委员会主席、京东云事业部总裁曹鹏。
据介绍,基于大模型,京东物流发布了“京东物流超脑”,针对供应链全链路提供辅助决策、运营优化以及一线作业智能助手等能力,实现降本增效。针对仓库布局问题,在模型中输入今年“双11”大促的布局堵点,系统经过分析会回复效率堵点为地狼货架数目不够,建议增加货架。这极大减少了传统方法花在调研、分析、测试上的成本。在电商营销场景,京东云“优加”AIGC内容营销平台可以更好地理解商品特征,从而帮助商家自动生成商品文本、图片等营销素材,提升商家营销工作效率。
与此同时,京东云表示,言犀大模型开放计算平台沉淀了京东在零售、物流、健康、金融等行业多年积累的知识,通过算法工具集成到平台,并部署了京东技术团队开发的100多种训练和推理优化工具,结合低代码应用平台,为客户提供从数据建设到模型应用的一站式服务。不到一周时间,用户即可完成从数据准备、模型训练到模型部署的全流程。之前需要10余人的科学家团队工作,现在只需要1-2个算法人员。通过平台模型加速工具优化,节约90%的推理成本。
探索无缝结合大模型和小模型达到最佳效果
据京东云介绍,实际上,该公司2021年就推出了10亿级大模型K-PLUG,为京东零售3000多种品类累计生成商品文案30亿字,人工审核通过率超95%;2022年,百亿级大模型Vega推出,服务京东物流一站式数智化供应链数据管理平台,助力企业降本增效;2023年,千亿级大模型言犀链接京东健康大模型应用平台,覆盖全流程医疗场景,积累超3000万高质量数据、百万级节点医学知识图谱。
“我们希望提供的是一个可用且好用的模型,而不是单纯强调参数。”曹鹏表示,京东开发大模型并非“秀肌肉”,京东内部使用的大模型包含了10亿参数、百亿参数和千亿参数模型,但用得最多的是百亿级大模型,它能够平衡模型的精度、性能和成本。
“我们并不一味强调用一个千亿参数大模型去覆盖所有应用。”曹鹏表示,在严肃的商业场景里,如果大模型在智能客服中回答错误或是客群筛选不精准,就会导致巨大损失。所以要探索无缝结合大模型以及经验模型、对抗模型等小模型,既利用大模型的泛化性、逻辑性优势,又使用原有的小模型,不同模型承担不同职责,真正达到最佳效果。
“原先,不同客服针对不同类目的商品会调用不同的模型做回复,现在用一个大模型就可以完成基础的语义理解和多轮对话。但要回答一些具体问题,比如商品保修政策、售后体验等,就不用大模型,而是需要精度更高的小模型,这个时候我们就会进一步调用小模型,回答客户的问题。”
曹鹏表示,随着未来算力进一步提升、成本不断下降,千亿级大模型的训练和推理成本也会下降,响应速度更高。大模型的盛行也导致算力需求猛增。曹鹏说,2021年京东在重庆组建了天琴α超算集群,900个机柜服务器在重庆广阳岛上持续运转,算力充裕,为超级深度学习、可信人工智能、量子机器学习提供算力支撑。