图片来源@视觉中国
“未来十年,计算机架构领域将迎来下一个黄金时代”,当2017年图灵奖获得者David Patterson与John Hennessy提出这一观点时,很多人还没有认识到潜藏在背后的巨大变化。
自上世纪90年代到21世纪初,计算机体系结构创新开始放缓,随之摩尔定律和登纳德缩放比例定律遭遇挑战,处理器性能提升显著减速,简单来说,算力的增长和大数据、人工智能等新业务增长并不同步,只能靠堆芯片数量来弥合算力缺口。
于是,行业已经不得不开始重新思考新的计算机架构。
David Patterson在接受采访时表示,“未来一定是软硬协同开发并行的。从前,人们认为做软件很酷,少有人两者都涉猎,硬件创业公司也屈指可数。然而近年来从业者和投资人们都发现,无论是做机器学习还是之后深度学习、强化学习,只做软件或者硬件都是不够的。体系结构设计者不仅需要了解底层器件、芯片工艺等,更需要了解编译器和编程语言,软硬结合才是后摩尔时代适用的新方法。”
同样的变化也发生在云计算领域,通过虚拟化技术,云计算把计算机抽象为资源池,通过削峰填谷的运营策略获取规模效应,不过这并没有从根本上解决算力的挑战。
成千上万的计算机、数十乃至上百个数据中心连接在一起,构成了以云为中心的计算体系结构,逐渐成为行业采用算力的主流方式,也给了云厂商前所未有的全局视角,从这个视角看云,某种程度上,云就是一台超大型计算机。
相对于计算机本身而言,云囊括了更多的软硬件,向上对接各种行业应用,向下推动硬件变革云厂商具备了更大的话语权,掌握了更多的技术主动权,来提升面向复杂业务负载的处理能力。
云也进入到了一个体系创新的黄金时代。
十余年前,云计算刚刚兴起,把服务器集中到云厂商,再由云厂商提供云服务,只是商业模式层面的创新。因此,云计算彼时只是一门规模生意,但考虑到万亿算力产业规模,仅仅是从提高计算利用率的维度评估云的商业价值,也足够值得一搏,何况亚马逊已经做出了表率。
在旧有的技术体系下,虚拟化、网络和存储等技术基本成熟,让云的商业模式成为可能。有观点认为,这些降本增效的创新,即便没有云计算,也会通过另一种方式兑现。
比如计算机技术依旧向前发展,体系创新带来更大的算力、更高的投入产出比,没有云计算,算力也能继续增长。
以过去的视角来看,云计算确实没有革命性的改变,但是,云计算通过这些过程完成了技术的集聚,原来不同软硬件技术分散在不同的主体,有聚合却难同频进化,云计算历经十年完成了体系创新的前期准备,从商业模式创新过渡到技术模式创新。
一个全新的商业模式可以改变产业竞争规则,云计算行至新的阶段,开启了算力增长的另一条路径。
在百度集团副总裁侯震宇与钛媒体联合创始人刘湘明的对话中,侯震宇提到,对于中国的云计算厂商来说,现在确实是一个战略的发展期,过去几年众多客户都已经加速上云,更多关注自己本身业务的逻辑,他们就把基础的软硬件环境全部交给了云服务厂商。
这意味着云厂商其实同时掌握了基础的软件和硬件环境,可以做软硬一体的优化,加速整合变成了可能。另外,云厂商的资源规模越来越大,逐步地影响了整个IT的产业链和供应链,云是IT行业最旺盛的需求,在软硬一体的大背景下,新一代以云为中心的计算体系结构逐步涌现。
诚如侯震宇所言,云厂商左手行业需求,右手技术创新,形成了技术到业务的产业循环,云成为计算产业的一个中心环节,也面临着最严峻的产业挑战。如果还用老一套的方法做云计算,不从根本上提高云的效率和质量,就会在下一次行业洗牌中最先被淘汰。
如今的云,是一朵未被定义的云。头部云厂商都看到了体系创新的大机会,也试图定义未来的云的模样。
有趣的是,计算机体系结构的创新和以云为中心的计算体系创新,正在同步发生,尤其在人工智能领域,专用硬件和深度学习算法等快速发展,David Patterson也认为,对新的计算机体系架构和语言来说,对算力要求极高的机器学习或许是最适合的应用场景。
云智一体的体系创新,是一个具有高度确定性的机会。
企业上云的动力由商业层面进化到业务层面,过去企业上云是为了不用采买服务器,快速开展业务,他们的出发点就是为了降本增效,而现在的企业上云,当然也会考虑成本,更重要的是,他们不是把降本增效当做最终的目标,而是优先从业务角度思考,云计算能带来传统IT不能实现的价值。
企业通过上云实现了业务的改造,摒弃了传统低效、缓慢的业务模式,特别是大数据、人工智能赋能业务之后,业务具备了以往没有的属性,典型如智能调度、自动驾驶、工业化联网等智能化产业应用的不断普及,这是“人有我优”和“人无我有”的差别。
所有企业都希望拥有“人无我有”的业务能力,由客户需求传导至供应商竞争维度,决定了云厂商“卷”的方向。侯震宇认为,云计算行业基本上从过去“卷”算力的时代,发展到了一个拼智能的时代,百度开始用整个基础设施的能力和人工智能的能力为行业客户加成。
在2022智算峰会上,百度智能云发布了AI大底座,它涵盖了百度昆仑芯,飞桨AI框架以及文心大模型等核心能力以及百舸平台,AI中台等平台方案,实际上就是云智一体的体系创新。
具体来看,百度AI大底座的AI IaaS层整合百度自研的AI芯片“昆仑芯”,在AI计算、存储、加速、容器方面进行系统优化,提供高性价比的算力,承载海量数据的处理、超大模型的训练和推理。
在AI PaaS层(AI中台)整合百度两大核心自研产品(飞桨深度学习框架、百度文心大模型),打通百度的样本中心、模型中心、AI开发平台、AI服务运行平台,实现从数据存储到模型训练、生产、部署、测试的全链路、批量化生产,面向企业模型开发的全生命周期提供完整解决方案。
百度AI大底座聚齐了人工智能应用的全要素,并且将这些全要素深度耦合,如果只是简单的产品兼容,市面上其他产品或多或少都能拼凑出一个AI底座,百度AI大底座的所有部件均为自研,这就给了百度非常大的施展空间和自由度,来实现端到端优化。
百度AI大底座能够全要素、端到端的整合百度的AI优势,为产业提供最强的智能计算基础设施支持,满足产业对于低门槛、快速部署等智能计算需求。
在客户的现实需求,以及行业增长压力的驱动下,体系创新成为计算行业的潮水涌向,百度智能云的云智一体,踩准了产业发展的周期与节奏。
“云智一体,深入产业”是百度智能云的战略,在百度智能云看来,创新不是闭门造车,是反馈驱动创新。创新需要躬身入局,深入产业,不断获得用户和客户的反馈,然后倒逼产品和解决方案不断优化,不断创新,让客户越用越好。
从中可以看出,百度智能云试图建立一个能够持续反馈并不断进化的云,AI大底座源自于百度在产业界的打磨,之后端到端的AI能力进一步沉淀到AI大底座中,AI大底座必然要在产业中兑现价值。
例如国网福建通过百度AI大底座建设了“两库一平台”智能基础设施,“两库”指模型库、样本库,“一平台”指包含运行环境和训练环境的人工智能平台。
在巡检一线,无人机可自主完成输电线路巡检作业,并将智能识别后的巡检结果快速推送给相关责任人,基于AI的智能识别算法将识别准确率提升了30个百分点,识别效率提升了5倍;在变电站,运维人员从线上接入智能调控系统,采用“一键顺控”操作,无需人员到场便可完成千伏变电站的倒闸操作,效率提升了40—60倍,启动送电时间缩短了80%。
基于与百度智能云的合作,国网福建电力有望实现全链条国产化AI基础能力建设,构建科学系统的人工智能管理和应用体系。
在AI大底座深入产业的实践中,芯片解决算力问题,框架解决算法开发问题,大模型解决模型泛化问题,应用解决落地收益问题,是为全要素。
仅仅只是物理覆盖全要素还不够,还需要多层之间深度融合,产生化学反应,进行端到端的整合优化,例如建立效果反馈的闭环机制,通过模型驱动算子优化、算子驱动硬件设计,更好的提升整个系统的性能,是为端到端优化。
如上所述,包括国网福建等企业,智能化升级的全要素都可以在AI大底座找到,每一层能力都可以基于真实业务反馈,不断调优实现智能云的体系创新,这是百度云智一体的最大差异化。根据咨询机构IDC最新的数据,百度AI Cloud市场占有率连续七次市场第一。
在云计算技术创新百花齐放的阶段,企业往往要自我搭配技术并耗费人力资源来实现智能升级,但是效果依旧不尽如人意,百度智能云AI大底座能够实现更好地循环迭代,让云智一体在深入产业的过程中,不同技术能力更加可控,进而让企业实现掌控业务的效果。
云的体系创新,让云计算从狭义上的技术进步,成为广义上的体系革命,在技术和场景之间承前启后,蔓延到整个产业。以制造业为例,通过人工智能去重新赋能传统产业,是跨越不同技术和产业的周折,仅靠单点无法实现产业重塑,云智一体给产业界提供了全新的抓手。
就像两位图灵奖获得者在报告中所提及的——“黎明前最黑暗”,数字经济时代,所有产业都正在或者即将经历类似的智能迁移,云智一体时代的体系创新,仅仅是开始。