·“大炼钢铁的阶段基本上接近尾声。但在大模型真正进入产业化应用时,仍然需要持续的算力消耗,尽管这种消耗可能与训练机器不太相同。对应的服务能够开放出来后,除了训练机器之外,对推理算力的需求将越来越大。”
·“上海超算中心作为上海市的公共服务平台,我们的能力可能有限,但我们更多地致力于建立接入和调度的标准,让更多的商业公司、科研单位和市民都能够轻松方便地接入算力资源。”
ChatGPT推动全球爆发新一轮人工智能热潮,以大型语言模型为基础的生成式人工智能被看作堪比蒸汽机的技术驱动器。新的AI淘金时代来临,“卖铲子的人”赢得前所未有的关注,从算力、算法到数据、网络,机遇与挑战并存。
7月6日,澎湃科技(www.thepaper.cn)邀请上海超级计算中心主任李根国和百度飞桨产品团队负责人赵乔,共同探讨大模型基础设施的机遇与挑战。本场对话由澎湃科技记者邵文主持,在一个小时的对话中,嘉宾们讨论了多个相关问题,包括:
为什么AI大模型的计算成本如此高,有哪些方法能够降低成本?
算力短缺会持续多久?算力调度的难点在哪?初创公司如何配置AI技术设施?
……
如何确保“铲子”质量锋利和坚固
澎湃科技:目前有一个非常热门的话题,即AI模型的计算成本非常高。我们可以用通俗的方式向大众解释一下为什么AI大模型的计算成本如此高,现在有哪些方法能够降低这些成本?
李根国(上海超级计算中心主任):首先,人工智能的发展经历了很长时间,从20世纪50年代开始提出概念,经历了多次热潮。我们认为ChatGPT的出现是人工智能领域革命性的突破,因为过去的工作更多是基于特定领域的知识和数据,比如计算机、化学、物理或生命科学等。然而,ChatGPT的出现打破了领域限制。尽管它是一个语言模型,但实际上可以在各个领域中使用,这是一次革命性的突破。在它之前,人工智能并没有形成一个标准的理论。但是有了ChatGPT,可能会引发人工智能理论的产生,因为它突破了特定领域的发展。
然而,GPT模型的训练需要强大的计算能力支持。训练大模型需要使用数千张图形处理器(GPU)。目前,人们认为起步的必要条件是至少3000张GPU,而未来可能会有更高的需求。英伟达的A100 GPU性能指标是320 TFLOPS,因此,为了获得100 PFLOPS的计算能力,需要使用300多张A100 GPU。(注:1TFLOPS等于每秒万亿次浮点计算,1PFLOPS等于每秒千万亿次浮点计算)
此外,训练这样的大模型需要一个周期,可能需要一个月的时间。在这一个月的时间里,机器的能耗将非常高,例如可能达到一兆瓦。也就是说,仅仅训练一个大模型就需要数百万元的电费。
当然,这只是起步阶段的训练成本。在训练完成后,还需要不断迭代和更新模型,这也需要大量的算力和电力支撑。
赵乔(百度飞桨产品团队负责人):开发一个大模型的过程,就像是小朋友读书一样。我们会设置一个非常庞大的神经网络,然后让神经网络通过学习大量数据来获得较好的效果。这个过程需要较长时间,同时也会消耗大量算力和电费等资源。
此外,数据的存储是一个额外的成本。就像小朋友阅读得越多,变得越聪明一样,人工智能模型也需要更多的数据来提高效果,这对数据存储提出了很高的要求。
另外,计算量增加意味着使用的(人工智能加速)卡数增加。当你将模型扩展到更多的卡上时,要确保能够达到与单卡相同的效果是相当困难的。这涉及到稳定性和线性加速比的问题。同时,由于集群规模的增大,可能会出现卡的损坏或掉电等问题,因此需要确保训练过程的持续稳定性。
为了降低这些成本,我们在硬件和软件层面都做了很多工作。在硬件方面,我们从集群设计和网络调度等方面进行优化,以降低成本。在软件层面,特别是在深度学习平台和框架方面,我们采取了许多方案来降低成本。例如,通过压缩模型尺寸大小来获得与大模型相当的效果,采用量化压缩等工具。这些工作都是为了降低训练成本。
李根国:除了算力需求,数据的质量也对训练效果和计算成本有影响。通过对数据进行预处理和提高算法平台的完善程度,可以提高训练效率,从而节约算力。
澎湃科技:当前大型AI模型对AI基础设施提出了很多要求。在AI基础设施的发展中,存在哪些明显的瓶颈?
赵乔:飞桨作为深度学习平台,也是AI开发的基础设施,这些年与国内外不同的算力基础设施的机构有过合作。
首先是互联网公有云服务提供商,他们需要花费大量资金购买硬件设备,例如英伟达的设备。然而,他们当前面临着供不应求甚至算力供应短缺情况。但实际上公有云的价格相对较低,甚至存在激烈的竞争,所以他们面临的挑战是如何持续降低成本并提供更好的算力服务。
其次是超算中心,它们通常服务于国家的重大战略任务,主要关注高性能计算等经典领域。在AI时代,面临的挑战是如何将传统的超算集群转变为能够支撑AI任务的智能计算集群,这里包括体系结构和软件平台的大量升级工作。我们正与国内的许多超算中心合作,以提升和改进这一点。
此外,还有一些大型企业会自建AI基础设施,除了一次性投资外,后续的运维和有效使用这些设备也可能成为瓶颈。
还有一个重要的挑战是,随着大模型尺寸的增加,对数据和算力的需求也越来越大,传统的单点式算力发展可能无法满足未来的需求。因此,实现广泛的算力互联互通是非常重要的,但在实现互联互通之后,如何高效地进行调度以及支持应用开发也是具有挑战性的工作。
李根国:根据直播的主题,我们可以将自己比作是卖铲子的人。作为卖铲子的人,我们必须确保铲子的质量非常锋利和坚固。所以我们要把算力做得既好用,又有价值,同时成本也低,以便在算力市场上占据地位。
因此,从算力的角度来看,我们需要突破核心技术和发展。首先,核心技术之一是算力的互联技术。这意味着我们需要将上百张卡片连接在一起,共同完成一个任务,而不是将任务分配给每个卡片。互联技术在这方面起着关键作用。然而,美国对我们施加限制,如禁止我们使用从A100到A800的卡片,限制了我们的互联核心能力。他们限制了我们的带宽不能超过每秒400G,包括H系列卡片在内。因此,要在算力方面取得突破,首先需要突破互联技术。
其次是芯片技术,即用于人工智能的芯片。大家通常看到的是算力卡,算力卡插在服务器上。如果一个服务器插满了8张卡,1张卡的功耗可能是700千瓦,那么单台机器甚至可能达到6000千瓦。根据以前的IDC(互联网数据中心)标准,一台机器就占据整个机柜的功耗,之前一个柜子里至少可以容纳10台服务器,但现在只能容纳1台。现在有另一种方法即水冷技术,利用水冷可以使机柜的功耗降低,那么就可以容纳6-8台机器。因此,我们需要突破传统服务器和机柜的技术,实现更高效的利用空间。
第三个核心技术是软件。在人工智能领域,软件体系非常重要。我们需要有适用于人工智能和大数据的软件体系,以便训练大模型并在各行各业中应用。但互联技术、芯片技术等底层技术仍然不是我们的。如果我们不能突破这些技术,我们只能作为应用方来使用别人发布的大模型,并将其应用于各个领域。国家机构对这些核心技术非常重视,因为底层技术的突破至关重要。
“大炼钢铁的阶段基本接近尾声”
澎湃科技:对于AI基础设施的成本变化趋势,两位有什么看法?哪些方面的成本有望降低,哪些方面的成本难以降低?
赵乔:我国底层的AI基础设施特别是大模型方面,对国外依然有较多依赖。然而,我们也看到了很多好机会。例如,国内的芯片厂商在人工智能支持产业应用方面取得了快速发展。我们正在与国内的许多芯片厂商合作,进行与大模型相关的软件联合技术攻关工作。在这方面,我相信我们核心底层技术的成熟将持续降低成本。
李根国:当前IT行业面临的一个重要问题就是成本居高不下。其中一个重要原因是芯片的发展。芯片发展到7纳米或更低的技术水平,其研发和生产过程成本非常高。另外,软件开发需要大量的人力投入。例如,在构建配套的软件体系时,可能需要数千人参与。所以软件方面的人力投入、硬件设施的投入以及计算机运行过程中的电力投入,都是不可避免的。
从效率的角度来看,我们只能通过提高整个计算机运行的效率来降低成本。传统计算机的CPU(中央处理器)使用率往往很低,大部分时间处于等待状态,读取数据的过程浪费了很多电能。现代计算机体系架构发生了一些变化,例如GPU的趋势,以及一些新的计算方法,此外,现在也期待量子计算机能够带来一些革命性的变化和计算效率的巨大提升。然而,量子计算机目前只在特定行业具有一些应用,并且距离普遍应用仍然需要很长的时间。
澎湃科技:两位在实践过程是否遇到了由于算力短缺和算力价格的提升,带来的算力价格上涨情况?
李根国:我们直接碰到了算力短缺和价格上涨的情况。以前的超级计算机主要面向科研服务,价格相对普惠。而现在,因为人工智能的发展,特别是大模型的出现,对算力的需求急剧增加。人工智能面向市场和企业应用,大家都在追求大模型。我们以前可能有一些卡,基本上满足需求。但现在明显感觉到需要排队,可能排队的人数是正在运行的十倍以上。大家都需要卡来训练自己的模型。虽然小规模的算力需求并不一定是训练大模型,但广泛应用的需求也推动了算力需求的增加,从而推高了算力的价格。
赵乔:我们对算力的消耗和需求非常旺盛,也遇到过类似的情况。
一方面,从供应的角度来解决问题。比如说,更多类似的供应商能够提供同类型的解决方案;另一方面,如何充分利用现有设施来降低成本,我们也正在寻求一些技术手段来解决这个问题。例如,由于大模型的发展,过去半年内开源领域发生了非常大的变化。现在有许多新的方法和策略,可以降低大模型的训练成本。而且,我们也提供了一些在深度学习框架层面的技术,从这些角度来持续降低成本。
澎湃科技:预计这种算力短缺会持续多久呢?
李根国:目前是训练大模型的高峰阶段,预计今年年底会逐渐下降。因为大模型基于现有的大数据进行训练,一旦模型训练完成,需求可能会稍微减少。更重要的是,我们需要解决如何在各个领域中应用这些模型的问题。大模型的独立训练可能会暂时告一段落,接下来会在各个领域形成自己的专有应用。
赵乔:大炼钢铁的阶段基本上接近尾声。但在大模型真正进入产业化应用时,仍然需要持续的算力消耗,尽管这种消耗可能与训练机器不太相同。例如,随着生成式人工智能应用政策的明朗,对应的服务能够开放出来,除了训练机器之外,对推理算力的需求将越来越大。这将是一个重大的变化。此外,除了基础的大模型训练外,后续可能会有更多的行业大模型出现。
此外,人工智能与科学问题的结合也是一个巨大的机会,例如与经典的计算流体力学和制药领域结合。但是“ChatGPT时刻”什么时候会到来,我们也不知道。因此,如果这个领域的“ChatGPT时刻”到来,预计会有更多的算力需求。
李根国:这个就是之前一直在说的AI for Science,以前,科学研究主要依赖于传统的超级计算机进行推理,例如解方程等。但现在,人工智能更多地用大数据解决问题。其中,生命科学领域包括与人们直接相关的医疗领域,是应用最广泛、推动力最大的。通过人工智能方法,生物医药等领域可能会实现突破性的发展。
在科学研究中,人工智能的应用被视为一种新的范式。过去,人类研究主要基于实验,后来发展到理论,再然后逐渐发展为计算。而现在,我们能够基于数据,更多地基于人工智能进行研究,进入了智能范式阶段。在这个阶段,我们的研究手段发生了根本性的变化。
“更多算力投入需要依靠商业公司”
澎湃科技:此次引发人工智能热潮的GPT不仅仅是大众的热潮,也是创业潮。对于在人工智能领域创业的初创公司,他们如何配置AI技术设施,能否给一些建议或原则性的思路?
赵乔:首先,针对大模型的研发方向,有些偏底层研发,有些偏应用研发,不同的创业团队选择的路线和技术手段可能不同,因此对算力的配置需求也会有所差异。如果是基于大模型的基础研发,算力需求肯定很高,可以按照前面提到的数据进行估算。但如果是应用型的公司,现在经过半年多的技术快速发展,它们不需要从头开始训练自己的大模型,可能会基于开源或商业模型进行一些小的改造,并结合自身的数据来获得不错的效果。这样的话,对算力的需求就不像做基础大模型那样高,配置起来相对轻松一些。
此外,初创企业也可以直接围绕以文心一言为代表的大模型服务构建自己的业务,如果直接使用这些能力,成本会进一步降低,比之前提到的自己训练模型的成本更低。因此,围绕国内的大模型开发上层的AI应用也是一个值得考虑的方向。
可以说,目前对于中国来说,这是一个机会无限的时代,各个领域都有发展的机会。从农业时代到工业时代,直接进入数字化信息化的时代,创业机会非常多。例如无人驾驶在城市道路和农业方面的应用,智能工厂等在不同领域都有广阔的发展空间。作为计算机行业的人,有更多的机会,因为在大模型发布后,大模型在各个领域都有应用。
澎湃科技:文心一言是现在关注度非常高的一个大模型。我们想知道百度飞桨和文心一言之间是怎样配合的,有什么样的逻辑关系?
赵乔:现在,人工智能技术软件栈的结构与以前的操作系统或通用计算相比,发生了较大变化。从百度的角度来看,我们定义了四层架构:芯片、框架、模型和应用。这四层之间密切配合,并相互产生一些化学反应。具体到框架层和模型层,指的就是飞桨深度学习平台和文心一言。一方面,整个文心一言的开发过程,包括从最初的模型训练到工程化上线,都需要飞桨的技术。我们有许多技术来支持文心一言的高效开发。因此,在支持文心一言的研发和产品化工作方面,我们密切合作。另一方面,由于文心一言的迭代速度很快,有许多创新需求进一步反馈给飞桨团队,因此飞桨也需要不断进行研发工作。双方互相补充,不断向前发展,这是一个持续的过程。
澎湃科技:在这波生成式AI热潮中,上海超算中心在上海占据非常重要的位置。那么接下来上海超算中心会有什么规划?如何赋能上海的人工智能产业集群的发展?
李根国:上海超级计算中心作为政府支持的公共服务平台,我们的建设是通过政府拨款支持的,所以我们的算力规模不可能非常大,政府的财力有限,我们提供的是普惠的服务,只能是引导性的。更多的算力投入需要依靠商业公司。
因此,我们目前的重要工作之一是建立算力调度平台,通过这个平台,外部的算力,比如运营商的算力,通过我们的公共服务平台接入,用户的需求可以通过公共服务平台进行调度,并利用商业算力。
我们正在形成统一的调度机制,甚至还包括与国家倡导的“东数西算”工程,能够与西部地区的算力进行合作,如贵州、宁夏、甘肃、内蒙古等地。我们已经有了一些接洽,希望能够使用他们提供的算力。
未来我们希望算力就像电力一样,能够提供给用户使用,但现在还没有那么容易,因为算力之间差异很大,超算计算和云计算之间有很大差别,包括配置和使用方法都不同。但是这些都会慢慢统一,算力作为基础设施会逐渐统一起来。
当前所谓的算力调度实际上是将用户的计算任务分配到其他地方去执行。例如,用户通过操作中心的平台提交作业,然后我们将计算任务调度到百度平台上完成,这是一个任务调度的过程。算力调度的概念也是近年来才出现的,随着算力逐渐成为基础设施,我们的调度也会逐渐进步,以提供更加顺畅的服务给用户。标准和规范的制定也会在行政过程中进行。
上海超算中心作为上海市的公共服务平台,我们的能力可能有限,但我们更多地致力于建立接入和调度的标准,让更多的商业公司、科研单位和市民都能够轻松方便地接入算力资源。
澎湃科技:目前,算力调度的难点在哪?
李根国:主要包括接入标准制定和算力差异。另外是数据传输,网络也是一个重要的限制因素。例如,大规模数据传输在西部地区可能会遇到瓶颈。不过,随着技术的改进,整个网络也在不断改善中。
“还没有看到本质上的突破”
澎湃科技:两位从个人角度来说,对于这次生成式AI热潮,包括通用人工智能(AGI)是什么样的感受,目前的路线是否能实现通用人工智能?对于未来通用人工智能的发展是持担忧还是乐观的态度呢?
李根国:我持乐观态度。科技发展到今天,仍存在许多未知领域需要我们探索。人工智能的方法可能使我们在科学研究方面取得更大的突破和发现。
赵乔:生成式人工智能是通用人工智能发展的曙光,但需要明确的是,人工智能并不能与人类智能划等号。在某些任务上,人工智能表现出色,但在许多其他方面仍未达到理想效果。总的来说,对于通用人工智能的发展,我持乐观态度。
此外,除了大模型的核心工作外,我们也看到了许多周边工作的开展,例如LangChain(注:一个用于开发由语言模型驱动的应用程序的框架)等,这将让大模型成为内核,同时推动通用人工智能的发展。
整个领域充满了技术创新和活力。作为一个偏向底层技术的团队,我们不仅关注通用人工智能的路线,还关注其他经典科研路线,如AI for Science等。对于我们团队来说,有很多事情需要去做,除了支持不同技术路线的发展外,我们还需要更好地对接算力、消除不同芯片之间的差异,并提供更好的开发服务。
澎湃科技:有观点认为此次生成式AI的技术热潮本质上并没有带来非常新的技术创新,而更多地是工程上的成就,两位对此持什么观点?此外,你们认为近期最重要的科技进展是什么?
李根国:就我个人而言,ChatGPT是将人工智能应用于自然语言生成领域的突破。此前,人工智能也经历过热潮,例如20世纪80年代,可能更多关注算法,比如机器学习方法的改进等。但几次热潮都暴露出一个问题,那就是我们的计算能力跟不上发展的速度。现在,我们感觉到算力是可以跟得上的,尽管成本很高。
过去,人工智能在语言方面的生成一直受限,但通过引入大模型,我们看到了革命性的变化。这可能只是突破的开始,接下来可能会出现人工智能的理论体系和框架。因此,我们认为目前只是看到了一些现象上的突破,但还没有看到其本质上的突破。
我最近关注的科技进展,就是在科学研究领域出现了一些突破和发展。举个例子,之前提到了医药方面的进展。而最近的突破是在天气预报领域。传统的天气预报需要强大的计算能力支持。我们现在在计算尺度上取得了突破,例如缩小到1公里精确度,而以前是基于3公里的天气预报。这意味着我们可以提供更精确的局部天气预报,例如指明浦东下雨而浦西不下雨,所以人工智能应用于天气预报能够算得快且算得准。另外,还有一个最新的进展是在近半年,我在好几个领域里面都看到了人工智能应用科学研究后,产生了新的发现。
赵乔:作为从业者,我认为在工程技术创新方面是有突破性成果的,这次热潮给人们带来了更多的关注。例如,大家通过尝试不同的方法和策略,实现了大模型的高效表现,这是技术上的一个突破。另外,产品用户交互方面也出现了一些突破,这些领域的产品增长也非常显著。
关于最近看到的重要科技进展,我觉得开源技术的发展是最令人深刻的。在半年的时间里,开源技术的发展非常迅速。虽然对于百度来说,我们对这些技术比较熟悉,但对于更多希望获得大模型技术的人来说,这些技术可能是神秘的,不知道如何应用和获得好的效果。然而,最近半年,从大模型的开发训练到推理部署的技术,开源技术的发展变化非常快速,几乎每周都有新变化。这种开源的创新推动着人工智能领域的进步,比我们过去几年见到的创新更快,更多。