资讯

AI大模型竞争激烈算力优化是超车点

来宾| 蒋晓伟博士、戴金泉

采访 | 凌敏、李冬梅

作者 | 凌敏

算力是推动人工智能产业发展的核心动力。 在人工智能数据、算法、算力三大要素中,算力是通过硬件实际执行数据和算法,并将数据和算法转化为最终生产力的基本单位。

随着AI技术的快速发展和AI大模型的广泛应用,对AI算力的需求快速增长,大约每3-4个月翻一番。 如今,AI任务所需算力总量的计量单位已进入PD时代(PetaFlops/s-day),即每秒千万亿次的计算机在执行完整任务时所消耗的算力总量。天用作计量单位。 例如,特斯拉FSD全自动驾驶系统融合感知模型训练消耗的算力当量为500 PD。

可见,AI大模型时代,AI领域的“军备竞赛”正在从过去算法、数据层面的竞争,转变为底层算力的竞争。 机遇背后,如何解决算力困境,实现算力优化,也是整个行业需要解决的课题。 近日,InfoQ 采访了大宇智信联合创始人/CTO、IEEE 国际顶级会议 HPCA 名人堂成员蒋小伟博士和英特尔院士、大数据技术全球 CTO 戴金泉,共同探讨大数据技术在大数据领域的应用。解决AI大模型时代算力困境的路径,寻求算力优化的最优方案。

AI大模型时代,算力需求爆发

作为人工智能的一个重要子领域,机器学习的发展可以追溯到20世纪50年代。 2012年,AlexNet首次引起广泛关注,使得机器学习的一个分支深度学习的热度呈指数级上升。 在传统的机器学习和深度学习技术中,算力作为底层基础设施发挥着至关重要的作用,不断推动上层技术的迭代创新。 这些传统技术在图像识别、图像分类、自然语言处理、广告推荐、自动驾驶和图像生成等领域已经日趋成熟,并在实践中得到广泛应用。

在AI领域,关注的焦点主要包括各种数据集、Caffe、TensorFlow、PyTorch等深度学习框架以及Horovod等分布式训练框架。 与此同时,底层芯片技术也在不断发展。 最早的企业使用CPU进行训练; 随后,GPU/GPGPU(通用GPU)成为训练和推理的标准设备; 然后一些专用的AI芯片开始出现,比如谷歌的TPU芯片,还有国产的寒武纪等。

2022年,AIGC技术的应用将迎来大爆发。 从OpenAI文本生成图像系统Dall-E2到AI绘画神器Stable Diffusion,AIGC将迅速成为“顶级”。

戴锦全表示,AIGC技术主要涵盖两类模型:一是像Stable Diffusion这样的扩散模型,可以生成图片、音频、视频等;二是像Stable Diffusion这样的扩散模型,可以生成图片、音频、视频等。 另一个是大语言模型,从语言模型的角度生成文本和对话。 等等。这两个模型的要求是不同的。 扩散模型具有更高的计算要求,而大型语言模型则需要更多的内存带宽和大小来支持。 很多时候比较大的语言模型无法同时在显卡上运行,可能需要更大的内存支持。

“从英特尔的角度来看,我们需要不同的计算、内存和Transformer注意力机制算子,以及压缩模型,无论是稀疏的还是低精度的等等,并通过各种技术对其进行改进。良好的支持。多- 模态是一个非常重要的方向,最终大模型追求的是这个模型不仅可以处理文本,还可以处理图片、视频等,不再是单一的算子,而是很多算子同时存在于对于这个模型,如何提供这样的支持是一些技术挑战。” 戴金泉说道。

2022年11月,ChatGPT诞生,成功掀起大型AI模型热潮。 随后,国内外发布了多个大型AI模型。

蒋小伟认为,这波语言模型大热潮与之前的机器学习、深度学习创新确实有很多不同,不断刷新大家的认知。 “从AlexNet、CNN+LSTM、VGG、ResNet,到后来的GAN和最近的Diffusion Model,以及AIGC领域的Bert和GPT,这些模型领域的不断迭代创新已经持续了至少9年。 ChatGPT的出现,实际上是这九年来各种技术栈有机结合后的积累和突破的过程。”

从参数大小来看,GPT-3的参数大小为1750亿。 近日,“天才黑客”George Hotez在接受采访时透露,GPT-4的参数高达1.76万亿,是GPT-3的10倍。 在算力需求方面,数据显示,GPT-3的整个完整训练每秒需要3.14E11(TFLOPS)次浮点运算。 OpenAI CEO Sam Altman曾在接受采访时指出,GTP-4需要10倍于GTP-3的算力; GTP-5需要的计算能力是GTP-3的200-400倍。

大型模型离不开巨大计算能力的支持,而计算能力通常来自于硬件和软件两方面。 以英特尔为例,戴金泉在接受采访时表示,从算力角度来看,英特尔主要从两个方面支持生成式AI计算:

如何解决AI算力困境?

巨大的算力需求也意味着高昂的培训成本。 根据 NVIDIA 的数据,GPT-3 需要使用 1,024 个 A100 芯片进行长达一个月的训练,总成本约为 460 万美元。 GPT-4的训练成本约为1亿美元,GPT-5的成本会更高。

毫无疑问,大型人工智能模型的训练是一个“非常昂贵的过程”。 因此,有人认为算力成本是限制大型AI模型和生成式AI发展的因素之一。

“除了软件、模型、算法层面的多维度优化外,CPU通用计算领域的发展历史可以为大模型算力领域的成本优化提供一些参考。” 蒋小伟提到。 在CPU通用计算领域,计算能力的提升有两种模式,即“Scale up”(水平方向扩展)和“Scale out”(垂直方向扩展)。 “Scale up”是指通过各种方式将一台机器扩展到小型机甚至大型机的大小,而“Scale out”是指用CPU、内存、存储等商用组件,通过复制的方式构建单个服务器。这些机器与高性能数据中心网络互连,并结合一些系统级技术构建类似小型机的解决方案。 传统小型机是“Scale up”的典型例子,而采用单、双通道x86服务器构建的数据中心则是“Scale out”的代表。

从“Scale up”到“Scale out”是通用计算领域的一个发展过程。 在国外,谷歌是较早的代表案例,而在中国,阿里是最著名的代表。 阿里巴巴有一个著名的故事,叫“走向IOE”,就是放弃IBM的小型机、Oracle的数据库和EMC的存储,通过商用x86服务器构建“Scale out”的数据中心。

蒋小伟认为,这可能是大规模模型和GPU算力的未来路线。 “目前我们还是走‘Scale up’路线,单GPU服务器越来越大,越来越贵。至于‘Scale out’方式,我觉得应该是维持一个最基本的小单元,也许包括CPU, GPU和高性能网卡,不同的芯片设备可以由不同的厂商提供,NVIDIA的Grace-Hopper超级芯片是目前这种基本单元的代表解决方案,通过分布式的方法和高性能、高效的网络,计算互连单元成为可能如今,数据中心的网络延迟已经达到亚微秒级,甚至纳秒级,完全有能力高效互连计算单元,这是从“Scale up”方式逐渐演变为“Scale up”方式。 “横向扩展”方法的维度。我们可以借鉴通用计算领域的一些先前经验。”

此外,利用软件承担一些高可用性功能,如容错、寻找第二供应商等都是降低成本的关键手段。

构建分布式算力

除了降低算力成本之外,如何更好地利用算力、提高算力效率也是业界亟待解决的问题。 如何分布算力、构建分布式算力是算力优化的前提。

过去大家对AI芯片领域的关注主要集中在推理上,但现在大模型让人们更加关注分布式训练,尤其是分布式训练集群的构建。 由于单卡无法满足需求,需要构建分布式训练集群,通过高效互连连接大量GPU。

除了提升单块GPU芯片的能力之外,另一个核心问题是如何高效地将单块GPU卡打造成分布式训练能力。 这是当前大模型算力建设过程中非常核心的领域和技术。 这需要超级计算网络能力和高性能网络来高效互连单个节点的GPU计算单元,也需要更高效的CPU和GPU协作能力。 Nvidia 最近发布的 DGX GH200 是这些技术的巅峰之作。

蒋小伟认为,英伟达不仅是一家GPU算力公司,也是一家高性能网络和CPU公司。 “我们可以看一下Nvidia的核心技术,首先,它在芯片功能方面往往采用了最先进的制程技术,需要在最先进的芯片支持下,达到单晶面积、功耗和散热的极限。先进的工艺。因此,对于芯片设计领域以及制造工艺的各个方面都有非常高的要求。我觉得这是第一个基础,就是芯片设计领域,包括先进的工艺技术和高性价比的单卡芯片。在此基础上,我们再构建多机多卡训练,互连高效的单卡,这就需要高性能的网络能力,通过这种高性能的网络能力,实现单卡的“线性”理想状态性能可以达到,扩展性也有优势,基础要求高。”

在过去的几十年里,Nvidia 涉足 x86 芯片组,并在退出该业务后一直致力于 ARM CPU 的开发。 目前,NVIDIA已经推出了基于ARM架构的Grace芯片产品,并在最近发布的Grace Hopper超级芯片中通过NvLink C2C能力实现了GPU和CPU之间的高速高效互连。 通过NvLink技术实现多个CPU芯片之间的互连,实现双通道甚至多通道CPU架构。 此外,完成对Mellanox的收购后,NVIDIA在高性能网络领域的Infiniband、RDMA、GDR等技术也全面支持多GPU服务器节点的直接互连,为“Scale out”部署奠定了基础。

此外,英特尔和AMD在CPU、GPU和高性能网络互连技术领域也拥有强大的能力。 在CPU领域,英特尔和AMD都是行业领先者。 在网络领域,Intel拥有自己的Mount Evans(IPU),而AMD在收购Pansando后也在DPU领域获得了强大的实力。 在带内-带间互连方面,Intel通过QPI或UPI等技术实现了CPU的多路互连能力。 同时,还拥有CXL等技术,可以实现加速器与CPU或内存与CPU之间的高效互连,以及自身功能所具备的EMIB(2.5D封装技术),实现芯片之间的互连。 AMD拥有基于其的Hyper Transport、Infinity Fabric等核心技术,可以实现带内和带间芯片之间的高效互连。 所有这些技术都为构建分布式计算能力提供了必要的基础。

目前,Nvidia的DGX GH200产品已经达到了极致水平。 它拥有18000个CPU核心、256个GPU和144T内存,它们通过各种高速互连技术有机地结合在一起。 这种范式对分布式训练框架和模式产生了重大影响。 接下来的问题是,如何支持该设备类型的操作系统? 如何支持这么大的设备内存? 这些都是未来技术发展的方向和挑战。

算力优化的探索与实践

在算力优化的具体探索和实践中,蒋小伟表示,作为一家DPU公司,大宇智信重点关注分布式集群算力模型的优化,主要关注从单机单卡到多机的优化规模。

在分布式训练场景中,尤其是训练GPT等大型模型时,通常会用到数万块GPU。 在这个过程中,大宇智信将算力或者芯片执行的计算分为两个维度:

在大型模型训练中,当达到2000个GPU时,I/O部分与计算部分的比例已达到1:1。 当GPU数量超过2000个时,I/O部分花费的时间和计算能力可能会超过计算部分。 因此,大鱼智信重点优化分布式训练中的I/O部分,利用核心网络技术能力进行优化。

“在算力优化方面,我们有几项核心技术:第一,我们支持高度灵活、可编程的硬件零拥塞控制技术,用于替代传统以太网上的RoCE v2协议。传统协议在以下方面相对简单:流量控制。,存在一些问题。我们的技术提供了更灵活、可编程的解决方案来解决这些问题。第二,我们支持超低延迟特性。第三,我们支持MPI消息传递进行分布式训练。这是一种集体通信通过大量各个维度的硬件优化,结合RDMA和MPI,在训练时达到了媲美InfiniBand的性能,这些都是我们在从单机单卡到分布式训练的过程中进行的算力网络优化工作”。 蒋小伟介绍。

据了解,大多数企业在构建GPU算力网络时,仍然选择使用InfiniBand网卡和交换机,其主要采用两项核心技术:一是RDMA(远程直接内存访问)技术,通过GPUDirect RDMA。 在 I/O 级别控制角色,从而减少整个训练过程中的 I/O 消耗。 另一项技术是SHARP(Scalable Hierarchical Aggregation and Reduction Protocol),这也是Mellanox的核心技术。 它采用SHARP技术来减少分布式算力过程中对网络带宽的消耗。

目前,大多数公司在构建算力网络时仍然基于Nvidia的解决方案。 不过,一些领先的互联网公司已经开始在以太网上构建GPU算力网络,而不再完全依赖InfiniBand网络。 在这种情况下,一个中心问题是找到一种能够完全替代RDMA over InfiniBand的技术。

除了InfiniBand上的RDMA技术之外,NVIDIA还有以太网上的RDMA技术,称为RoCE v2。 但在很多领先的互联网公司的应用中,这项技术还存在一些问题,因此一些国际国内领先的互联网公司已经开始开发自己的技术来替代RoCE v2以太网上的RDMA,并通过自研的方法获得更可靠的性能。手术。 他们可以在丢包的网络环境下稳定运行RDMA,并将该技术应用到GPU训练集群上,这是一些行业领先公司的核心能力。

“对于大宇智信来说,我们的工作完全是基于这些领先公司的实践和技术趋势。我们也在致力于开发类似的产品,因为我们认为这些领先公司的核心技术往往仅限于他们自己,但我们相信“更广泛的公司可能不具备这样的能力。像大宇智芯这样的第三方芯片公司的价值在于通过通用技术为更广泛的场景提供支持,并通过更通用的方式实现这些技术。”小伟说道。

写在最后:软件算法设计多样化也是关键

在分布式算力建设方面,蒋小伟认为,建设分布式算力网络需要与芯片领域紧密结合,需要将先进的工艺技术应用到各个单元,以支持最大的带宽。 未来,我们需要重点关注两个方面:

“在中国,要在较短的时间内聚集整个行业的力量来实现目标,不是通过一家公司逐步发展各个领域的能力,而是可能需要采取某种方式将各行业的力量结合起来。对此,我认为一个关键技术是芯片领域的芯片模块化(Chiplet)技术,这是一个非常有潜力的技术,通过芯片模块化,我们可以将不同的芯片模块集成到一个芯片上,这使得各个领域的专业公司能够专注于自己擅长的领域。另外,芯片模块化本身还是一个比较新的概念,比如芯片模块化的标准化组织UCIe刚刚成立。因此,在这个领域,国内和国外肯定有差距,但差距不是特别大,还有追赶的机会。” 蒋小伟总结道。

展望未来,戴金全希望实现“AI无处不在”,无论是在本地、云端还是边缘。 从这个角度来看,从小尺寸设备扩展到大规模数据中心的XPU架构是一个非常重要的趋势,可以支持未来AIGC技术无处不在的需求。 从软件角度来看,目前的大型模型基本都是采用Transformer架构作为基础组件。 目前业界正在做大量的研究工作来探索Transformer架构的内存需求,包括如何更新内存带宽、内存容量和计算需求。 良好的加速性。 从发展的角度来看,至少像Transformer这样的大型模型可能会有更大的规模,包括输入上下文的扩展,未来可能比今天高几倍、几十倍甚至更高。 这必然会对软件算法的设计产生不同的要求,比如低精度、低比特、压缩、稀疏化,包括注意力机制设计。

“所以,软件算法设计的多样化是重要的一环,我们相信这将有助于满足未来AIGC和大型语言模型的算力需求。这些需求可能会进一步指导我们未来的训练、推理、芯片架构等。”另外,大模型还在快速发展,在更长的时间内,比如十几年、几十年,可能会有很多的发展,不同算法层次的发展,不同场景适配的发展。将对AI芯片,包括所有的计算芯片和计算能力产生深远的影响。”戴金泉总结道。

采访嘉宾

大宇智芯联合创始人/CTO蒋晓伟博士入选HPCA名人堂,曾就职于英特尔、阿里巴巴、谷歌。 他是Intel首款超低功耗处理器Quark D1000的首席架构师、Edison SoC的芯片架构师。 在阿里巴巴工作期间,曾任中国第一颗x86 CPU功能定制负责人、阿里巴巴智能网卡团队创始人、阿里云以太天710 Arm CPU IO子系统首席架构师。 曾担任谷歌智能网卡团队技术负责人,带领团队进行IPU在谷歌云的研发和部署。

戴金泉,英特尔院士、全球大数据技术首席技术官。 负责领导英特尔全球(位于硅谷和上海)工程团队进行先进大数据分析、分布式机器学习和深度学习的研发,以及与全球领先研究机构(如加州大学伯克利分校AMPLab)的技术合作、RISELab 等)。 Apache Spark 项目的创始提交者和项目管理委员会 (PMC) 成员、Apache MXNet 项目的导师以及 BigDL 和 Analytics Zoo 项目的创始人。

AIGC课程推荐

芯片智能化防护_智能芯片技术介绍_智能化芯片

极客时光《AI大模型应用开发·实战营》首发。 作者是彭景田,一位深耕AI领域多年的技术专家。

课程直播为期8周,内容涵盖硬件选型、大模型理论、LangChain开发框架分析和实现实践,整个过程与实际生产环境紧密结合。 目前市场上热门实用的项目,如AutoGPT数字化员工、翻译助理、智能销售顾问等经典项目,都将在课程中进行实践。

帮助您掌握使用大型模型开发相关AI应用的能力,不容错过的历史机遇!