张嗣宏, 张健
中兴通讯股份有限公司,江苏 南京 210012
【摘 要】ChatGPT的发布引发生成式AI热潮,代表着通用人工智能奇点时刻的到来,信息产业生态系统极有可能重构,国内产业界纷纷加强以ChatGPT为代表的智算领域研究,运营商作为算网基础设施建设的主力军,迎来智算发展的新机遇。详细剖析了生成式AI的能力、发展情况和应用前景,思考了生成式AI背后的技术要素、对于算网资源的诉求、对通信行业带来的影响,以及运营商在生成式AI发展浪潮中面临的机遇和挑战,最后探讨了运营商的定位和应对策略。
【关键词】ChatGPT ; 生成式AI ; 通信行业 ; 智算
【引用格式】
吕凯, 齐斌, 钟胜前, 等. ROADM全光交换网络关键技术发展与应用展望[J]. 电信科学, 2022, 38(7): 37-42.
LV K, QI B, ZHONG S Q, et al. Key technologies development and application prospect of ROADM all-optical switching network[J]. Telecommunications Science, 2022, 38(7): 37-42.
0 引言
2022年11月月底,OpenAI公司发布人工智能对话应用基于生成式预训练转换模型的对话程序(chat generative pre-trained transformer, ChatGPT),其展现出的意图理解能力、语言流畅性、持续对话能力,一扫传统自然语言处理(natural language processing,NLP)应用能力较弱的形象,成为继2016年AlphaGo击败李世石之后的又一个爆点事件,在全球 AI 产业界掀起大模型、生成式AI的热潮。截至2023年4月国内外先后发布了十多个类似的大模型。
通信行业从业者也在思考如何看待以大模型为基础的生成式AI,电信运营商的算网基础设施需要如何应对。本文将基于生成式AI发展趋势、关键技术要素、未来应用场景分析,提出生成式AI对于算力、网络、数据中心的关键需求,进而提出电信运营商应对这一轮AI发展热潮的建议。
由于生成式AI处于快速发展时期,颠覆人类认知的事件不断发生,基于当前情况的分析与判断也可能存在不足之处,所以这个阶段需要对任何可能性都保持开放态度,本文观点供读者参考。
1 ChatGPT为代表的生成式AI的发展趋势
1.1 传统AI面临的问题及生成式AI带来的提升
近年来,深度学习成为推动AI发展的重要驱动力,但随着深度学习技术进入瓶颈期,产业发展面临多个挑战。首先,传统深度学习多有监督训练,对标注数据依赖性大,非常耗费人力成本;其次,模型的领域特性强,跨领域迁移能力较弱,通用性不强。此外,目前深度学习对人类感情的理解还停留在浅层次的语义层面,不具备良好的逻辑推理能力,无法真正理解用户意图。
以 ChatGPT 为代表的生成式 AI 有大算力、大数据、大模型的典型特点,首先,其基于大规模无标注数据进行预训练,再通过少量标注微调,大幅降低了对数据标注要求;其次,生成式 AI的预训练大模型具有多模态(文字、图片、程序、视频等)、跨模态(“文生文”“文生图”“图生图”)内容生成能力,有较强的通用性和跨场景使用能力。此外,与传统 AI 相比,生成式 AI能够更有效地捕捉用户的意图,以理解上下文,使对话更流畅自然,具有更强的逻辑和组织能力。
1.2 当前国内外生成式AI的发展现状
2017年谷歌提出了Transformer结构,开创了自然语言预训练的新模式。2018年OpenAI发布了GPT-1,谷歌发布 BERT,随后微软、脸书(Facebook)等巨头陆续发布了一系列大模型。2022年11月,基于GPT-3.5的ChatGPT正式发布,标志着生成式AI从量变走向质变。2023年3月, ChatGPT 进一步升级至 GPT-4,在美国律师执照统考、研究生入学考试、医学自测考试等各类专业考试中超过了70%,甚至90%的人类考生,展现了超越人类一般专业人士的能力,让人们感受到生成式AI带来的震撼。
随着大模型浪潮的席卷,国内各厂商也纷纷跟进,陆续发布自己的大模型。百度发布文心大模型,阿里推出通义千问大模型,腾讯推出混元大模型,华为推出盘古大模型,商汤发布日日新大模型,科大讯飞发布星火认知大模型……一个多月涌现十多个大模型。总体而言,当前国内大模型仍处于起步阶段,能力水平与ChatGPT等国外领先水平仍然有不小的差距,有待进一步的优化提升。
2 生成式AI的技术要素及其应用前景
2.1 生成式AI的技术架构和产业生态
生成式AI技术架构如图1所示,生成式AI从技术架构看主要包括 4 个层次:基础设施层、算法模型层、人工智能生成内容(artificial intelligence generated content,AIGC)服务层、AIGC应用层。
图1 生成式AI技术架构
(1)基础设施层
基础设施层的大模型训练和推理算力主要基于搭载图形处理器(graphics processing unit,GPU)或智算加速芯片的智算服务器承载,同时大模型训练还需要通过 InfiniBand 网络或基于融合以太网的远程直接数据存取(remote direct memory access over converged Ethernet,RoCE)交换网络连接,形成高性能智算集群。在基础算网硬件之上,由云商整合各类硬件资源,封装后以算力服务的方式提供给上层模型训练使用。
(2)算法模型层
算法模型层基于基础设施层提供的算力,算法开发商进行通用大模型或者垂直领域大模型的训练和推理。大模型提供者主要有两类:第一类是技术实力较强,致力于构建通用大模型的科技公司;第二类是致力于构建专业领域大模型的提供者,大多基于开源算法框架,以较少的通用数据结合高质量专业数据,以更低的成本训练出专业领域的大模型。
(3)AIGC服务层
AIGC 服务层在算法模型的基础上提供特定的生成式AI服务,如聊天、文生图、代码生成等,这类服务主要由大模型提供商提供。生成式 AI服务也包括专业领域的内容生成能力,如生成网络配置指令等,这类服务通常由各领域专业厂商提供。
(4)AIGC应用层
AIGC应用层包括基于生成式AI技术的创新应用和集成了生成式AI能力的传统应用。随着各类 AIGC 服务能力的完善和对外开放,各行各业的应用开发者都可以调用 AIGC 服务能力开发各类领域应用,应用生态将呈现百花齐放的局面。
2.2 ChatGPT大模型的技术发展
ChatGPT大模型的技术迭代之路如图2所示。ChatGPT为代表的生成式AI的技术迭代分为两个主要阶段。第一阶段激发模型潜力,侧重参数规模增大,该阶段通过对大量训练数据的学习,获得各种知识,并以模型参数的形式存储起来。通过不断增加模型参数,充分挖掘模型潜力,当参数量达到一定级别时,会呈现能力涌现的状况,爆发出大量新的能力,但是参数规模达到多大会出现能力涌现,产业界尚无明确结论,大多数观点认为在数十亿到千亿参数规模之间。第二阶段即人类反馈强化学习阶段,侧重人类意图对齐。该阶段又包含3个步骤:(1)监督微调,收集有代表性的问题,标注员标注问题对应的合理答案,通过少量经过标注的问答对模型进行微调;(2)设计一个模仿人类打分的奖励模型,对语言模型生成的回答打分,让符合人类意图的答案获得高分;(3)强化学习训练阶段,让语言模型和奖励模型进行交互训练,从而使得语言模型生成的内容不断趋近人类意图。
图2 ChatGPT大模型的技术迭代之路
2.3 生成式AI的应用前景
ChatGPT 作为一个拥有接近人类表达水平的自然语言生成系统,凭借出色的知识整合和语言描述能力,将进一步打破人和机器的边界,在各个领域都具有巨大的发展潜力,有可能重塑众多产业生态。从其生成的内容形式来看,可以大致分为文本生成、代码生成、图像生成、音频生成、视频生成和其他内容六大类。
在文本生成方面,主要应用领域集中在商业办公、文字写作、医疗教育、智能搜索及个人应用方面。在商业办公领域,微软宣布将 ChatGPT模型植入Office全家桶,并正式发布Microsoft 365 Copilot。在代码生成方面,ChatGPT 可以帮助开发人员快速生成程序代码,编写速度更快、注释更清晰、理解更方便且代码效率更高,将带来研发效率的显著提升。在图像生成方面,可代替人类设计师创作一些图像作品,如广告海报、电影海报等,还可以根据输入的文字提示生成复杂的插图和场景,大大提高电影、游戏等娱乐领域的生产效率。
生成式 AI 被产业界广泛认为是人工智能与内容领域深度融合的代表,是变革未来生活和工作模式的底层核心技术。尤其在数字技术与传统产业融合的背景下,生成式AI将与大数据、物联网、云计算、数字孪生、XR等数字技术一同构筑数字技术底座,驱动产业数字化变革升级。
3 生成式AI对通信领域的影响分析
3.1 生成式AI对算力的需求和影响
生成式AI大模型的训练和推理对算力的需求不同。大模型训练是计算密集型处理,需要高性能AI 集群。而推理是多事务并发处理,数据中心或者边缘DC部署的GPU服务器即可满足要求。
以GPT-3为例,完成一个模型需要进行多轮训练,一轮训练所需算力为3 640 PFLOPS×day,需要高性能 AI 集群(性能优化数据中心(performance optimized datacenter,POD))保障算力。一个训练作业在一个POD内完成,一般不跨POD。
以英伟达A100 POD为例,其包含140台服务器,1 120块A100 GPU,算力可达到336 PFLOPS。其中,GPU有二级互联架构:在服务器内部,8块GPU间使用高达600 GB/s的NVLink总线互联;服务器之间使用 InfiniBand 网络,连接各服务器的8个200 Gbit/s网口,可为服务器提供1.6 Tbit/s的互联带宽。使用A100 POD可以在20天内完成一轮GPT-3级别模型的训练。
高性能AI集群在大幅提升算力的同时,也使得AI芯片及服务器功率有了较大提升,单台服务器功率达到5 kW以上,液冷服务器及液冷数据中心将逐渐成为刚需。
生成式 AI 的推理一般不需要专用高性能 AI集群。对于单个模型实例的推理需求,单台GPU服务器,甚至单块高性能GPU卡即可完成。但随着用户并发数上升以及图片、视频内容的增加,推理算力需求将大幅度增长,需要多台普通GPU服务器才能完成。
相比而言,中小模型自2016年起已经广泛应用于各种场景,中小模型参数量小于10亿,通常在千万到亿数量级,随着GPU处理能力的增加,中小模型训练已经不需要多块GPU并行处理,而推理算力要求更低,所以中小模型使用支持高速串行计算机扩展总线(peripheral component interconnect express,PCIe)接口的GPU服务器即可满足需求。
3.2 生成式AI对数据中心网络的影响
生成式 AI 大模型对数据中心网络的影响主要体现在模型训练所使用的高性能集群,大模型训练需要在传统数据中心网络中为高性能集群的每个POD单独构建一个高速数据交换平面,用于不同服务器上的 GPU 间远程直接数据存取(remote direct memory access,RDMA)数据传输。高速数据交换平面需要有如下能力。
(1)高带宽
大模型训练需要将算法、数据拆分到数百或者数千块GPU卡上,因此GPU卡间需要较高的互联带宽。当前服务器内部GPU之间的互联总线带宽已经达到数太比特每秒,如A100 NVLink总线带宽达到 4.8 Tbit/s(600 GB/s),而单个服务器对外仅能提供200 Gbit/s×8合计1.6 Tbit/s的接入能力,因此,服务器之间的网络带宽已成为制约AI集群性能的瓶颈。对于服务器之间的组网,国外大多采用 InfiniBand 网络,由于 InfiniBand网络技术封闭,国内更倾向采用 RoCE 无损以太网。当前无论是InfiniBand网络还是RoCE,都已经开始引入100 Gbit/s/200 Gbit/s接入端口和400 Gbit/s汇聚端口,并开始向800 Gbit/s端口能力演进。
(2)低时延
大模型的训练过程中跨GPU数据交换频繁发生,除高带宽外,低时延对于大模型的训练也非常重要。InfiniBand网络时延最低可以低于1 μs,采用 RoCE 技术的无损以太网时延目前在 5~10 μs水平,需要进一步优化。
(3)零丢包
RDMA传输对丢包的容忍度极低,千分之一的丢包率将导致传输效率急剧下降,2%的丢包率将导致RDMA吞吐率下降为0。因此,以太网承载RDMA协议时,丢包率要尽可能小,最好能做到零丢包。
除上述 3 个能力要求外,采用无损以太网构建高性能数据交换平面时,设备和组网模式对网络规模、性能也会造成一定影响。采用全盒式两层CLOS组网可以支持千块GPU卡全互联,而使用框式(Chassic)交换机单层CLOS组网即可实现千块GPU卡全互联,使用Chassic加盒式交换机两层组网可实现超大规模万块级 GPU 卡全互联,不过两层组网相较单层组网时延有少许增加。
除上述成熟的无损以太网设备组网模式外,还可以使用分布式解耦机框(distributed disaggregated chassis,DDC)新型组网模式。DDC可提供端到端确定性流控,基于信元交换的超低时延,其时延和无损性能可比肩 InfiniBand 网络,但目前技术和产品尚不成熟,还需要进一步发展完善。
对于中小模型的训练以及大、中、小各类模型的推理,不需要GPU间高速数据交换,当前数据中心网络技术和组网均可以满足,无须特殊的网络设计。
3.3 生成式AI对通信大网的影响
在toH/toC领域,用户更多依赖生成式AI进行内容制作并在网络中传输,导致用户对网络的流量需求、带宽要求、网络质量进一步提升;在toB领域, AIGC导致办公和生产环节对网络依赖度进一步提升,增加工作时间段网络流量,对网络的可靠性和服务质量也有更高要求。两类场景不仅会推动互联网总流量提升,也将影响目前的互联网流量潮汐效应,使得流量周期内峰谷间的变化更加平缓。
本文以如下参考模型估算:用户提交问题及ChatGPT返回答案,平均一次交互假定1 000字,根据抓包结果单向交互大概为3 MB。以每天每用户提交10次提问请求,一天业务量在24 h均匀分布进行估算,2023年2月,ChatGPT平均每天的访问用户数约为3 500万,用户交互的南北向流量约为(35×106×3×106×10×8)/(24×60×60)=97.2 Gbit/s。即使使用强度再放大 100 倍达到10 Tbit/s级别,带宽在全球互联网1 000 Tbit/s体量中也仅占1%,文本型问答产生的南北向网络流量有限,对互联网带宽几乎无影响。
大模型对带宽增长的推动效果受大模型生成内容的类型和应用规模的影响,随着大模型多模态能力的成熟,信息的交互媒体形式从文本向语音、图片、视频、全息影像的高阶形态升级,带宽增长将带来数量级的变化。近年来,互联网骨干网带宽年增长率已下降至 20%水平,当前应跟踪ChatGPT类大模型应用产生的流量变化情况,进行建模评估并及时应对。
当前大模型训练需要采用集中式部署,在一个数据中心内部的POD中完成训练,而推理节点可按需采用集中式或分布式部署。这种训练/推理分离模式下,训练POD与推理节点间只需要传递训练完毕的推理模型(文件大小为 GB 量级),这与目前的互联网应用服务的分布式部署机制相同,对东西向流量无明显影响。
4 运营商在生成式 AI 发展浪潮中的定位和应对
4.1 运营商的定位探讨
运营商在生成式 AI 产业链的定位及能力要求如图3所示,结合AIGC技术架构可以将大模型AIGC产业链中的参与者大致分为3类角色:基础设施服务商,提供训练和推理所需的算力、网络服务;算法模型提供商,完成大模型的训练、部署、迭代,以应用程序接口(application program interface,API)或其他方式提供服务;AIGC 应用服务商,调用前者提供的模型能力,开发面向特定领域的应用,如代码自动生成应用、图片自动生成应用等。对电信运营商而言,选择哪一类或几类角色,对能力要求不同,未来的收益与风险也不同,需要结合自身特长和未来战略定位考虑。
图3 运营商在生成式AI产业链的定位及能力要求
笔者认为提供基础设施服务是基本定位,与电信运营商目前的云网发展战略一致,也是运营商擅长的服务模式。当前三大运营商均已通过专业公司对外提供云网基础服务,如天翼云、移动云、联通云等,面向大模型的训练、推理需求,通过增强智算算力,即可对外提供智算服务。
从AIGC服务安全性考虑,未来服务政府或信息敏感单位的大模型需要高安全、高可靠能力,电信运营商应积极布局。算法模型服务属于技术驱动,对于运营商的研发能力要求较高,需要引入高水平的 AI 科学家,积累相关技术能力。此类服务技术门槛高,未来收益也将比基础算网服务高。
对于最上层的 AIGC 应用服务,将是非常丰富的生态发展模式。运营商可以基于自主训练的大模型,首先针对通信服务自身构建AIGC应用,再结合自身优势市场,如智慧家庭领域,自主开发或与第三方企业共同开发 AIGC 应用,服务于家庭用户健康、教育、娱乐等需求,或面向政企用户提供AI解决方案。
总体而言,运营商可以结合自身的能力、特点选择不同的角色定位。提供基础设施服务是起步模式,随着运营商在生成式AI方面技术能力和生态整合能力的提升,可逐步提供基础设施+模型+应用的综合性产品服务。
4.2 运营商的智算及网络规划建议
大模型训练所需算力比较特殊,由于模型参数量巨大,训练过程中需要在数百上千个GPU加速卡之间以RDMA方式高速传送中间数据,所以大模型训练需要高性能集群架构的算力。而大模型推理对算力的要求不高,一般单台GPU服务器就可以满足单个大模型推理。未来随着大模型推理进一步优化,单次推理的算力需求有望降低到一块GPU卡,因此大模型推理过程并不需要高性能AI算力集群。
(1)训练侧智算算力规划建议
从 Gartner 技术成熟度曲线看,当前生成式AI正处于炒作曲线的高峰,资本市场关注度高,大量互联网或AI初创企业跃跃欲试,呈现出对大模型训练算力旺盛的需求。以百度、阿里、腾讯为代表的主流厂商已经自主构建智算算力,基本不会租用运营商训练算力。随着生成式AI技术达到炒作高峰后会经历泡沫破灭的阵痛期,初创公司的算力需求有可能会大幅减小,因此需要理性看待当前生成式AI所带来的价值和挑战[10]。所以运营商建设训练集群需要综合考虑如下因素。
● 整体投资回报率以及业务发展的可持续性。
● IT类产品生命迭代周期较快,折旧周期短。
● 当前由于需求激增,英伟达GPU的交付周期普遍较长,同时溢价较高。
建议运营商集团层面统筹考虑智算训练中心的布局规划,统一建设1~2个训练集群,首先服务于运营商内部场景的模型训练需求,如网络的运营运维、视频AI等,其次考虑对外面向科研机构、高校、初创公司等提供训练算力服务。对于省级公司,可以关注省内政企行业客户的业务需求,提供中小模型的训练算力服务。部分热点省份,如果客户大模型训练需求较多且投资回报明确,可以考虑按需建设省内训练集群。
(2)推理侧智算算力规划建议
AIGC推理侧的算力没有特殊架构需求,普通的GPU服务器即可满足,其总算力需求将随用户数量增加逐渐增长。同时大模型推理算力同样可以满足中小模型决策式AI的训练要求。综合前述两类需求,推理侧算力可在现有的云资源池中增加GPU算力池,具体部署位置可以考虑按省份规划。中小模型训练基本无时延约束,部署省份主要考虑省内用户发展便利。而大模型推理初期时延要求不高,带宽占用有限,可考虑省内集中规划,未来随着 AIGC 应用和用户数量的增加逐渐下沉。
(3)智算网络规划建议
大模型训练集群内需要高速网络连接所有的服务器,要考虑建设配套的 RoCE 或 InfiniBand网络。但集群间并无大量数据高速传送的需求,所以集群间只要是普通数据中心网络即可满足需求,无特殊规划需求。
推理侧流量模型与普通互联网业务相比未见明显差异,未来可跟踪 AIGC 应用中视频内容占比的变化,适时做好广域网络的规划,未来 3 年内AIGC不会对广域网络造成重大冲击。
4.3 运营商的大模型及应用发展建议
OpenAI 的 GPT 模型演进为通用大模型训练指明了两个重要的技术路线:其一是预训练加人类反馈强化学习的训练模式,其二是增加参数规模产生能力涌现,不断激发模型的潜力。运营商自主训练也将遵循上述两个重要的技术路线。
预训练算法已经有大量公开论文以及部分开源代码,甚至有部分训练数据集作为基础。但完成可达到 GPT-3.5 水准的大模型预训练,仍然需要解决算法优化和数据集优化等问题,特别是可充分发挥GPU集群能力的算法框架优化,这一过程需要一批高水平的AI科学家作为团队核心。基于预训练模型进行精调时,可以选择发展通用模型方向,也可以选择发展垂直行业方向。
相比通用大模型,垂直行业大模型只聚焦某个领域,技术门槛相对低一些,所以建议运营商初期可基于部分开源大模型进行预训练,并结合自身通信领域的数据优势,优先在通信领域大模型入手,首先满足自身网络智能化、智能客服等业务需求,通过构建通信领域大模型,验证技术可行性,积累大模型技术能力。再逐步对外提供垂直领域的模型服务,特别是面向政府或特定行业,运营商可借助安全可信能力优势,为政企敏感行业提供垂直模型服务。长期来看,通用大模型仍然是终极发展目标,建议在垂直大模型取得进展之后,考虑向通用大模型训练发力。
5 结束语
ChatGPT 的热潮席卷全球,开启了人工智能新一轮增长,为千行百业的发展带来了新的想象空间,也给通信行业带来新的机遇和挑战。对于电信运营商而言,一方面需要进一步加强与智算相关的基础设施建设,积极跟进AI领域前沿技术发展及基础研究。基于垂直行业及关键场景拓展相关业务布局,积极探索AI+多模态融合的新场景,挖掘新兴AI技术的落地应用。另一方面,也需要高度关注生成式AI在数据安全、个人隐私、知识产权等方面带来的风险,积极研究相关监管防范策略,引导产业良性发展,从而在新一轮的人工智能技术革命浪潮中把握先机。
作者简介
张嗣宏(1982-),男,中兴通讯股份有限公司中国区战略规划总工程师,主要研究方向为算力网络、云网融合、人工智能、大数据、SDN/NFV、5G网络及业务发展等。
张健(1979-),男,中兴通讯股份有限公司中国区战略规划总监,主要研究方向为人工智能、算力网络、云网融合、大数据等。
声明:本文来自电信科学,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。