卡正在做两个工作,华为想挤压计算的力量
发布时间:2025-06-07 09:43
一个世纪前的三分之一,加拿大专家提出了经典的Moe模型神经网络结构,为AI人类探索的下一代“石器时代”留下了变化的火花。大约十年前,美国硅谷的互联网巨头在理论和工程学方面闯入了原始的Moe模型建筑,并将这个概念最初放在令人难以置信的架子上,在随后的AI竞赛中。如今,后来的优势再次到达了海洋海岸。由华为代表的中国技术公司建议修复Moe建筑的解决方案。特别是,华为的体系结构不仅实现了MoE装载和瓶颈颈部的缺点,而且还可以降低成本并提高效率,从而使训练和部署更容易。 AI的战斗远非表面,但就像中国行业的背景“多快,快速,安全性”其他领域,大型模型,一种出生于西部的科学技术树,在另一侧长大,在被东方智慧感动后也会改变一种更普遍和友好的工具。最近,Huxiu将创建一系列“华为技术披露收集,并通过一系列技术报告,相关的技术细节将首次充分披露。我希望这一系列内容可以作为该行业的参考价值,我希望有更多的人能够加入该行业,我希望更多的人能够在行业中合作,并希望该行业能够合作,并希望您能够合作,并希望HAR,并且我能够与我合作。我也希望更多的人能够与该行业合作,我希望更多的人可以与该行业合作,我希望更多的人能加入华为,我也希望更多的人可以在行业中合作,我希望更多的人能加入华为,加入华为,我也希望更多的人能加入华为,我也希望更多的人能加入华为,我希望更多的人也可以加入华为,也可以与生态环境建立可能的可持续开放和合作,以便在中国发展生态攀岩。 “华为技术披露集合”系列第11卷:RL训练后“华为技术披露收集”系列第11卷:一旦大型模型竞争处于全部状态,RL后培训就完全状况良好,“强化学习培训”一直是打破LLM天花板的主要途径。诸如OpenAI O1和DeepSeek-R1之类的流行模型依靠RL训练来转动岩石。与对训练前阶段的“广泛净”获取相比,R训练后R训练通过推动模型与外部环境中的动态相互作用,直接塑造了LLM推理在复杂任务中的有效性。扩展全文 目前,RL后培训阶段是消费者的20%计算整个训练过程的强度,将来降低到50%,这直接影响模型的性能和成本。 在传统的RL培训中,培训和推理需要Linut工作,这意味着许多计算能力都在“抢夺”。 在这方面,华为团队推出了两种主要的黑色技术:“ RL融合培训和促销卡”和“ stalesync Quasi-Asynchranous并行”,以提高培训和资源使用的效率。 ·RL融合:让一张卡考虑培训和推理,以及双重资源使用和吞吐量。 StaleSync:打破阶段的局限性,使缩放效率超过90%,并增加训练50%。 CloudMatrix的超节点就像LargeModel的“超级加速器”,它可以训练100亿亿亿美元甚至5亿亿美元的型号。 此时,巨大的加固研究模型正式进入了额外的时间des。 RL后训练“计算电源黑洞” 如今,强化学习已成为激活大型思维能力的主要增益。 如果这是一种语言模型,那么优化也是多模式模型的复杂任务适应。 RL培训在提高模型,概述和用户体验的准确性方面起着不变的作用。 但是,改善此性能的成本是计算强度的巨大要求。 尤其是在现有主流的上政策算法下,严格的培训替代和策划导致资源使用率低。 通常,作为大型培训模型的Sprint的最后阶段,RL训练后训练面临两个不容忽视的主要挑战。 与货运算法的束缚 在大型模型的训练后过程中,演员模型的训练和理解(生成)过程会产生主要负载。 在传统的“训练和推动分离”下“体系结构,主要的上政策方法需要执行培训和理解活动,并互相等待,从而导致大量无用的计算源。 这种“随身携带”模型为小型场景造成了重大浪费。如果将其放大在kiloka/mnc群中的“计算电源黑洞”中,请在LLM之后推动训练成本。 因此,共同卡技术的培训和进步已成为改善集群资源使用的主要成功。 缩放大簇的困境 另一方面,随着MOE模型的种群,许多模型的异源技术的组合,例如专业并行性(EP),男高行曲(TP)和数据并行性(DP),导致了复杂的任务时间表的指数增长。 但是,在很大的集群中,现有框架很难实现良好的协调,从而显着降低了缩放效率y。 如何通过柔软而艰苦的合作和释放潜在的股息破坏瓶颈来源已成为华为团队集中精力的主要方向。 RL融合:在卡上做两个工作 为了应对RL中训练后资源的低使用问题,华为团队深入研究了异源模型和多任务情景的负载特性,并建议进行创新的RL融合培训和共同卡技术。 简而言之,这是将培训和推理的卡的效率加倍。 RL Fusion支持部署的不同灵活性模式,例如共同卡推理和整个共同卡(如图1所示),这些模式可以在保护阶段实现精致和控制的资源调度管理。 它还支持平行技术中多维的动态无缝传递,例如张量并行性(TP),数据超链症(DP),管道并行性(PP)和其他DIM-DI平行性的男性技术意识到“两只用石头的鸟钻孔”,也就是说,在相同的计算源中执行演员的产生和训练模型的两种活动。 图1:使用计算资源进行分离和推动,训练和推动以及所有推动的示意图,并删除所有推卡的计算资源。 值得一提的是,在小尺寸的情况下,RL融合还可以“挤压”参考资源和奖励模型,进一步实现“用石头的四只鸟的冲击”,并直接提高效率。 此外,对于MOE的大尺度高标准比率模型,华为对推动记忆的练习进行了激烈的评估,并建议首次推动训练的冗余移动记忆,以实现推动EP训练的动态传递,如图2所示。 图2:MUE大型模型训练和图表的遗传变化 在转移培训和状态期间在识别中,可以通过“存储”管理参数来消除由EP更改引起的冗余内存。 同时,在理解时,训练有素的优化器和梯度被充分加载到宿主侧,并尽可能地将NPU存储器保持在理解状态,以确保长期内理解阶段的吞吐量(如图3所示)。 图3:0冗余开关技术的示意图大型模型训练推动记忆0 不仅如此,在系统地重量或加载内存以及加载和加载训练以及推动标准卡之后,训练过程和俯卧撑转移被优化到第二级,在闪电方面更快。 因此,RL Fusion在加强研究后可能会使培训簇的使用率增加一倍,从而节省了很多钱。 StaleSync:量表的水平效率超过90%,通过实践培训增加了50%。 resp出现大型簇的可扩展性低的问题,华为团队离开了整个同步方法,并设计了一种准方差的静态机制(如图4所示)。 StaleSNC机制可以忍受“稳定性”梯度,并允许在RL的不同阶段进行任务,在“稳定阈值”中类似地执行。 GIT在超过90%的CloudMatrix 384个超节点上达到了水平效率。 图4:平行技术中的stalesync Quasi-Asynchronous示意图 这种创新性归功于对RL计算活动的彻底审查。 在RL培训期间,研究小组发现,各种计算活动的计算能力要求各不相同。 基于此功能,新的训练后系统结合了共同设置和架构分离的好处,以平衡每个RL计算任务的资源要求,从而提高了一般硬件资源的使用率。 图5:示意图在共同定位/分离体系结构下,在同一战略上的图和缺乏训练方案 此外,演员控制过程的长尾样品的存在导致效率下降。 为了解决这个问题,新系统引入了准方格调度机制: 当生成的样品达到一定的阈值时,数据会立即流到计算任务的下一个阶段,从而使未完成的评估样本的实践具有一定的滞后,从而改善了整个训练后吞吐量。 根据确保模型的准确性,StaleSync解决方案将系统的一般培训增加了50%。 背后的英雄:数据队列 为了满足StaleSync的数据调度要求和管理,该研究团队专门由分布式的Distqueue数据设计。 Distqueue在各种计算活动之间实现了数据部,缓存和动态阅读。 改善E沟通的效率,遥不可及的采用了两种技术:分层数据传输和零味的通信,这减轻了对数据系统的压力。 以平行方法为例以718B-MOE训练为例(TP8,EP4,PP16),层次数据传递的引入可以将距离的负载降低至1/128,从而支持后训练量表的进一步扩展。 图6:分层数据传输输入的示意图 在训练后,传统的样品补偿方案具有大量冗余沟通,从而降低了沟通效率。 在这方面,研究人员介绍了零味技术,如图7: 首先,每个样本都是以下大小的尊敬的; 每个过程收到数据后,它根据订单的原始长度恢复。 它避免了填充带来的额外沟通,并极大地提高了沟通效率。 在Actua中研究团队在pangu长期内的培训测量结果,研究小组发现,以上优化可以将流量降低超过80%,这有效地支持了扩大大型集群培训的效率。 图7:零冗余数据传输 实际试验:上升超节点目睹了效率的跳跃 RL Fusion和StaleSync优化的合作开发了双重的“资源重用 +任务并行性”保证系统,该系统已大大提高了效率。 在RL后培训中,下表1显示了HealthyWe提高了各种加速调整解决方案的性能。 RL融合训练和推动总卡可以消除RL训练后的水平,改善资源使用,并增加78.5%的单个超节点的吞吐量。 结合稳态的准同步技术,这将达到吞吐量的效率一般的。 表1:单个超节点RL后的运动分析 表2显示了stalesync群集的可扩展性的提高。 当量表从1个超级节点扩展到4个超级节点时,stalesync的吞吐量从35k代币/s增加到127K令牌/s,续集为91%。同步整个解决方案的吞吐量仅从25k代币/s增加到相同大小的85k代币/s,主观为85%。 表2:审查RL培训表现回到Sohu之后,请参阅更多
购买咨询电话
400-123-4567