梅塔(Meta)最近发起了一项名为Llamarl的增强剂的研究。该大纲采用了完全异步的分布式建筑设计。在处理4050亿个参数模型时,成功地将加强步骤上花费的时间从原始的635.8秒减少到59.5秒,并且总体效率提高了10倍以上。研究采用是一项通过反馈机制继续调整产出的技术,以便模型可以更好地满足用户的需求。在提高模型准确性和适应能力的要求时,在大型语言模型的培训的最后阶段,对强化的教育变得越来越重要,并已成为许多广告模型系统的必要组成部分。但是,将一项加强研究应用于大型语言模型一直面临过过度资源消耗的问题。培训过程通常需要大量的计算资源并涉及许多模块的合作,例如策略模型,得分手等。当模型参数达到10亿亿亿亿亿亿万亿亿,例如高内存使用,延迟数据传输和低使用的GPU资源资源。 Llamarl框架是在Pytorch建造的,并采用了完全匿名的体系结构,有效地简化了各种组件的同步和协调,并支持模块化自定义。情节大大减少了等待时间,并通过独立的执行器改善了整体技能实践。此外,Llamarl还使用共享的直接访问记忆(DDMA)和NVIDIA NVLINK技术来实现有效的数据传输。在4050亿个参数模型中,模型权重的同步可以在2秒内完成。根据实际数据,在具有80亿,700亿和4050亿个参数水平的型号中,Llamarl训练时间缩短为8.90秒,20.67秒和59.5秒Vely,提高性能高达10.7倍。同时,在数学和GSM8K等常见测试中,模型性能稳定甚至增强。 Llamarl成功地欣赏了大型模型训练中的标准存储器瓶颈和GPU使用不足,并为将来的大规模模型提供了更可扩展的解决方案。