【LLM训练框架】deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但
note
一、deepseed之autoTP+zero1训练框架
deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:
- zero1是优化器被打散,
- zero2是梯度,
- zero3直接是模型参数,
如果手里卡有限,显存不够,一般是采用FSDP+zero3来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但是训练速度特别慢,于是deepseed就把autoTP+zero1这个方案提出来了,TP的优势是拆模型的layer到各个不同的GPU上,每块卡拿的显存就没那么大,再结合zero1在同一个TP组里,把优化器的TF32给优化小,所以理论上在某些情况可以达到和FSFP+zero3一样的节省显存的效果,但是由于它最多是TP组内的all-gather所以通信上要远远小于FSDP+zero3,所以训练速度反而快。https://github.com/deepspeedai/DeepSpeed/blob/master/blogs/huggingface-tp/README.md

Reference
[1] https://github.com/deepspeedai/DeepSpeed/blob/master/blogs/huggingface-tp/README.md
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)