DDP分布式训练中遇到的一些问题_torch_distributed_debug=detail-程序员宅基地

技术标签: python  

1:所有forward的输出必须参与到loss计算并回传

2:类似于layer_norm这样的操作是无需进行分布式通信的,也无法进行分布式通信,所以在DDP的时候必须把find_unused_parameters设置为True

3:当报错形式为如下时,即在某一个进程的显卡上没有接收到梯度

这个时候可以在命令行前面加上TORCH_DISTRIBUTED_DEBUG=DETAIL, 这样,将找出具体时哪些参数没有接收到梯度,以此更好的调整代码 

 

4:关于0号卡的显存为什么远高于其他卡

一方面是需要设置torch.cuda.set_device(rank)和torch.cuda.empty_cache(),一般设置在dist.init_process_grop之后(个人习惯),至于为什么,参考一下这篇文章

(4条消息) Pytorch清空显存缓冲区(torch.cuda.empty_cache)_pytorch 释放显存_hxxjxw的博客-程序员宅基地

但实验发现,重点其实在torch.cuda.set_device(rank),所以DDP一定要加这个代码,即使已经用了CUDA_VISIBLE_DEVICES

另一方面是要保证下载预训练模型的时候,torch.load()的时候加上map_location="cpu"

遇到在补充.......... 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xx_xjm/article/details/131154564

智能推荐

SAP中AUTHORITY-CHECK 的使用-程序员宅基地

文章浏览阅读1.7w次,点赞2次,收藏13次。<v:shapetypeid="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t"path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><v:shape id="_x0000_i102

python执行cmd命令并解析结果_基于Python执行dos命令并获取输出的结果-程序员宅基地

文章浏览阅读532次。{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台;社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":..._python 执行cmd命令 的输出

rabbitmq-消息追踪rabbitmq_tracing_rabbitmq rabbitmq_tracing-程序员宅基地

文章浏览阅读456次。【README】消息中心的消息追踪需要使用 Trace 实现,Trace是 rabbitmq用于记录每一次发送的消息;方便开发者调试,排错。可通过插件形式提供可视化界面。【1】 开启消息追踪1)消息追踪通过 rabbitmq的插件 trace 来实现, 插件需要启用和打开;2)trace 启动后会自动创建系统 Exchange, amq. rabbitmq.trace, 每个队列会自动该绑定该exchange,绑定后发送到队列的消息都会发送到 trace 日志;3)插件命令序号 _rabbitmq rabbitmq_tracing

TensorFlow2利用Fashion_mnist数据集实现神经网络图像分类任务_difussion model mnist-程序员宅基地

文章浏览阅读2k次,点赞3次,收藏25次。1. 导入所需的库import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltfor i in [tf, np]: print(i.__name__,": ",i.__version__,sep="")输出:tensorflow: 2.2.0numpy: 1.17.42. 导入Fashion_MNIST数据集fashion_mnist = tf.keras.datasets.fas_difussion model mnist

【板栗糖GIS】WPS—怎么压缩ppt文件使文件变小_wps ppt压缩-程序员宅基地

文章浏览阅读693次。点击ppt中的某一张图片,上边工具栏会出现压缩图片的选项。_wps ppt压缩

html中video自动循环,HTML5视频自动循环播放方法-程序员宅基地

文章浏览阅读9.4k次。如果需要在网页中添加视频,可以参考下面的代码,支持MP4视频自动循环播放。纯HTML5视频自动循环播放HTML>不过火狐浏览器貌似默认禁止自动播放音频视频,需要到选项 → 隐私与安全 → 自动播放,设置允许音频和视频。如果不设置就可以自动播放,可以使用代码二。配合JS自动循环播放html>HTML5视频自动循环播放window.onload=function(){varloca..._video html播放快结束的时候一直循环最后几秒

随便推点

java/php/node.js/python基于web的网上订餐系统【2024年毕设】-程序员宅基地

文章浏览阅读832次,点赞21次,收藏18次。本系统带文档lw万字以上文末可领取本课题的JAVA源码参考。

华为云AppCube:体验快速搭建微信问卷小程序-程序员宅基地

文章浏览阅读876次,点赞17次,收藏20次。华为云AppCube:体验快速搭建微信问卷小程序_微信问卷小程序

我对PowerBuilder的一小点感悟_powerbuilder支持多线程吗-程序员宅基地

文章浏览阅读2.2k次。   我是2001年开始接触PowerBuilder的,一门辅修课上,任课老师向我推荐了它,从此,我对它可谓“一见钟情”。   从刚开始接触PB,我就觉得它是数据库方面最优秀的开发工具之一。无论是它面向对象的特性,还是它特有的PowerScript语言和“数据窗口”,都让我感到无比心动。   我的感受   回想起最初学习PB的时候,给我留下印象最深的是,我发现自己常常会不由自_powerbuilder支持多线程吗

华硕win10+Ubuntu18.04双系统安装与卸载_华硕电脑安装ubuntu18.04-程序员宅基地

文章浏览阅读784次。Ubuntu第一次通过U盘安装时未出现是否连接网络的选项,安装完成后无线网络无法连接(找不到适配器,更新源后也不好用),蓝牙无法打卡,不知道是什么原因,于是再重装一遍。先关闭secure boot(在security选项中) 和fast boot(boot选项)第一次安装时忘记关联,不知道是不是导致问题的原因卸载参照:在win10、Ubuntu双系统下,卸载Ubuntu提醒下自己:在Windows下删除之前分给Ubuntu中的分区(包括efi分区,但不要删Windows的efi,这里我删除了/,efi_华硕电脑安装ubuntu18.04

kaldi做语音识别_利用 kaldi 进行语音识别-程序员宅基地

文章浏览阅读1k次,点赞27次,收藏16次。kaldi是一个开源的语音识别工具箱,是基于c++、perl、shell编写的,可以在windows和unix 平台上编译。教程网页:http://www.kaldi-asr.org/doc/ 里面可以查阅语音/说话人识别实现过程、kaldi的数据结构、命令的使用说明等。还有网上的dan的ppt。kaldi下载:https://_利用 kaldi 进行语音识别

MATLAB 查找互素(质)对_matlab 随机生成互质数-程序员宅基地

文章浏览阅读2k次。互素定义互素也称互质,是指公约数只有1的两个数,如2和3、2和5、3和5等等。matlab函数简单介绍factor(n):对一个数而言是做质数分解,如factor(4),输出为2,2;factor(5),输出为5;factor(9),输出为3,3。factor(f):对一个函数进行因式分解,如f=x2−1f = x^2 - 1f=x2−1输出结果为:[x+1,x−1x + 1, x - 1x+1,x−1]。intersect()函数:求两个集合的交集,如A = [1, 2, 3],B = [3]_matlab 随机生成互质数