ppv4使用检测模型进行微调，多机多卡训练，eval阶段只有一张卡进行验证 #12213

lipeng1109 · 2023-08-21T11:14:43Z

lipeng1109
Aug 21, 2023

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle：2.5 PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：
验证阶段batch_size_per_card: 1，发现多机多卡训练只有一张卡在验证，其他卡还在加载着训练数据，这样造成了大量的显存浪费，能不能能有机制让多张卡一起验证，且验证阶段不加载训练数据，显卡使用情况如下：

且随着不断的eval，显存不断增加，在一定时刻会爆掉显卡。我使用的数据比较大，在大于2000会进行裁剪，但是也会出现爆卡。我使用r50vd去训练，大于4000裁剪显卡也没有爆掉，不知道是什么原因了

QQQTAO · 2023-08-22T06:17:39Z

QQQTAO
Aug 22, 2023

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：

版本号/Version：Paddle：2.5 PaddleOCR：问题相关组件/Related components：

运行指令/Command Code：

完整报错/Complete Error Message：
验证阶段batch_size_per_card: 1，发现多机多卡训练只有一张卡在验证，其他卡还在加载着训练数据，这样造成了大量的显存浪费，能不能能有机制让多张卡一起验证，且验证阶段不加载训练数据，显卡使用情况如下：

且随着不断的eval，显存不断增加，在一定时刻会爆掉显卡。我使用的数据比较大，在大于2000会进行裁剪，但是也会出现爆卡。我使用r50vd去训练，大于4000裁剪显卡也没有爆掉，不知道是什么原因了

好像ocr代码训练一直是这个机制，都是占用一张卡进行验证集评估的，你可以具体看看评估的代码

0 replies

lipeng1109 · 2023-08-22T07:20:42Z

lipeng1109
Aug 22, 2023
Author

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：

版本号/Version：Paddle：2.5 PaddleOCR：问题相关组件/Related components：

运行指令/Command Code：

完整报错/Complete Error Message：
验证阶段batch_size_per_card: 1，发现多机多卡训练只有一张卡在验证，其他卡还在加载着训练数据，这样造成了大量的显存浪费，能不能能有机制让多张卡一起验证，且验证阶段不加载训练数据，显卡使用情况如下：

且随着不断的eval，显存不断增加，在一定时刻会爆掉显卡。我使用的数据比较大，在大于2000会进行裁剪，但是也会出现爆卡。我使用r50vd去训练，大于4000裁剪显卡也没有爆掉，不知道是什么原因了

好像ocr代码训练一直是这个机制，都是占用一张卡进行验证集评估的，你可以具体看看评估的代码

好的，明白了，我的致命问题还是验证阶段显存一直升高，直到出现显卡爆掉的问题终止训练。我使用r50为backbone训练一直没问题，使用了ppocrv4的pphgnet_small为backbone出现了这种现象，且我更新了代码，不确定是不是最新的数据加载方式有变化导致

0 replies

lipeng1109 · 2023-08-22T09:05:59Z

lipeng1109
Aug 22, 2023
Author

我的数据是大分辨率，统计了一下，一半以上都是3000+，不进行裁剪很容易爆卡，在配置文件中设置

DetResizeForTest:
limit_side_len: 3000
limit_type: 'max'
即可一定程度上解决爆卡问题。对于crop带来精度损失问题也没办法，尽量设置大一些避免损失过大。设置以后最大显存位31G左右，可根据自己的显卡情况，设置适合的裁剪

0 replies

crjxixixi · 2023-08-24T07:43:06Z

crjxixixi
Aug 24, 2023

您好，您是已经成功训练起来v4了吗，请问：
ValueError: (InvalidArgument) The input of Op(Conv) should be a 4-D or 5-D Tensor. But received: input's dimension is 3, input's shape is [128, 240, 256].
[Hint: Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received in_dims.size() == 4 || in_dims.size() == 5:0 != true:1.] (at ../paddle/phi/infermeta/binary.cc:475)
这个问题您是怎么解决的呀

1 reply

leduy-it Nov 20, 2024

I have same issue? Anyone solve it yet, pls help us.

lipeng1109 · 2023-08-29T09:35:30Z

lipeng1109
Aug 29, 2023
Author

您好，您是已经成功训练起来v4了吗，请问： ValueError: (InvalidArgument) The input of Op(Conv) should be a 4-D or 5-D Tensor. But received: input's dimension is 3, input's shape is [128, 240, 256]. [Hint: Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received in_dims.size() == 4 || in_dims.size() == 5:0 != true:1.] (at ../paddle/phi/infermeta/binary.cc:475) 这个问题您是怎么解决的呀

我没有遇到这个问题，看起来是数据维度问题，先使用train.py里的test_reader函数，验证你的数据集看看数据有没有问题，针对性处理一下

0 replies

xlg-go · 2024-09-26T09:46:11Z

xlg-go
Sep 26, 2024

你好，请问您多机多卡怎么跑起来的？我这边两台机器，docker里，--network=host，ssh已经互为免密了，svtr识别训练，怎么都跑不起来。
能否赐教？感谢。。。

master卡在这里就不动了：

slave也是卡在这个界面：

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ppv4使用检测模型进行微调，多机多卡训练，eval阶段只有一张卡进行验证 #12213

{{title}}

Replies: 6 comments 1 reply

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

ppv4使用检测模型进行微调，多机多卡训练，eval阶段 只有一张卡进行验证 #12213

lipeng1109 Aug 21, 2023

Replies: 6 comments · 1 reply

QQQTAO Aug 22, 2023

lipeng1109 Aug 22, 2023 Author

lipeng1109 Aug 22, 2023 Author

crjxixixi Aug 24, 2023

leduy-it Nov 20, 2024

lipeng1109 Aug 29, 2023 Author

xlg-go Sep 26, 2024

ppv4使用检测模型进行微调，多机多卡训练，eval阶段只有一张卡进行验证 #12213

lipeng1109
Aug 21, 2023

Replies: 6 comments 1 reply

QQQTAO
Aug 22, 2023

lipeng1109
Aug 22, 2023
Author

lipeng1109
Aug 22, 2023
Author

crjxixixi
Aug 24, 2023

lipeng1109
Aug 29, 2023
Author

xlg-go
Sep 26, 2024