epoch 10开始loss都为NaN #16

ontheway-arch · 2023-01-17T02:25:27Z

epoch 10开始loss都为NaN，现在跑到epoch 15还要继续吗？epoch 5 CIDEr就100了，到epoch 10 CIDEr逐渐降到77，这是什么缘故呢？

buxiangzhiren · 2023-01-17T14:24:31Z

你的总batch size是多少，正常应该是8*64。8张卡，每张64。这样学习率才能对上。不然要根据batch size调整lr

ontheway-arch · 2023-01-18T01:42:43Z

bs没改过，还是64，我用的3张卡，bs和lr要怎么调整呢

buxiangzhiren · 2023-01-18T02:50:54Z

buxiangzhiren · 2023-01-18T02:53:07Z

相当于你现在batchsize是3 x 64，我原始设定的是8 x 64

buxiangzhiren · 2023-01-18T02:53:12Z

相当于你现在batchsize是364，我原始设定的是864

buxiangzhiren · 2023-01-18T02:55:03Z

lr应该是缩小这么多倍8/3

ontheway-arch · 2023-01-18T10:36:48Z

这里有公式吗有点看不太懂

buxiangzhiren · 2023-01-18T10:43:51Z

可以看一下vq diffusion这边论文里面的公式推导。然后这篇论文里面有讲解了一些代码https://arxiv.org/pdf/2102.05379.pdf。

buxiangzhiren · 2023-01-18T10:44:13Z

可以看一下vq diffusion这边论文里面的公式推导。然后这篇论文里面有讲解了一些代码https://arxiv.org/pdf/2102.05379.pdf。

在14页左右

verigle · 2023-02-06T13:53:18Z

lr应该是缩小这么多倍8/3

缩小batchsize 会影响精度吗？通过梯度累加方式能让小batchsize 和大batchsize 保持一样的精度吗？

buxiangzhiren · 2023-02-06T14:36:49Z

缩小应该是会影响精度的，不过影响应该不会很大。可以用梯度累加

zhangfujunaaa mentioned this issue Mar 31, 2024

为什么我的一直卡在这里RANK and WORLD_SIZE in environ: 0/1 #41

Open

Provide feedback