P.77 和 P.78 的 DeepRNN 代码逻辑的疑问 #3

Pauldev2014 · 2024-09-27T05:12:49Z

DeepRNN的forward()中，使用了两个for loop：

for layer in range(self.num_layers):
for step in range(seq_len):
...

意思是每层会把整个sequence都处理完，才传到下层。

但 pytorch 的文档显示，它们使用刚好相反的方式。
https://pytorch.org/docs/stable/generated/torch.nn.RNN.html

for step in range(seq_len):
for layer in range(self.num_layers):
...

意思是每个sequence item都要先经过所有层，才接着处理下一个item。

也许结果差不多，但是意思差很远。到底这段参考d2l的代码有没问题？

Atomu2014 · 2024-10-04T02:31:49Z

Hi,

对于单向多层RNN来说，两种写法应该是等价的：

单向多层RNN的状态更新可以描述为一个有向无环图，每个状态的更新依赖于两个状态：1. 上一层同一时刻的状态，2. 同一层上一时刻的状态。只要保证在每个状态更新前，两个输入状态一致，那么每个状态的更新就会严格一致。
你可以参考李沐《Dive into Deep Learning》一书中的实现（https://d2l.ai/chapter_recurrent-modern/deep-rnn.html），与我们的实现是相同的，即外层按layer循环，内层按状态循环。

此外，需要注意，如果是双向多层RNN，则只能使用我们的实现方式。

Provide feedback