TF-transformer #60

a897456 · 2024-12-18T13:33:53Z

作者你好，我看你论文的消融实验，对T-transformer和F-transformer，没有进行消融，这两个是必须的吗？尤其是F_transformer，它只会增加内存负担，因为batch_size*t=1248，我感觉很多CUDA OUT MEMORY 以及训练速度缓慢，和F-transformer有很大关系。

a897456 · 2024-12-18T13:46:47Z

还有一个问题，你是将[b,c,t,f] 转为[b * f,t,c]进T-transformer，然后[b * t,f,c]进F-transformer。
可不可以改为[b * c,t,f]进T-transformer [b * c,f,t]进F-transformer，
因为截取相同长度和相同的FFT，所以t和f是固定的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TF-transformer #60

TF-transformer #60

a897456 commented Dec 18, 2024

a897456 commented Dec 18, 2024 •

edited

Loading

TF-transformer #60

TF-transformer #60

Comments

a897456 commented Dec 18, 2024

a897456 commented Dec 18, 2024 • edited Loading

a897456 commented Dec 18, 2024 •

edited

Loading