Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

About SPMamba #9

Open
AndreJJXu opened this issue Jun 19, 2024 · 3 comments
Open

About SPMamba #9

AndreJJXu opened this issue Jun 19, 2024 · 3 comments

Comments

@AndreJJXu
Copy link

李同学,你好。我最近在调研mamba用于音频编码的效果。发现您这篇出色的文章,提出的SPMamba也十分亮眼。
关于您所提出的SPMamba模型,我有几个疑问想咨询下您:

  1. 序列编码音频,利用Mamba真的要比传统的基于CNN的方法要高明吗?(效果上看来是的,但是不是会增加很多额外的训练开销?)
  2. 您对于音频编码,输入到SPMamba中的音频是梅尔频谱图还是什么形式?(光从代码来看,并不是很明确)
  3. 您是否尝试过再多堆叠过层数或者层数超参数分析过?(想知道下,对于音频编码来说,需要大概多少层或者什么参数级别的mamba)
    十分感谢您的工作,给了我很多启发,希望您能拨冗帮我解答困惑,十分感激~
@JusperLee
Copy link
Owner

你好,

  1. 我这个代码里面使用的是第一代的Mamba,可能会有很大的计算显存使用,如果你使用第二代Mamba可以极大程度上降低显存占用。
  2. 代码上是复数谱[B, 2, F, T]
  3. 因为我的显存限制,我只尝试过堆叠12个Mamba,因为是双向的,所以实际上是6层。

希望这些回复能对你有所帮助。

@AndreJJXu
Copy link
Author

谢谢你及时的回复!
还有以下几个问题:
复数谱是什么?可以告诉我英文名称吗?
还有就是想问下您,将音频转为梅尔频谱图进行后续处理,在mamba架构编码的架构下,是否有效果?
我这边尝试搭建几层双流的mamba架构进行音频编码和对齐,但是目前效果不行(基本没学习到),想咨询下您,是否有什么搭建mamba架构编码器的建议?

@JusperLee
Copy link
Owner

复数谱(Complex Spectrum)是一种包含了信号的幅度和相位信息的频谱表示。

将音频转为梅尔频谱图在 Mamba 架构编码下可能是有效的,但具体效果会受到多种因素的影响。

对于您搭建的双流 Mamba 架构进行音频编码和对齐效果不佳的情况,以下是一些可能的建议:

  1. 检查模型参数的初始化设置,确保其合理性。
  2. 增加训练数据的数量和多样性,以提高模型的泛化能力。
  3. 调整网络的超参数,如学习率、层数、节点数量等,进行多次试验找到最优组合。
  4. 考虑添加正则化项,防止过拟合。
  5. 仔细检查数据预处理和标签的准确性。

希望这些建议对您有所帮助。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants