-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
split decoder into sosoa and vocoder #28
base: main
Are you sure you want to change the base?
Conversation
ありがとうございます!!! ちょっと時間かかるかもですがレビューさせていただこうと思います!! check_contourのテストが落ちてるけど、色々あって使っていないので無視で良さそう・・・!! |
@Yosshi999 すみません、ちょっと確認させていただければ! Discord の方でお伺いしたのですが、やはり計算誤差は出てしまう感じでしょうか? でも実際聞いた時に問題ないのであればあまりモチベーションとしても微妙だと思うので、ちょっとこちらで頑張ってみようかなと思ってお聞きした次第です!! |
この分割自体は出力の変化は発生していません(今のrun.pyはランダム性を持つのでseedを固定する必要がありますが、)mainブランチのonnxとこのブランチのonnxの出力結果の差は0でした 差分が確認されているのは、https://github.com/Yosshi999/streaming_hifigan/blob/master/04_chunking_onnx.py で実験したtransformersのFastSpeech2ConformerModelであり、フルサイズで生成した波形と、(十分なoverlapを持たせたうえで)hifiganをチャンクごとに生成した波形を比較したときに、[-1, 1]の値域のなかで最大 いっぽうで自分が気になっているのは、同じく上記の実験でちょっとチャンクの実装を変えて、入力のmelspectrogramの右端を0でパディングした時に後方の結果が変わることです。すべてのconvolutionはzero paddingだと思っていたので原因がわからず奇妙に思っています(それでも誤差の最大は (おまけ)overlapがhifiganのreceptive fieldより足りないと下のようにつなぎ目で誤差が発生します |
おお、なるほどです!!! 完全一致素敵!!! fastspeechの方の計算結果が合わないのはちょっと分かりませんが、右端のパディングに関してはもしかしたら学習時にスペクトログラムをリフレクトするようにしてるかも・・・? まあもしリフレクトにしてたとしたら、前の方はゼロパディングで計算結果が合ってるのはよくわからないのですが。。。。。 |
あ、こちらちょっとマージさせていただこうかどうか迷っています! もしよかったら出来上がった.onnxをこのプルリクエストにアップロードお願いしても良いでしょうか 🙇 お願いばかりですみません! |
この本文は @qryxip が記述している。 ストリーミング処理を見据え、decoderからvocoderを切り離す。ただしこのPRで はAPIは変えない。 モデルとしては、`decode`を`generate_full_intermediate`と `render_audio_segment`に分離する。"audio"ではなく"wave"の方が適切かもし れないが、リリースするまでに考えることとする。 #851 (review) Refs: Hiroshiba/vv_core_inference#28
ストリーミング処理を見据え、decoderからvocoderを切り離す