Neural-Voice-Cloning-dengan-Beberapa-Sampel

Kami mencoba mengkloning suara untuk speaker yang kontennya independen. Ini berarti bahwa kita harus merangkum identitas pembicara daripada konten yang mereka ucapkan. Kami mencoba melakukan ini dengan membuat ruang yang disematkan speaker untuk speaker yang berbeda.

Embedding speaker mencoba untuk mewakili identitas pembicara (berbagai aspek suara seperti nada, aksen, dll dari pembicara), Anda dapat menganggap ini sebagai sidik jari suara pembicara.

Kami sekarang mengacu pada makalah berikut untuk Implementasi kami: -

["Kloning Suara Saraf dengan Beberapa Sampel"] (https://arxiv.org/pdf/1802.06006) oleh Baidu

Status

Arsitektur untuk Model Multi-Speaker Generatif dan Speaker Encoder telah dibangun.

Model Multi-Speaker Generative telah dilatih untuk adaptasi speaker untuk 84 speaker menggunakan VCTK-dataset telah diselesaikan pada NVIDIA - V100 GPU selama 190000 zaman.

Adapatation Speaker

Dataset VCTK dibagi untuk pelatihan dan pengujian: 84 pembicara digunakan untuk pelatihan model multi-speaker, 8 speaker untuk validasi, dan 16 speaker untuk kloning.

Pelatihan untuk Adapatasi Pembicara

Berikut ini akan melatih model pada 84 penutur pertama dalam dataset.

` python speaker_adaptation.py --data-root = <path_of_vctk_dataset> --checkpoint-dir = <path> --checkpoint-interval = <int> `

Ini bisa memakan waktu hingga 20 jam menggunakan GPU.

Untuk menyesuaikan model dengan pembicara tertentu setelah pelatihan awal

`` ` python speaker_adaptation.py --data-root = <path_of_vctk_dataset> --restore-parts = <path_of_checkpoint> --checkpoint-dir = --checkpoint-interval =

`` `

Ini akan memakan waktu rata-rata 10 hingga 20 menit.

Beberapa Suara Kloning

Sejauh ini beberapa suara kerucut yang kami dapatkan menggunakan adaptasi speaker [LINK] (http://saidl.in/Neural-Voice-Cloning-With-Few-Samples/)

Implementasi Pada Bahasa Indonesia

Warung Data Indonesia sedang melakukan riset dengan 500 speakers dalam pengembangan dataset dan menyiapkan server-server GPU dengan kemampuan komputasi yang besar untuk melakukan proses training dataset tersebut.

Selanjutnya model yang dihasilkan akan dipublikasikan secara publik dan open source.

Silahkan tunggu kabar updatenya dari Warung Data Indonesia

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
Cloning_Audio		Cloning_Audio
Modules		Modules
checkpoints		checkpoints
dv3		dv3
.gitignore		.gitignore
Encoder.py		Encoder.py
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py
speaker_adaptatation-libri.py		speaker_adaptatation-libri.py
speaker_adaptation.py		speaker_adaptation.py
train_dv3.py		train_dv3.py
train_encoder.py		train_encoder.py
train_whole.py		train_whole.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Neural-Voice-Cloning-dengan-Beberapa-Sampel

Status

Adapatation Speaker

Pelatihan untuk Adapatasi Pembicara

Beberapa Suara Kloning

Implementasi Pada Bahasa Indonesia

About

Releases

Packages

Languages

License

drat/Voice-Cloning---Indonesia

Folders and files

Latest commit

History

Repository files navigation

Neural-Voice-Cloning-dengan-Beberapa-Sampel

Status

Adapatation Speaker

Pelatihan untuk Adapatasi Pembicara

Beberapa Suara Kloning

Implementasi Pada Bahasa Indonesia

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages