ქართული ტექსტის სიტყვის სინთეზი / Georgian text to speech synthesis
ეს ნიმუშები გამოიყენება მხოლოდ კვლევისთვის ყოველგვარი კომერციული გამოყენების გარეშე / This samples are used only for research without any commercial usage
audio_003.mp4
audio_002.mp4
audio_001.mp4
audio_004.mp4
audio_005.mp4
audio_006.mp4
audio_007.mp4
sample_slow.mp4
sample_normal.mp4
sample_fast.mp4
MOS - მეტრიკა აუდიოს ხარისხის შესაფასებლად, დიაპაზონი არის [0-5] 0 შორის - ცუდი ხარისხი, 5 - იდეალური ხარისხი.
სინამდვილეში ის ინგლისურ ენაზე იყო მომზადებული, მაგრამ აღმოვაჩინე, რომ სხვა ენებისთვის ის ასევე შეესაბამება ხარისხს.
დიაგრამა MOS ქულებით, რომელიც შეფასებულია გენერირებული აუდიოდან test_text.txt ფაილიდან 1000 ფრაზის გამოყენებით, მოცემულია ქვემოთ.
MOS - metric for audio quality estimation, range is between [0-5] 0 - Bad quality, 5 - Perfect quality.
Actually it was trained on English language, but i've found that for other languages it also correlates with quality.
Chart with MOS scores that was estimated from generated audio using 1000 phrases from test_text.txt file is given below.
შესრულების შედეგები გამოცდილი იყო GPU RTX 4090 (24 GB) და CPU 13th Gen Intel(R) Core(TM) i9-13900K.
Ubuntu 22.04.4 LTS
ექსპერიმენტები ჩატარდა სხვადასხვა რაოდენობის სიმბოლოებით, აუდიო ხანგრძლივობით და მათი დასკვნის დრო Cpu-ზე და gpu-ზე და მოცემულია ქვემოთ. ქვემოთ მოცემული სქემებიდან და ცხრილიდან ხედავთ, რომ მისი რეალურ დროში გამოყენება მარტივია gpu-ს გამოყენებით.
Performance results was tested on GPU RTX 4090 (24GB) and CPU 13th Gen Intel(R) Core(TM) i9-13900K.
Ubuntu 22.04.4 LTS
Experements was done with different number of characters, audio durations and their infrence time on cpu and gpu and is given below. You can see from charts and table below, that it easy to use it in real time using gpu.
inference time in seconds | audio duration in seconds | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
mean | quantile_0.01 | quantile_0.25 | quantile_0.75 | quantile_0.99 | mean | quantile_0.01 | quantile_0.25 | quantile_0.75 | quantile_0.99 | |
number of characters | ||||||||||
32 | 0.453381 | 0.389013 | 0.414706 | 0.487909 | 0.604449 | 3.929977 | 3.552653 | 3.877732 | 3.970612 | 4.237642 |
64 | 0.754833 | 0.652958 | 0.696219 | 0.799385 | 0.994115 | 6.440054 | 6.118458 | 6.315828 | 6.606077 | 6.826667 |
256 | 2.451267 | 2.225817 | 2.357944 | 2.518129 | 2.726624 | 20.833408 | 20.143311 | 20.654150 | 20.921179 | 22.198277 |
512 | 4.659979 | 4.416153 | 4.552752 | 4.736746 | 5.030857 | 38.833749 | 37.918186 | 38.591565 | 39.102404 | 39.601633 |
inference time in seconds | audio duration in seconds | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
mean | quantile_0.01 | quantile_0.25 | quantile_0.75 | quantile_0.99 | mean | quantile_0.01 | quantile_0.25 | quantile_0.75 | quantile_0.99 | |
number of characters | ||||||||||
32 | 0.017791 | 0.015188 | 0.016126 | 0.017405 | 0.025912 | 3.930906 | 3.656446 | 3.840000 | 3.996735 | 4.412952 |
64 | 0.024347 | 0.020326 | 0.021126 | 0.028447 | 0.031071 | 6.429373 | 6.048798 | 6.280998 | 6.524807 | 6.958324 |
256 | 0.071052 | 0.060597 | 0.062858 | 0.076386 | 0.079714 | 20.812394 | 20.199851 | 20.569977 | 21.028571 | 21.525943 |
512 | 0.130159 | 0.118664 | 0.121434 | 0.141063 | 0.144757 | 38.956815 | 37.952784 | 38.588662 | 39.267846 | 40.183757 |
თუ გაინტერესებთ ქართული TTS მოდელის ტესტირება, გთხოვთ, ნუ მოგერიდებათ მომწეროთ ელექტრონული ფოსტით: icegas555@gmail.com
ჩვენ ასევე შეგვიძლია დავლიოთ ფინჯანი ყავა და ვიმსჯელოთ პოტენციურ თანამშრომლობაზე, თუ დაინტერესდებით
If you're intersted in testing Georgian TTS model, please don't hesistate to contact me via email: icegas555@gmail.com
We can also drink a cup of coffe and discuss potential collaboration if you're intersted.
If you need to create TTS system using different language, i'd like to help, please contact me directly by email.