ipynb

thestmitsuki · web-flow · commit 921531677935 · 2023-06-22T10:28:51.000+08:00
diff --git a/colab.ipynb b/colab.ipynb
@@ -0,0 +1,362 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "accelerator": "GPU",
+    "gpuClass": "standard"
+  },
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "source": [
+        "https://github.com/PlayVoice/so-vits-svc-5.0/\n",
+        "\n",
+        "↑原仓库\n",
+        "\n",
+        "*《colab保持连接的方法》*https://zhuanlan.zhihu.com/p/144629818\n",
+        "\n",
+        "预览版本，可使用预设模型进行推理"
+      ],
+      "metadata": {
+        "id": "SggegFslkbbK"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# **环境配置&必要文件下载**\n"
+      ],
+      "metadata": {
+        "id": "M1MdDryJP73G"
+      }
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "xfJWCr_EkO2i"
+      },
+      "outputs": [],
+      "source": [
+        "#@title 看看抽了个啥卡~~基本都是T4~~\n",
+        "!nvidia-smi"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 克隆github仓库\n",
+        "!git clone https://github.com/PlayVoice/so-vits-svc-5.0/ -b bigvgan"
+      ],
+      "metadata": {
+        "id": "nMspj8t3knR6"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 安装依赖&下载必要文件\n",
+        "%cd /content/so-vits-svc-5.0\n",
+        "\n",
+        "!apt install ffmpeg\n",
+        "!pip install -r requirements.txt\n",
+        "!pip install --upgrade pip setuptools numpy numba\n",
+        "!gdown --id \"1UPjQ2LVSIt3o-9QMKMJcdzT8aZRZCI-E\" --output /content/so-vits-svc-5.0/speaker_pretrain/best_model.pth.tar\n",
+        "!wget -P whisper_pretrain/ https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt\n",
+        "!wget -P chkpt/sovits5.0/ https://github.com/PlayVoice/so-vits-svc-5.0/releases/download/bigvgan_release/sovits5.0_bigvgan_555.pth"
+      ],
+      "metadata": {
+        "id": "Kj2j81K6kubj"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 加载Google云端硬盘\n",
+        "from google.colab import drive\n",
+        "drive.mount('/content/drive')"
+      ],
+      "metadata": {
+        "id": "v9zHS9VXly9b"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# 包含多说话人的推理预览"
+      ],
+      "metadata": {
+        "id": "hZ5KH8NgQ7os"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取内容编码\n",
+        "\n",
+        "#@markdown **将处理好的\" .wav \"输入源文件上传到云盘根目录，并修改以下选项**\n",
+        "\n",
+        "#@markdown **\" .wav \"文件【文件名】**\n",
+        "input = \"\\u30AE\\u30BF\\u30FC\\u3068\\u5B64\\u72EC\\u3068\\u84BC\\u3044\\u60D1\\u661F\" #@param {type:\"string\"}\n",
+        "input_path = \"/content/drive/MyDrive/\"\n",
+        "input_name =  input_path + input\n",
+        "!PYTHONPATH=. python whisper/inference.py -w {input_name}.wav -p test.ppg.npy"
+      ],
+      "metadata": {
+        "id": "2o6m3D0IsphU"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 推理\n",
+        "\n",
+        "#@markdown **将处理好的\" .wav \"输入源文件上传到云盘根目录，并修改以下选项**\n",
+        "\n",
+        "#@markdown **\" .wav \"文件【文件名】**\n",
+        "input = \"\\u30AE\\u30BF\\u30FC\\u3068\\u5B64\\u72EC\\u3068\\u84BC\\u3044\\u60D1\\u661F\" #@param {type:\"string\"}\n",
+        "input_path = \"/content/drive/MyDrive/\"\n",
+        "input_name =  input_path + input\n",
+        "#@markdown **指定说话人（0001~0056）（推荐0022、0030、0047、0051）**\n",
+        "speaker = \"0002\" #@param {type:\"string\"}\n",
+        "!PYTHONPATH=. python svc_inference.py --config configs/base.yaml --model sovits5.0.pretrain.pth --spk ./configs/singers/singer{speaker}.npy --wave {input_name}.wav  --ppg test.ppg.npy"
+      ],
+      "metadata": {
+        "id": "A7nvX5mRlwJ7"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "推理结果保存在根目录，文件名为svc_out.wav"
+      ],
+      "metadata": {
+        "id": "F8oerogXyd3u"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "# 训练"
+      ],
+      "metadata": {
+        "id": "qKX17GElPuso"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "将音频剪裁为小于30秒的音频段，响度匹配并修改为单声道，预处理时会进行重采样所以对采样率无要求。（但是降低采样率的操作会降低你的数据质量）\n",
+        "\n",
+        "**使用Adobe Audition™的响度匹配功能可以一次性完成重采样修改声道和响度匹配。**\n",
+        "\n",
+        "之后将音频文件保存为以下文件结构：\n",
+        "```\n",
+        "dataset_raw\n",
+        "├───speaker0\n",
+        "│   ├───xxx1-xxx1.wav\n",
+        "│   ├───...\n",
+        "│   └───Lxx-0xx8.wav\n",
+        "└───speaker1\n",
+        "    ├───xx2-0xxx2.wav\n",
+        "    ├───...\n",
+        "    └───xxx7-xxx007.wav\n",
+        "```\n",
+        "\n",
+        "打包为zip格式，命名为data.zip，上传到网盘根目录。"
+      ],
+      "metadata": {
+        "id": "sVe0lEGWQBLU"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 从云盘获取数据集\n",
+        "!unzip -d /content/so-vits-svc-5.0/ /content/drive/MyDrive/data.zip #自行修改路径与文件名"
+      ],
+      "metadata": {
+        "id": "vC8IthV8VYgy"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 重采样\n",
+        "# 生成采样率16000Hz音频, 存储路径为：./data_svc/waves-16k\n",
+        "!python prepare/preprocess_a.py -w ./data_raw -o ./data_svc/waves-16k -s 16000\n",
+        "# 生成采样率48000Hz音频, 存储路径为：./data_svc/waves-48k\n",
+        "!python prepare/preprocess_a.py -w ./data_raw -o ./data_svc/waves-32k -s 32000"
+      ],
+      "metadata": {
+        "id": "J101PiFUSL1N"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取f0\n",
+        "!python prepare/preprocess_f0.py -w data_svc/waves-16k/ -p data_svc/pitch"
+      ],
+      "metadata": {
+        "id": "ZpxeYJCBSbgf"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取内容特征\n",
+        "!PYTHONPATH=. python prepare/preprocess_ppg.py -w data_svc/waves-16k/ -p data_svc/whisper"
+      ],
+      "metadata": {
+        "id": "7VasDGhDSlP5"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取音色特征\n",
+        "!PYTHONPATH=. python prepare/preprocess_speaker.py data_svc/waves-16k/ data_svc/speaker"
+      ],
+      "metadata": {
+        "id": "ovRqQUINSoII"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#（解决“.ipynb_checkpoints”相关的错）\n",
+        "!rm -rf \"find -type d -name .ipynb_checkpoints\""
+      ],
+      "metadata": {
+        "id": "s8Ba8Fd1bzzX"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#（解决“.ipynb_checkpoints”相关的错）\n",
+        "!rm -rf .ipynb_checkpoints\n",
+        "!find . -name \".ipynb_checkpoints\" -exec rm -rf {} \\;"
+      ],
+      "metadata": {
+        "id": "ic9q599_b0Ae"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取平均音色\n",
+        "!PYTHONPATH=. python prepare/preprocess_speaker_ave.py data_svc/speaker/ data_svc/singer"
+      ],
+      "metadata": {
+        "id": "QamG3_B6o3vF"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 提取spec\n",
+        "!PYTHONPATH=. python prepare/preprocess_spec.py -w data_svc/waves-32k/ -s data_svc/specs"
+      ],
+      "metadata": {
+        "id": "3wBmyQHvSs6K"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 生成索引\n",
+        "!python prepare/preprocess_train.py"
+      ],
+      "metadata": {
+        "id": "tUcljCLbS5O3"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title 训练文件调试\n",
+        "!PYTHONPATH=. python prepare/preprocess_zzz.py"
+      ],
+      "metadata": {
+        "id": "30fXnscFS7Wo"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title  设定模型备份\n",
+        "#@markdown **是否备份模型到云盘，colab随时爆炸建议备份，默认保存到云盘根目录Sovits5.0文件夹**\n",
+        "Save_to_drive = True #@param {type:\"boolean\"}\n",
+        "if Save_to_drive:\n",
+        "  !mkdir -p /content/so-vits-svc-5.0/chkpt/\n",
+        "  !rm -rf /content/so-vits-svc-5.0/chkpt/\n",
+        "  !mkdir -p /content/drive/MyDrive/Sovits5.0\n",
+        "  !ln -s /content/drive/MyDrive/Sovits5.0 /content/so-vits-svc-5.0/chkpt/"
+      ],
+      "metadata": {
+        "id": "hacR8qDFVOWo"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "#@title  开始训练\n",
+        "%load_ext tensorboard\n",
+        "%tensorboard --logdir /content/so-vits-svc-5.0/logs/\n",
+        "\n",
+        "!PYTHONPATH=. python svc_trainer.py -c configs/base.yaml -n sovits5.0"
+      ],
+      "metadata": {
+        "id": "5BIiKIAoU3Kd"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}