Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。
【音声認識コンペ】文学作品の音声を 文字起こししよう!📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。
モデルの構造はEnhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words, Nozawa, K., et al.(2024).を参考に音声特徴量をLLMの入力として使えるように射影しています。
poetry install
学習データのフォーマットは以下のようなCSVファイルを使用することを想定しています。
audio,sentence
音声データのPath1,正解ラベル1
音声データのPath2,正解ラベル2
・
・
・
Tip
データのフォーマットを変更したい場合、llm_asr/train/dataset.pyのLazySupervisedDatasetを変更してください。
poetry run python train.py
Tip
起動引数についてはllm_asr/train/arguments_dataclass.pyを参考にしてください。
poetry run python inference.py