Skip to content

Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード

License

Notifications You must be signed in to change notification settings

tosiyuki/llm-jp-asr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

llm-jp-asr

Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。

【音声認識コンペ】文学作品の音声を 文字起こししよう!📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。

モデルの構造はEnhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words, Nozawa, K., et al.(2024).を参考に音声特徴量をLLMの入力として使えるように射影しています。

環境構築

poetry install

学習データのフォーマット

学習データのフォーマットは以下のようなCSVファイルを使用することを想定しています。

audio,sentence
音声データのPath1,正解ラベル1
音声データのPath2,正解ラベル2
・
・
・

Tip

データのフォーマットを変更したい場合、llm_asr/train/dataset.pyのLazySupervisedDatasetを変更してください。

実行

学習

poetry run python train.py

Tip

起動引数についてはllm_asr/train/arguments_dataclass.pyを参考にしてください。

推論

poetry run python inference.py

About

Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages