llm-jp-asr

Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。

【音声認識コンペ】文学作品の音声を文字起こししよう！📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。

モデルの構造はEnhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words, Nozawa, K., et al.(2024).を参考に音声特徴量をLLMの入力として使えるように射影しています。

環境構築

poetry install

学習データのフォーマット

学習データのフォーマットは以下のようなCSVファイルを使用することを想定しています。

audio,sentence
音声データのPath1,正解ラベル1
音声データのPath2,正解ラベル2
・
・
・

Tip

データのフォーマットを変更したい場合、llm_asr/train/dataset.pyのLazySupervisedDatasetを変更してください。

実行

学習

poetry run python train.py

Tip

起動引数についてはllm_asr/train/arguments_dataclass.pyを参考にしてください。

推論

poetry run python inference.py

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
imgs		imgs
llm_asr		llm_asr
LICENSE		LICENSE
README.md		README.md
inference.py		inference.py
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

llm-jp-asr

環境構築

学習データのフォーマット

実行

学習

推論

About

Releases

Packages

Languages

License

tosiyuki/llm-jp-asr

Folders and files

Latest commit

History

Repository files navigation

llm-jp-asr

環境構築

学習データのフォーマット

実行

学習

推論

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages