transformer-copy

論文

小川耀一朗, 山本和英. 「日本語誤り訂正における誤り傾向を考慮した擬似誤り生成」. 言語処理学会第26回年次大会 https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F2-3.pdf

デモサイト

https://app.jnlp.org/gec/

ディレクトリ構成

app
- アプリケーションのソースコード
corpus_scripts
- データセットの前処理などのスクリプト
data
- 使用するデータセットをここに入れる
data_art
- 擬似誤り生成したデータをここに入れる
dicts
- 語彙の辞書をここに入れる
- 実験で使用する分割単位に対応した辞書が必要になる
out
- data_bin
  - train,validデータセットのバイナリファイル
- data_bin_art
  - pseudoデータセットのバイナリファイル
- data_raw
  - testデータセットのrawファイル
- log
  - ログファイル
- models
  - モデルファイル
- results
  - generateの結果

実行手順

dataset

使用するデータセットを用意する

手順：

データセットをセグメント(単語分割等)する
train, valid, testに分割する
誤り文側と正解文側でファイルを分ける
dataディレクトリに配置する
ファイル名の例：
- corpus.train.src # 訓練データの誤り文側
- corpus.train.tgt # 訓練データの正解文側
- corpus.valid.src # 開発データの誤り文側
- corpus.valid.tgt # 開発データの正解文側

alignment

align.shを実行し、アライメントファイルを作成する fast_alignとmosesdecoderを事前にインストールしておき、そのパスを指定する必要がある

generate pseudo data

noise.shを実行し、擬似誤りデータセットを生成する

preprocess

preprocess.shを実行し、データセットの前処理を行う訓練データ(train, valid)はpreprocess_train.sh、評価データはpreprocess_test.shのように分けている前処理されたデータセットはout/data_binもしくはout/data_rawに出力される

pretrain

pretrain.shを実行し、データセット等を指定してpre-trainingを行うコマンド自体はtrain.shと同じで、オプションが異なる学習済みモデルはout/modelsに保存される

train

train.shを実行し、データセット等を指定してtrainを行う pretrainモデルを指定してfine-tuningしたい場合は--pretrained-model $pretrained_modelをオプションに追加する学習済みモデルはout/modelsに保存される

generate

generate.shを実行し、学習済みモデルを使って文生成を行う data_rowsは評価データのリスト、epochsはどのエポックのモデルかのリストで、for文でそれぞれを一度に実行するようにしている評価データのM2ファイルを用意しておく必要がある。ERRANTのerrant_parallelを使用してM2ファイルを作成する。 python2を実行できるようにしておく必要がある生成データはout/resultsに保存される

参考

https://github.com/zhawe01/fairseq-gec

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
app		app
corpus_scripts		corpus_scripts
data		data
data_art		data_art
dicts		dicts
docs		docs
fairseq		fairseq
gec_scripts		gec_scripts
option_files		option_files
out		out
scripts		scripts
.gitignore		.gitignore
README.md		README.md
align.sh		align.sh
config.sh		config.sh
eval_lm.py		eval_lm.py
gec_model.py		gec_model.py
gec_model.sh		gec_model.sh
generate.py		generate.py
generate.sh		generate.sh
generate_ensemble.sh		generate_ensemble.sh
interactive.py		interactive.py
interactive.sh		interactive.sh
lm_model.py		lm_model.py
noise.py		noise.py
noise.sh		noise.sh
noise_ja.py		noise_ja.py
noise_ja.sh		noise_ja.sh
preprocess.py		preprocess.py
preprocess.sh		preprocess.sh
preprocess_lm_data.sh		preprocess_lm_data.sh
preprocess_noise_data.sh		preprocess_noise_data.sh
preprocess_test.sh		preprocess_test.sh
preprocess_train.sh		preprocess_train.sh
pretrain.sh		pretrain.sh
setup.py		setup.py
train.py		train.py
train.sh		train.sh
train_lm.sh		train_lm.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

transformer-copy

論文

デモサイト

ディレクトリ構成

実行手順

dataset

alignment

generate pseudo data

preprocess

pretrain

train

generate

参考

About

Languages

youichiro/transformer-copy

Folders and files

Latest commit

History

Repository files navigation

transformer-copy

論文

デモサイト

ディレクトリ構成

実行手順

dataset

alignment

generate pseudo data

preprocess

pretrain

train

generate

参考

About

Resources

Stars

Watchers

Forks

Languages