Automatic Spelling Correction for Resource-Scarce Languages #576

ymym3412 · 2019-03-05T12:39:02Z

0. 論文

Automatic Spelling Correction for Resource-Scarce Languages
Pravallika Etoori, Manoj Chinnakotla, Radhika Mamidi

1. どんなもの？

リソースが少ない言語でのSpelling Correction向けの人工のデータセット構築とモデルの提案

2. 先行研究と比べてどこがすごい？

インド圏の言語向けの人工的なデータセットの作成

3. 技術や手法のキモはどこ？

インド圏のヒンディー語とテルグ語向けのSpelling Correctionでは、英語などと違いデータ量の少なさがネックとなる。
そこで、各言語の高頻度の語や映画のタイトルなどを収集してそれにノイズを加えてSpelling Correction向けのパラレルデータを作成した。
またモデルはseq2seq+attnを使用。

4. どうやって有効だと検証した？

ヒンディー、テルグ語でのSpelling CorrectionのAccuracyを計測。

5. 議論はある？

テルグ語ではデータ数が少ないため、ヒンディー語より高いaccuracyが出ている。今後はデータ拡充をするとのこと

6. 次に読むべき論文は？

A study of spell checking techniques for indian languages
Rakesh Kumar, Minu Bala, and Kumar Sourabh

ymym3412 added Machine Learning acl2018 Student Research Workshop labels Mar 5, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Automatic Spelling Correction for Resource-Scarce Languages #576

Automatic Spelling Correction for Resource-Scarce Languages #576

ymym3412 commented Mar 5, 2019

Automatic Spelling Correction for Resource-Scarce Languages #576

Automatic Spelling Correction for Resource-Scarce Languages #576

Comments

ymym3412 commented Mar 5, 2019

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？