Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Automatic Spelling Correction for Resource-Scarce Languages #576

Open
ymym3412 opened this issue Mar 5, 2019 · 0 comments
Open

Automatic Spelling Correction for Resource-Scarce Languages #576

ymym3412 opened this issue Mar 5, 2019 · 0 comments

Comments

@ymym3412
Copy link
Owner

ymym3412 commented Mar 5, 2019

0. 論文

Automatic Spelling Correction for Resource-Scarce Languages
Pravallika Etoori, Manoj Chinnakotla, Radhika Mamidi

1. どんなもの?

リソースが少ない言語でのSpelling Correction向けの人工のデータセット構築とモデルの提案

2. 先行研究と比べてどこがすごい?

インド圏の言語向けの人工的なデータセットの作成

3. 技術や手法のキモはどこ?

インド圏のヒンディー語とテルグ語向けのSpelling Correctionでは、英語などと違いデータ量の少なさがネックとなる。
そこで、各言語の高頻度の語や映画のタイトルなどを収集してそれにノイズを加えてSpelling Correction向けのパラレルデータを作成した。
またモデルはseq2seq+attnを使用。

4. どうやって有効だと検証した?

ヒンディー、テルグ語でのSpelling CorrectionのAccuracyを計測。

5. 議論はある?

テルグ語ではデータ数が少ないため、ヒンディー語より高いaccuracyが出ている。今後はデータ拡充をするとのこと

6. 次に読むべき論文は?

A study of spell checking techniques for indian languages
Rakesh Kumar, Minu Bala, and Kumar Sourabh

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant