We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Automatic Spelling Correction for Resource-Scarce Languages Pravallika Etoori, Manoj Chinnakotla, Radhika Mamidi
リソースが少ない言語でのSpelling Correction向けの人工のデータセット構築とモデルの提案
インド圏の言語向けの人工的なデータセットの作成
インド圏のヒンディー語とテルグ語向けのSpelling Correctionでは、英語などと違いデータ量の少なさがネックとなる。 そこで、各言語の高頻度の語や映画のタイトルなどを収集してそれにノイズを加えてSpelling Correction向けのパラレルデータを作成した。 またモデルはseq2seq+attnを使用。
ヒンディー、テルグ語でのSpelling CorrectionのAccuracyを計測。
テルグ語ではデータ数が少ないため、ヒンディー語より高いaccuracyが出ている。今後はデータ拡充をするとのこと
A study of spell checking techniques for indian languages Rakesh Kumar, Minu Bala, and Kumar Sourabh
The text was updated successfully, but these errors were encountered:
No branches or pull requests
0. 論文
Automatic Spelling Correction for Resource-Scarce Languages
Pravallika Etoori, Manoj Chinnakotla, Radhika Mamidi
1. どんなもの?
リソースが少ない言語でのSpelling Correction向けの人工のデータセット構築とモデルの提案
2. 先行研究と比べてどこがすごい?
インド圏の言語向けの人工的なデータセットの作成
3. 技術や手法のキモはどこ?
インド圏のヒンディー語とテルグ語向けのSpelling Correctionでは、英語などと違いデータ量の少なさがネックとなる。
そこで、各言語の高頻度の語や映画のタイトルなどを収集してそれにノイズを加えてSpelling Correction向けのパラレルデータを作成した。
またモデルはseq2seq+attnを使用。
4. どうやって有効だと検証した?
ヒンディー、テルグ語でのSpelling CorrectionのAccuracyを計測。
5. 議論はある?
テルグ語ではデータ数が少ないため、ヒンディー語より高いaccuracyが出ている。今後はデータ拡充をするとのこと
6. 次に読むべき論文は?
A study of spell checking techniques for indian languages
Rakesh Kumar, Minu Bala, and Kumar Sourabh
The text was updated successfully, but these errors were encountered: