Skip to content

Sentencepice

Shumpei Miyawaki edited this page Jun 25, 2020 · 1 revision

BPE (Byte Pair Encoding)

テキストの圧縮率を目的関数にして、貪欲的に分割を決定していくサブワード分割アルゴリズム. ナイーブに実装すると O(n^2) (nはテキスト長)

Sentence Piece

単語列からスタートするのではなく、生文から直接分割を学習. O(nlogn)

Clone this wiki locally