Skip to content

Commit

Permalink
slightly modified
Browse files Browse the repository at this point in the history
  • Loading branch information
長澤春希 authored and 長澤春希 committed Dec 2, 2022
1 parent 817ca59 commit e2cadb3
Show file tree
Hide file tree
Showing 3 changed files with 10 additions and 3 deletions.
7 changes: 7 additions & 0 deletions chapters/ja/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -22,6 +22,13 @@
- local: chapter1/10
title: 章末クイズ

- title: 2. 🤗 Transformersの使用
sections:
- local: chapter2/4
title: トークナイザ
- local: chapter2/5
title: 複数系列の処理

- title: 4. モデルとトークナイザーの共有
sections:
- local: chapter4/1
Expand Down
4 changes: 2 additions & 2 deletions chapters/ja/chapter2/4.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -32,15 +32,15 @@ NLPのタスクにおいて、一般的に処理されるデータは生文で
Jim Henson was a puppeteer (Jim Hensonは人形師でした)
```

しかしながらモデルが処理できるのは数値のみなので、生文を数値に変換する方法を考える必要があります。トークナイザはまさにこの役割を担っているものであり、変換にはさまざまな方法があります。目的はモデルにとって最も意味のある表現を見つけることです。そして可能な限り、最小な表現を見つけることも目的としています
しかしながらモデルが処理できるのは数値のみなので、生文を数値に変換する方法を考える必要があります。トークナイザはまさにこの役割を担っているものであり、変換にはさまざまな方法があります。目的はモデルにとって最も意味のある表現を見つけることです。そして可能な限り、コンパクトな表現を見つけることも目的としています

ここではトークン化アルゴリズムの例をいくつか見ながら、トークン化に関する疑問を解消していきます。

## 単語ベース

<Youtube id="nhJxYji1aho"/>

最初に思い浮かぶトークナイズ方法は、_単語ベース_ のものです。一般に、いくつかのルールを設定するだけで非常に簡単に使用でき、そして多くの場合において適切な結果を得ることができます。例えば以下の画像のように、生のテキストを単語に分割し、それぞれの数値表現を見つけることが目的です。
最初に思い浮かぶトークナイズ方法は、_単語ベース_ のものです。一般に、いくつかのルールを設定するだけで非常に簡単に使用でき、そして多くの場合において適切な結果を得ることができます。例えば、以下の画像のように生のテキストを単語に分割し、それぞれの数値表現を見つけることが目的です。

<div class="flex justify-center">
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/word_based_tokenization.svg" alt="An example of word-based tokenization."/>
Expand Down
2 changes: 1 addition & 1 deletion chapters/ja/chapter2/5.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -31,7 +31,7 @@
前のセクションでは、最も単純な使用例である、単一の短い系列(テキスト)に対して推論を行う方法を見てきました。しかし、これについて以下のような疑問をお持ちの方もいるかもしれません。

- 複数の系列をどのように処理するのか?
- *異なる長さ*の複数の系列をどのように処理するのか
- 長さの異なる複数の系列をどのように処理するのか
- モデルがうまく機能するためには、単語のインデックスだけが入力として必要なのか?
- 系列が長すぎてしまうということはあるのか?

Expand Down

0 comments on commit e2cadb3

Please sign in to comment.