@@ -30,7 +30,7 @@ If this code look unfamiliar to you,
3030
31317
323200:00:18,330 --> 00:00:20,030
33- 请务必再次检查该视频 。
33+ 请务必再次查看该视频 。
3434be sure to check that video again.
3535
36368
@@ -40,12 +40,12 @@ Here will focus on tasks that classify pair of sentences.
4040
41419
424200:00:25,620 --> 00:00:28,470
43- 例如,我们可能想要对两个文本进行分类
43+ 例如,我们可能想要对两个文本是否被释义
4444For instance, we may want to classify whether two texts
4545
464610
474700:00:28,470 --> 00:00:30,360
48- 是否被释义 。
48+ 进行分类 。
4949are paraphrased or not.
5050
515111
@@ -90,8 +90,8 @@ a problem called natural language inference or NLI.
9090
919119
929200:00:53,970 --> 00:00:57,000
93- 在这个例子中,取自 MultiNLI 数据集 ,
94- In this example, taken from the MultiNLI dataset ,
93+ 在这个取自 MultiNLI 数据集的例子中 ,
94+ In this example, taken from the MultiNLI data set ,
9595
969620
979700:00:57,000 --> 00:00:59,880
@@ -100,7 +100,7 @@ we have a pair of sentences for each possible label.
100100
10110121
10210200:00:59,880 --> 00:01:02,490
103- 矛盾,自然的或必然的 ,
103+ 矛盾,自然的或蕴涵 ,
104104Contradiction, natural or entailment,
105105
10610622
@@ -115,12 +115,12 @@ implies the second.
115115
11611624
11711700:01:06,930 --> 00:01:08,820
118- 所以分类成对的句子是一个问题
118+ 所以分类成对的句子是一个
119119So classifying pairs of sentences is a problem
120120
12112125
12212200:01:08,820 --> 00:01:10,260
123- 值得被研究 。
123+ 值得研究的问题 。
124124worth studying.
125125
12612626
@@ -165,7 +165,7 @@ they often have an objective related to sentence pairs.
165165
16616634
16716700:01:31,230 --> 00:01:34,320
168- 例如,在预训练期间 BERT 显示
168+ 例如,在预训练期间 BERT 见到
169169For instance, during pretraining BERT is shown
170170
17117135
@@ -175,12 +175,12 @@ pairs of sentences and must predict both
175175
17617636
17717700:01:36,810 --> 00:01:39,930
178- 随机屏蔽 token 的价值,以及是否第二个
178+ 随机掩蔽的标记值,以及第二个是否
179179the value of randomly masked tokens, and whether the second
180180
18118137
18218200:01:39,930 --> 00:01:41,830
183- 句子从第一个开始, 或反之 。
183+ 句子是否接着第一个句子 。
184184sentence follow from the first or not.
185185
18618638
@@ -205,27 +205,27 @@ to the tokenizer.
205205
20620642
20720700:01:53,430 --> 00:01:55,470
208- 在输入 ID 和注意力掩码之上
208+ 在我们已经研究过的输入 ID
209209On top of the input IDs and the attention mask
210210
21121143
21221200:01:55,470 --> 00:01:56,970
213- 我们已经研究过 ,
213+ 和注意掩码之上 ,
214214we studied already,
215215
21621644
21721700:01:56,970 --> 00:01:59,910
218- 它返回一个名为 token 类型 ID 的新字段,
218+ 它返回一个名为标记类型 ID 的新字段,
219219it returns a new field called token type IDs,
220220
22122145
22222200:01:59,910 --> 00:02:01,790
223- 它告诉模型哪些 token 属于
223+ 它告诉模型哪些标记属于
224224which tells the model which tokens belong
225225
22622646
22722700:02:01,790 --> 00:02:03,630
228- 对于第一句话 ,
228+ 第一句话 ,
229229to the first sentence,
230230
23123147
@@ -245,12 +245,12 @@ aligned with the tokens they correspond to,
245245
24624650
24724700:02:12,180 --> 00:02:15,213
248- 它们各自的 token 类型 ID 和注意掩码。
248+ 它们各自的标记类型 ID 和注意掩码。
249249their respective token type ID and attention mask.
250250
25125151
25225200:02:16,080 --> 00:02:19,260
253- 我们可以看到 tokenizer 还添加了特殊 token 。
253+ 我们可以看到分词器还添加了特殊标记 。
254254We can see the tokenizer also added special tokens.
255255
25625652
@@ -260,12 +260,12 @@ So we have a CLS token, the tokens from the first sentence,
260260
26126153
26226200:02:22,620 --> 00:02:25,770
263- 一个 SEP token ,第二句话中的 token ,
263+ 一个 SEP 标记,第二句话中的标记,
264264a SEP token, the tokens from the second sentence,
265265
26626654
26726700:02:25,770 --> 00:02:27,003
268- 和最终的 SEP token 。
268+ 和最终的 SEP 标记 。
269269and a final SEP token.
270270
27127155
@@ -275,12 +275,12 @@ If we have several pairs of sentences,
275275
27627656
27727700:02:30,570 --> 00:02:32,840
278- 我们可以通过传递列表将它们标记在一起
278+ 我们可以通过第一句话的传递列表
279279we can tokenize them together by passing the list
280280
28128157
28228200:02:32,840 --> 00:02:36,630
283- 第一句话 ,然后是第二句话的列表
283+ 将它们标记在一起 ,然后是第二句话的列表
284284of first sentences, then the list of second sentences
285285
28628658
@@ -290,7 +290,7 @@ and all the keyword arguments we studied already
290290
29129159
29229200:02:39,300 --> 00:02:40,353
293- 像 padding=True 。
293+ 例如 padding=True。
294294like padding=True.
295295
29629660
@@ -300,17 +300,17 @@ Zooming in at the result,
300300
30130161
30230200:02:43,140 --> 00:02:45,030
303- 我们还可以看到标记化添加的填充
304- we can see also tokenize added padding
303+ 我们可以看到分词器如何添加填充
304+ we can see how the tokenizer added padding
305305
30630662
30730700:02:45,030 --> 00:02:48,090
308- 到第二对句子来制作两个输出
308+ 到第二对句子使得两个输出的
309309to the second pair sentences to make the two outputs
310310
31131163
31231200:02:48,090 --> 00:02:51,360
313- 相同的长度,并正确处理 token 类型 ID
313+ 长度相同,并正确处理标记类型 ID
314314the same length, and properly dealt with token type IDs
315315
31631664
0 commit comments