From 6ca90cc074f547c248f02208d5cd75835f857d18 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Mon, 8 Apr 2024 18:34:21 +0800 Subject: [PATCH 01/15] update AdaptiveLogSoftmaxWithLoss doc --- .../nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 44 +++++++++++++++++++ .../adaptive_log_softmax_with_loss_cn.rst | 28 ++++++++++++ 2 files changed, 72 insertions(+) create mode 100644 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst create mode 100644 docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst new file mode 100644 index 00000000000..747f5962ee8 --- /dev/null +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -0,0 +1,44 @@ +.. _cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss: + +AdaptiveLogSoftmaxWithLoss +------------------------------- + +.. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) +Efficient softmax approximation 的高效 softmax 逼近,正如 Edouard Grave、Armand Joulin、Moustapha Cissé、David Grangier 和 Hervé Jégou 在 Efficient softmax approximation for GPUs 一文中所述 https://arxiv.org/abs/1609.04309。 + +自适应 softmax 是一种用于训练具有大输出空间的模型的近似策略。当标签分布高度不平衡时,例如在自然语言建模中,其中单词频率分布大致遵循 Zipf's law_时,它最为有效。_Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law + +自适应 softmax 将标签分成几个簇,根据它们的频率。这些簇可能包含不同数量的目标。此外,包含较不频繁标签的簇为这些标签分配较低维度的嵌入,从而加速计算。对于每个小批量,仅评估至少存在一个目标的簇。 + +其思想是经常访问的簇(比如第一个簇,包含最频繁的标签),计算成本也应该较低,即包含少量分配的标签。我们建议查看原始论文以获取更多详细信息。 + +对于属性`cutoffs`,应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 + +对于属性`div_value`,用于计算每个附加簇的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是簇索引(对于较不频繁的单词,簇索引较大,索引从 :math:`1` 开始)。 + +对于属性`head_bias`,如果设置为 True,将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文。在官方实现中设置为 False。 + + +参数 +::::::::: + - **in_features** (int): 输入 tensor 的特征数量。 + - **n_classes** (int): 数据集中类型的个数。 + - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。 + - **div_value** (float, 可选): 用于计算簇大小的指数值. 默认值:4.0。 + - **head_bias** (bool, 可选): 如果为 ``True``,向自适应 softmax 的头部添加偏置项. 默认值:``False``. + - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 + +形状 +::::::::: + - **input** (Tensor): - 输入 Tensor,形状为[N, in_features],N 是批尺寸。 + - **label** (Tensor): - 目标值,形状为[N]。 + - **output1** (Tensor): - 形状为[N]。 + - **output2** (Scalar): - 标量,无形状 + +返回 +::::::::: +用于计算自适应 softmax 的可调用对象。 + +代码示例 +::::::::: +COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss \ No newline at end of file diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst new file mode 100644 index 00000000000..2133ae6d607 --- /dev/null +++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst @@ -0,0 +1,28 @@ +.. _cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss: + +adaptive_log_softmax_with_loss +------------------------------- + +.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None) +计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。 +请参考::ref:`_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss` + + +参数 +::::::::: + - **input** (Tensor): 输入张量,数据类型为 float32 或 float64。 + - **label** (Tensor): 标签张量,数据类型为 float32 或 float64。 + - **head_weight** (Tensor): 用于线性计算的权重矩阵,数据类型为 float32 或 float64。 + - **tail_weights** (Tensor): 用于线性计算的权重矩阵,数据类型为 float32 或 float64。 + - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。 + - **head_bias** (Tensor, 可选): 用于线性计算的偏置矩阵,数据类型为 float32 或 float64。 + - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 + +返回 +::::::::: + - **output** (Tensor): - 自适应 logsoftmax 计算结果,形状为[N]。 + - **loss** (Tensor): - input 和 label 之间的 logsoftmax 损失值。 + +代码示例 +::::::::: +COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss \ No newline at end of file From 6bff8e1ea9efd2d1990a3c92f035ac6531767782 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Mon, 8 Apr 2024 20:03:48 +0800 Subject: [PATCH 02/15] update AdaptiveLogSoftmaxWithLoss doc --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 747f5962ee8..d22ffcde7fd 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -41,4 +41,4 @@ Efficient softmax approximation 的高效 softmax 逼近,正如 Edouard Grave 代码示例 ::::::::: -COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss \ No newline at end of file +COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss From 79a276d12704e022911934e5fb3e98e109d71537 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Wed, 22 May 2024 16:23:34 +0800 Subject: [PATCH 03/15] update --- .../api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 13 ++++++------- 1 file changed, 6 insertions(+), 7 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index d22ffcde7fd..930110252c0 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -4,19 +4,18 @@ AdaptiveLogSoftmaxWithLoss ------------------------------- .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) -Efficient softmax approximation 的高效 softmax 逼近,正如 Edouard Grave、Armand Joulin、Moustapha Cissé、David Grangier 和 Hervé Jégou 在 Efficient softmax approximation for GPUs 一文中所述 https://arxiv.org/abs/1609.04309。 +自适应 softmax 是一种高效的策略,用于训练输出空间庞大的模型,尤其在标签分布显著不平衡的场合下效果显著。例如,在自然语言建模领域,单词出现的频率遵循 Zipf's law。Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law -自适应 softmax 是一种用于训练具有大输出空间的模型的近似策略。当标签分布高度不平衡时,例如在自然语言建模中,其中单词频率分布大致遵循 Zipf's law_时,它最为有效。_Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law +自适应 softmax 将标签按照频率划分为多个簇。每个簇包含的目标数量不同,且频率较低的标签所在的簇会采用较低维度的嵌入,这样做可以显著减少计算量。在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的簇才会被计算。 -自适应 softmax 将标签分成几个簇,根据它们的频率。这些簇可能包含不同数量的目标。此外,包含较不频繁标签的簇为这些标签分配较低维度的嵌入,从而加速计算。对于每个小批量,仅评估至少存在一个目标的簇。 +这种方法的设计理念是,频繁访问的簇(如包含最常见标签的初始簇)应该具有较低的计算成本,这意味着这些簇应该只包含少量的标签。 -其思想是经常访问的簇(比如第一个簇,包含最频繁的标签),计算成本也应该较低,即包含少量分配的标签。我们建议查看原始论文以获取更多详细信息。 +对于参数`cutoffs`,应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 -对于属性`cutoffs`,应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 +对于参数`div_value`,用于计算每个附加簇的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是簇索引(对于较不频繁的单词,簇索引较大,索引从 :math:`1` 开始)。 -对于属性`div_value`,用于计算每个附加簇的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是簇索引(对于较不频繁的单词,簇索引较大,索引从 :math:`1` 开始)。 +对于参数`head_bias`,如果设置为 True,将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 -对于属性`head_bias`,如果设置为 True,将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文。在官方实现中设置为 False。 参数 From 9d15b67dba58c256085f0005826f9bba4890b115 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Wed, 22 May 2024 16:23:58 +0800 Subject: [PATCH 04/15] update --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 930110252c0..2ec01187895 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -10,7 +10,7 @@ AdaptiveLogSoftmaxWithLoss 这种方法的设计理念是,频繁访问的簇(如包含最常见标签的初始簇)应该具有较低的计算成本,这意味着这些簇应该只包含少量的标签。 -对于参数`cutoffs`,应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 +对于参数`cutoffs`,按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 对于参数`div_value`,用于计算每个附加簇的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是簇索引(对于较不频繁的单词,簇索引较大,索引从 :math:`1` 开始)。 From d823924b025f43c8199decec3e94bfc1fc207071 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Thu, 23 May 2024 12:34:49 +0800 Subject: [PATCH 05/15] update --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 2ec01187895..194ee15cb83 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss ------------------------------- .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) -自适应 softmax 是一种高效的策略,用于训练输出空间庞大的模型,尤其在标签分布显著不平衡的场合下效果显著。例如,在自然语言建模领域,单词出现的频率遵循 Zipf's law。Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law +``AdaptiveLogSoftmaxWithLoss``是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 -自适应 softmax 将标签按照频率划分为多个簇。每个簇包含的目标数量不同,且频率较低的标签所在的簇会采用较低维度的嵌入,这样做可以显著减少计算量。在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的簇才会被计算。 +``AdaptiveLogSoftmaxWithLoss``将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 -这种方法的设计理念是,频繁访问的簇(如包含最常见标签的初始簇)应该具有较低的计算成本,这意味着这些簇应该只包含少量的标签。 +在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的组才会被计算。这种方法的设计理念是,频繁访问的组(如包含最常见标签的初始组)应该具有较低的计算成本。 -对于参数`cutoffs`,按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如,设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head',目标 11, 12, ..., 100 将分配到第一个簇,而目标 101, 102, ..., 1000 将分配到第二个簇,而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个,第三个簇。 +对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]``意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 -对于参数`div_value`,用于计算每个附加簇的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是簇索引(对于较不频繁的单词,簇索引较大,索引从 :math:`1` 开始)。 +对于参数 ``div_value``,用于计算每个附加组的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 -对于参数`head_bias`,如果设置为 True,将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 +对于参数 ``head_bias``,如果设置为 True,将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 From 362458cd2fb4df3b74fc90f1b8982bae32c35cf6 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Thu, 23 May 2024 12:37:13 +0800 Subject: [PATCH 06/15] update --- .../paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 14 +++++++------- 1 file changed, 7 insertions(+), 7 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 194ee15cb83..6cf6639150b 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -20,18 +20,18 @@ AdaptiveLogSoftmaxWithLoss 参数 ::::::::: - - **in_features** (int): 输入 tensor 的特征数量。 + - **in_features** (int): 输入 Tensor 的特征数量。 - **n_classes** (int): 数据集中类型的个数。 - - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。 - - **div_value** (float, 可选): 用于计算簇大小的指数值. 默认值:4.0。 - - **head_bias** (bool, 可选): 如果为 ``True``,向自适应 softmax 的头部添加偏置项. 默认值:``False``. + - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。 + - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值:4.0。 + - **head_bias** (bool, 可选): 如果为 ``True``, ``AdaptiveLogSoftmaxWithLoss``的头部添加偏置项. 默认值: ``False``. - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 形状 ::::::::: - - **input** (Tensor): - 输入 Tensor,形状为[N, in_features],N 是批尺寸。 - - **label** (Tensor): - 目标值,形状为[N]。 - - **output1** (Tensor): - 形状为[N]。 + - **input** (Tensor): - 输入 Tensor,形状为 ``[N, in_features]``, ``N`` 是批尺寸。 + - **label** (Tensor): - 目标值,形状为 ``[N]``。 + - **output1** (Tensor): - 形状为 ``[N]``。 - **output2** (Scalar): - 标量,无形状 返回 From cee06c7d18a651542534b4acc4a7b61cc14b04c5 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Thu, 23 May 2024 13:31:27 +0800 Subject: [PATCH 07/15] update --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 6cf6639150b..5149b6eafbe 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss ------------------------------- .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) -``AdaptiveLogSoftmaxWithLoss``是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 + ``AdaptiveLogSoftmaxWithLoss`` 是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 -``AdaptiveLogSoftmaxWithLoss``将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 + ``AdaptiveLogSoftmaxWithLoss`` 将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的组才会被计算。这种方法的设计理念是,频繁访问的组(如包含最常见标签的初始组)应该具有较低的计算成本。 -对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]``意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 +对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 -对于参数 ``div_value``,用于计算每个附加组的大小,其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`,其中 :math:`idx` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 +对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:`\[ \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor \]`,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 -对于参数 ``head_bias``,如果设置为 True,将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 +对于参数 ``head_bias``,如果设置为 True,将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 @@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss - **n_classes** (int): 数据集中类型的个数。 - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。 - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值:4.0。 - - **head_bias** (bool, 可选): 如果为 ``True``, ``AdaptiveLogSoftmaxWithLoss``的头部添加偏置项. 默认值: ``False``. + - **head_bias** (bool, 可选): 如果为 ``True``, ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 添加偏置项. 默认值: ``False``. - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 形状 From b3f37be4dbb3459e4f956c627b24a536e893a503 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Thu, 23 May 2024 14:58:11 +0800 Subject: [PATCH 08/15] finish --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 5149b6eafbe..5637e4befc8 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -12,7 +12,7 @@ AdaptiveLogSoftmaxWithLoss 对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 -对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:`\[ \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor \]`,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 +对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:` \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor `,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 对于参数 ``head_bias``,如果设置为 True,将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 From 036056dbc1328874fb3b0d9a5cbcde3dca00ec31 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Thu, 23 May 2024 15:55:02 +0800 Subject: [PATCH 09/15] update --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index 5637e4befc8..b8caf0c2696 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss ------------------------------- .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) - ``AdaptiveLogSoftmaxWithLoss`` 是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 +AdaptiveLogSoftmaxWithLoss是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 - ``AdaptiveLogSoftmaxWithLoss`` 将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 +AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的组才会被计算。这种方法的设计理念是,频繁访问的组(如包含最常见标签的初始组)应该具有较低的计算成本。 -对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 +对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到AdaptiveLogSoftmaxWithLoss的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 -对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:` \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor `,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 +对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:`\left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor`,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 -对于参数 ``head_bias``,如果设置为 True,将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 +对于参数 ``head_bias``,如果设置为 True,将在AdaptiveLogSoftmaxWithLoss的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 @@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss - **n_classes** (int): 数据集中类型的个数。 - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。 - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值:4.0。 - - **head_bias** (bool, 可选): 如果为 ``True``, ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 添加偏置项. 默认值: ``False``. + - **head_bias** (bool, 可选): 如果为 ``True``,AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项. 默认值: ``False``. - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 形状 From 49d0f7edb8cafa2df30c35e3548ddfd6ebcd35c3 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Wed, 12 Jun 2024 20:15:17 +0800 Subject: [PATCH 10/15] update --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 4 ++-- docs/api/paddle/nn/Overview_cn.rst | 4 +++- .../nn/functional/adaptive_log_softmax_with_loss_cn.rst | 5 +++-- 3 files changed, 8 insertions(+), 5 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index b8caf0c2696..c23ee3e2d09 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -23,8 +23,8 @@ AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组,每个组包 - **in_features** (int): 输入 Tensor 的特征数量。 - **n_classes** (int): 数据集中类型的个数。 - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。 - - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值:4.0。 - - **head_bias** (bool, 可选): 如果为 ``True``,AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项. 默认值: ``False``. + - **div_value** (float, 可选): 用于计算组大小的指数值。默认值:4.0。 + - **head_bias** (bool, 可选): 如果为 ``True``,AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项。默认值: ``False``. - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 形状 diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst index 0bb5c3724ac..fd0974d9cb5 100644 --- a/docs/api/paddle/nn/Overview_cn.rst +++ b/docs/api/paddle/nn/Overview_cn.rst @@ -272,6 +272,8 @@ Loss 层 " :ref:`paddle.nn.TripletMarginWithDistanceLoss ` ", "TripletMarginWithDistanceLoss 层" " :ref:`paddle.nn.MultiLabelSoftMarginLoss ` ", "多标签 Hinge 损失层" " :ref:`paddle.nn.MultiMarginLoss ` ", "MultiMarginLoss 层" + " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" + " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" .. _vision_layers: @@ -420,7 +422,7 @@ Padding 相关函数 " :ref:`paddle.nn.functional.tanhshrink ` ", "tanhshrink 激活函数" " :ref:`paddle.nn.functional.thresholded_relu ` ", "thresholded_relu 激活函数" " :ref:`paddle.nn.functional.thresholded_relu_ ` ", "Inplace 版本的 :ref:`cn_api_paddle_nn_functional_thresholded_relu` API,对输入 x 采用 Inplace 策略" - + .. _normalization_functional: Normalization 方法 diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst index 2133ae6d607..638cdace6ba 100644 --- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst +++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst @@ -3,9 +3,10 @@ adaptive_log_softmax_with_loss ------------------------------- -.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None) +.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None, name=None) + 计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。 -请参考::ref:`_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss` +请参考::ref:`cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss` 参数 From d79b9f2d28678ffa3acfcc5e51c53006f7f0429e Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Mon, 17 Jun 2024 13:50:34 +0800 Subject: [PATCH 11/15] finish --- docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 10 +++++----- docs/api/paddle/nn/Overview_cn.rst | 4 ++-- .../functional/adaptive_log_softmax_with_loss_cn.rst | 2 +- 3 files changed, 8 insertions(+), 8 deletions(-) diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst index c23ee3e2d09..f6f9bf8f5bd 100644 --- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst +++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst @@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss ------------------------------- .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None) -AdaptiveLogSoftmaxWithLoss是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 +AdaptiveLogSoftmaxWithLoss 是一种高效的策略,通常用于自然语言处理任务中的语言模型训练,尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。 -AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 +AdaptiveLogSoftmaxWithLoss 将标签按照频率划分为多个组,每个组包含的目标数量不同,且在频率较低的标签所在的组中会采用较低维度的嵌入,从而显著减少计算量。 在每个训练的小批量中,只有当至少有一个目标标签出现时,相应的组才会被计算。这种方法的设计理念是,频繁访问的组(如包含最常见标签的初始组)应该具有较低的计算成本。 -对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到AdaptiveLogSoftmaxWithLoss的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 +对于参数 ``cutoffs``,按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如,设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 AdaptiveLogSoftmaxWithLoss 的 ``head``,目标 11, 12, ..., 100 将分配到第一个组,而目标 101, 102, ..., 1000 将分配到第二个组,而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。 对于参数 ``div_value``,用于计算每个附加组的大小,其值为 :math:`\left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor`,其中 ``idx`` 是组索引(对于较不频繁的单词,组索引较大,索引从 :math:`1` 开始)。 -对于参数 ``head_bias``,如果设置为 True,将在AdaptiveLogSoftmaxWithLoss的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 +对于参数 ``head_bias``,如果设置为 True,将在 AdaptiveLogSoftmaxWithLoss 的 ``head`` 上添加偏置项。详细信息请参阅论文:https://arxiv.org/abs/1609.04309 。 @@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组,每个组包 - **n_classes** (int): 数据集中类型的个数。 - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。 - **div_value** (float, 可选): 用于计算组大小的指数值。默认值:4.0。 - - **head_bias** (bool, 可选): 如果为 ``True``,AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项。默认值: ``False``. + - **head_bias** (bool, 可选): 如果为 ``True``,AdaptiveLogSoftmaxWithLoss 的 ``head`` 添加偏置项。默认值: ``False``. - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`,一般无需设置,默认值为 None。 形状 diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst index fd0974d9cb5..646ad62771e 100644 --- a/docs/api/paddle/nn/Overview_cn.rst +++ b/docs/api/paddle/nn/Overview_cn.rst @@ -272,8 +272,8 @@ Loss 层 " :ref:`paddle.nn.TripletMarginWithDistanceLoss ` ", "TripletMarginWithDistanceLoss 层" " :ref:`paddle.nn.MultiLabelSoftMarginLoss ` ", "多标签 Hinge 损失层" " :ref:`paddle.nn.MultiMarginLoss ` ", "MultiMarginLoss 层" - " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" + " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" .. _vision_layers: @@ -422,7 +422,7 @@ Padding 相关函数 " :ref:`paddle.nn.functional.tanhshrink ` ", "tanhshrink 激活函数" " :ref:`paddle.nn.functional.thresholded_relu ` ", "thresholded_relu 激活函数" " :ref:`paddle.nn.functional.thresholded_relu_ ` ", "Inplace 版本的 :ref:`cn_api_paddle_nn_functional_thresholded_relu` API,对输入 x 采用 Inplace 策略" - + .. _normalization_functional: Normalization 方法 diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst index 638cdace6ba..6310e449ca0 100644 --- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst +++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst @@ -26,4 +26,4 @@ adaptive_log_softmax_with_loss 代码示例 ::::::::: -COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss \ No newline at end of file +COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss From b8fa5f1be88e975b28f92a95ea5e80867d052dd2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Mon, 17 Jun 2024 15:03:54 +0800 Subject: [PATCH 12/15] finish --- docs/api/paddle/nn/Overview_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst index 646ad62771e..f68cb99e0ce 100644 --- a/docs/api/paddle/nn/Overview_cn.rst +++ b/docs/api/paddle/nn/Overview_cn.rst @@ -272,8 +272,8 @@ Loss 层 " :ref:`paddle.nn.TripletMarginWithDistanceLoss ` ", "TripletMarginWithDistanceLoss 层" " :ref:`paddle.nn.MultiLabelSoftMarginLoss ` ", "多标签 Hinge 损失层" " :ref:`paddle.nn.MultiMarginLoss ` ", "MultiMarginLoss 层" - " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" + " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" .. _vision_layers: From 1788a1e82bbea01e3178931c9a5ed4f8be5a4dca Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <82378946+Chen-Lun-Hao@users.noreply.github.com> Date: Mon, 17 Jun 2024 16:07:50 +0800 Subject: [PATCH 13/15] Update docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst Co-authored-by: zachary sun <70642955+sunzhongkai588@users.noreply.github.com> --- .../paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst index 6310e449ca0..0832dffec91 100644 --- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst +++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst @@ -5,7 +5,7 @@ adaptive_log_softmax_with_loss .. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None, name=None) -计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。 +计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数 `head_weight`、`tail_weights`、`cutoffs`和 `head_bias` 是 `AdaptiveLogSoftmaxWithLoss` 的内部成员。 请参考::ref:`cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss` From 6e9a49103def52fd0c9f4582b9284fdf69b6f7cd Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com> Date: Mon, 17 Jun 2024 16:10:55 +0800 Subject: [PATCH 14/15] finish --- docs/api/paddle/nn/Overview_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst index f68cb99e0ce..2235a2009e3 100644 --- a/docs/api/paddle/nn/Overview_cn.rst +++ b/docs/api/paddle/nn/Overview_cn.rst @@ -272,7 +272,6 @@ Loss 层 " :ref:`paddle.nn.TripletMarginWithDistanceLoss ` ", "TripletMarginWithDistanceLoss 层" " :ref:`paddle.nn.MultiLabelSoftMarginLoss ` ", "多标签 Hinge 损失层" " :ref:`paddle.nn.MultiMarginLoss ` ", "MultiMarginLoss 层" - " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" @@ -510,6 +509,7 @@ Embedding 相关函数 " :ref:`paddle.nn.functional.triplet_margin_with_distance_loss ` ", "用户自定义距离函数用于计算 triplet margin loss 损失" " :ref:`paddle.nn.functional.multi_label_soft_margin_loss ` ", "用于计算多分类的 hinge loss 损失函数" " :ref:`paddle.nn.functional.multi_margin_loss ` ", "用于计算 multi margin loss 损失函数" + " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss ` ", "自适应 logsoftmax 损失函数" .. _common_functional: From 752e49e0ae25871bd10341cb30d461fe32b383b3 Mon Sep 17 00:00:00 2001 From: zachary sun <70642955+sunzhongkai588@users.noreply.github.com> Date: Tue, 18 Jun 2024 15:21:40 +0800 Subject: [PATCH 15/15] Update docs/api/paddle/nn/Overview_cn.rst --- docs/api/paddle/nn/Overview_cn.rst | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst index 2235a2009e3..4e318a96023 100644 --- a/docs/api/paddle/nn/Overview_cn.rst +++ b/docs/api/paddle/nn/Overview_cn.rst @@ -272,7 +272,7 @@ Loss 层 " :ref:`paddle.nn.TripletMarginWithDistanceLoss ` ", "TripletMarginWithDistanceLoss 层" " :ref:`paddle.nn.MultiLabelSoftMarginLoss ` ", "多标签 Hinge 损失层" " :ref:`paddle.nn.MultiMarginLoss ` ", "MultiMarginLoss 层" - " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类" + " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss ` ", "自适应 logsoftmax 损失类" .. _vision_layers: