From 6ca90cc074f547c248f02208d5cd75835f857d18 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Mon, 8 Apr 2024 18:34:21 +0800
Subject: [PATCH 01/15] update AdaptiveLogSoftmaxWithLoss doc

---
 .../nn/AdaptiveLogSoftmaxWithLoss_cn.rst      | 44 +++++++++++++++++++
 .../adaptive_log_softmax_with_loss_cn.rst     | 28 ++++++++++++
 2 files changed, 72 insertions(+)
 create mode 100644 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
 create mode 100644 docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
new file mode 100644
index 00000000000..747f5962ee8
--- /dev/null
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -0,0 +1,44 @@
+.. _cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss:
+
+AdaptiveLogSoftmaxWithLoss
+-------------------------------
+
+.. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
+Efficient softmax approximation 的高效 softmax 逼近，正如 Edouard Grave、Armand Joulin、Moustapha Cissé、David Grangier 和 Hervé Jégou 在 Efficient softmax approximation for GPUs 一文中所述 https://arxiv.org/abs/1609.04309。
+
+自适应 softmax 是一种用于训练具有大输出空间的模型的近似策略。当标签分布高度不平衡时，例如在自然语言建模中，其中单词频率分布大致遵循 Zipf's law_时，它最为有效。_Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law
+
+自适应 softmax 将标签分成几个簇，根据它们的频率。这些簇可能包含不同数量的目标。此外，包含较不频繁标签的簇为这些标签分配较低维度的嵌入，从而加速计算。对于每个小批量，仅评估至少存在一个目标的簇。
+
+其思想是经常访问的簇（比如第一个簇，包含最频繁的标签），计算成本也应该较低，即包含少量分配的标签。我们建议查看原始论文以获取更多详细信息。
+
+对于属性`cutoffs`，应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
+
+对于属性`div_value`，用于计算每个附加簇的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是簇索引（对于较不频繁的单词，簇索引较大，索引从 :math:`1` 开始）。
+
+对于属性`head_bias`，如果设置为 True，将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文。在官方实现中设置为 False。
+
+
+参数
+:::::::::
+    - **in_features** (int): 输入 tensor 的特征数量。
+    - **n_classes** (int): 数据集中类型的个数。
+    - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。
+    - **div_value** (float, 可选): 用于计算簇大小的指数值. 默认值：4.0。
+    - **head_bias** (bool, 可选): 如果为 ``True``，向自适应 softmax 的头部添加偏置项. 默认值：``False``.
+    - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
+
+形状
+:::::::::
+    - **input** (Tensor): - 输入 Tensor，形状为[N, in_features]，N 是批尺寸。
+    - **label** (Tensor): - 目标值，形状为[N]。
+    - **output1** (Tensor): - 形状为[N]。
+    - **output2** (Scalar): - 标量，无形状
+
+返回
+:::::::::
+用于计算自适应 softmax 的可调用对象。
+
+代码示例
+:::::::::
+COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss
\ No newline at end of file
diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
new file mode 100644
index 00000000000..2133ae6d607
--- /dev/null
+++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
@@ -0,0 +1,28 @@
+.. _cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss:
+
+adaptive_log_softmax_with_loss
+-------------------------------
+
+.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None)
+计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。
+请参考：:ref:`_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss`
+
+
+参数
+:::::::::
+    - **input** (Tensor): 输入张量，数据类型为 float32 或 float64。
+    - **label** (Tensor): 标签张量，数据类型为 float32 或 float64。
+    - **head_weight** (Tensor): 用于线性计算的权重矩阵，数据类型为 float32 或 float64。
+    - **tail_weights** (Tensor): 用于线性计算的权重矩阵，数据类型为 float32 或 float64。
+    - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。
+    - **head_bias** (Tensor, 可选): 用于线性计算的偏置矩阵，数据类型为 float32 或 float64。
+    - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
+
+返回
+:::::::::
+    - **output** (Tensor): - 自适应 logsoftmax 计算结果，形状为[N]。
+    - **loss** (Tensor): - input 和 label 之间的 logsoftmax 损失值。
+
+代码示例
+:::::::::
+COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss
\ No newline at end of file

From 6bff8e1ea9efd2d1990a3c92f035ac6531767782 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Mon, 8 Apr 2024 20:03:48 +0800
Subject: [PATCH 02/15] update AdaptiveLogSoftmaxWithLoss doc

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 747f5962ee8..d22ffcde7fd 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -41,4 +41,4 @@ Efficient softmax approximation 的高效 softmax 逼近，正如 Edouard Grave
 
 代码示例
 :::::::::
-COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss
\ No newline at end of file
+COPY-FROM: paddle.nn.AdaptiveLogSoftmaxWithLoss

From 79a276d12704e022911934e5fb3e98e109d71537 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Wed, 22 May 2024 16:23:34 +0800
Subject: [PATCH 03/15] update

---
 .../api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index d22ffcde7fd..930110252c0 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -4,19 +4,18 @@ AdaptiveLogSoftmaxWithLoss
 -------------------------------
 
 .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
-Efficient softmax approximation 的高效 softmax 逼近，正如 Edouard Grave、Armand Joulin、Moustapha Cissé、David Grangier 和 Hervé Jégou 在 Efficient softmax approximation for GPUs 一文中所述 https://arxiv.org/abs/1609.04309。
+自适应 softmax 是一种高效的策略，用于训练输出空间庞大的模型，尤其在标签分布显著不平衡的场合下效果显著。例如，在自然语言建模领域，单词出现的频率遵循 Zipf's law。Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law
 
-自适应 softmax 是一种用于训练具有大输出空间的模型的近似策略。当标签分布高度不平衡时，例如在自然语言建模中，其中单词频率分布大致遵循 Zipf's law_时，它最为有效。_Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law
+自适应 softmax 将标签按照频率划分为多个簇。每个簇包含的目标数量不同，且频率较低的标签所在的簇会采用较低维度的嵌入，这样做可以显著减少计算量。在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的簇才会被计算。
 
-自适应 softmax 将标签分成几个簇，根据它们的频率。这些簇可能包含不同数量的目标。此外，包含较不频繁标签的簇为这些标签分配较低维度的嵌入，从而加速计算。对于每个小批量，仅评估至少存在一个目标的簇。
+这种方法的设计理念是，频繁访问的簇（如包含最常见标签的初始簇）应该具有较低的计算成本，这意味着这些簇应该只包含少量的标签。
 
-其思想是经常访问的簇（比如第一个簇，包含最频繁的标签），计算成本也应该较低，即包含少量分配的标签。我们建议查看原始论文以获取更多详细信息。
+对于参数`cutoffs`，应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
 
-对于属性`cutoffs`，应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
+对于参数`div_value`，用于计算每个附加簇的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是簇索引（对于较不频繁的单词，簇索引较大，索引从 :math:`1` 开始）。
 
-对于属性`div_value`，用于计算每个附加簇的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是簇索引（对于较不频繁的单词，簇索引较大，索引从 :math:`1` 开始）。
+对于参数`head_bias`，如果设置为 True，将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 
-对于属性`head_bias`，如果设置为 True，将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文。在官方实现中设置为 False。
 
 
 参数

From 9d15b67dba58c256085f0005826f9bba4890b115 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Wed, 22 May 2024 16:23:58 +0800
Subject: [PATCH 04/15] update

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 930110252c0..2ec01187895 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -10,7 +10,7 @@ AdaptiveLogSoftmaxWithLoss
 
 这种方法的设计理念是，频繁访问的簇（如包含最常见标签的初始簇）应该具有较低的计算成本，这意味着这些簇应该只包含少量的标签。
 
-对于参数`cutoffs`，应该是按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
+对于参数`cutoffs`，按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
 
 对于参数`div_value`，用于计算每个附加簇的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是簇索引（对于较不频繁的单词，簇索引较大，索引从 :math:`1` 开始）。
 

From d823924b025f43c8199decec3e94bfc1fc207071 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Thu, 23 May 2024 12:34:49 +0800
Subject: [PATCH 05/15] update

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 2ec01187895..194ee15cb83 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss
 -------------------------------
 
 .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
-自适应 softmax 是一种高效的策略，用于训练输出空间庞大的模型，尤其在标签分布显著不平衡的场合下效果显著。例如，在自然语言建模领域，单词出现的频率遵循 Zipf's law。Zipf's law: https://en.wikipedia.org/wiki/Zipf%27s_law
+``AdaptiveLogSoftmaxWithLoss``是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
 
-自适应 softmax 将标签按照频率划分为多个簇。每个簇包含的目标数量不同，且频率较低的标签所在的簇会采用较低维度的嵌入，这样做可以显著减少计算量。在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的簇才会被计算。
+``AdaptiveLogSoftmaxWithLoss``将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
 
-这种方法的设计理念是，频繁访问的簇（如包含最常见标签的初始簇）应该具有较低的计算成本，这意味着这些簇应该只包含少量的标签。
+在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的组才会被计算。这种方法的设计理念是，频繁访问的组（如包含最常见标签的初始组）应该具有较低的计算成本。
 
-对于参数`cutoffs`，按升序排序的整数序列。它控制簇的数量和目标分配到簇的方式。例如，设置 cutoffs = [10, 100, 1000]意味着前 10 个目标将分配到自适应 softmax 的'head'，目标 11, 12, ..., 100 将分配到第一个簇，而目标 101, 102, ..., 1000 将分配到第二个簇，而目标 1001, 1002, ..., n_classes - 1 将分配到最后一个，第三个簇。
+对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]``意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
 
-对于参数`div_value`，用于计算每个附加簇的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是簇索引（对于较不频繁的单词，簇索引较大，索引从 :math:`1` 开始）。
+对于参数 ``div_value``，用于计算每个附加组的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
 
-对于参数`head_bias`，如果设置为 True，将在自适应 softmax 的'head'上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
+对于参数 ``head_bias``，如果设置为 True，将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 
 
 

From 362458cd2fb4df3b74fc90f1b8982bae32c35cf6 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Thu, 23 May 2024 12:37:13 +0800
Subject: [PATCH 06/15] update

---
 .../paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst    | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 194ee15cb83..6cf6639150b 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -20,18 +20,18 @@ AdaptiveLogSoftmaxWithLoss
 
 参数
 :::::::::
-    - **in_features** (int): 输入 tensor 的特征数量。
+    - **in_features** (int): 输入 Tensor 的特征数量。
     - **n_classes** (int): 数据集中类型的个数。
-    - **cutoffs** (Sequence): 用于将 label 分配到不同存储桶的截断值。
-    - **div_value** (float, 可选): 用于计算簇大小的指数值. 默认值：4.0。
-    - **head_bias** (bool, 可选): 如果为 ``True``，向自适应 softmax 的头部添加偏置项. 默认值：``False``.
+    - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。
+    - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值：4.0。
+    - **head_bias** (bool, 可选): 如果为 ``True``， ``AdaptiveLogSoftmaxWithLoss``的头部添加偏置项. 默认值： ``False``.
     - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状
 :::::::::
-    - **input** (Tensor): - 输入 Tensor，形状为[N, in_features]，N 是批尺寸。
-    - **label** (Tensor): - 目标值，形状为[N]。
-    - **output1** (Tensor): - 形状为[N]。
+    - **input** (Tensor): - 输入 Tensor，形状为 ``[N, in_features]``， ``N`` 是批尺寸。
+    - **label** (Tensor): - 目标值，形状为 ``[N]``。
+    - **output1** (Tensor): - 形状为 ``[N]``。
     - **output2** (Scalar): - 标量，无形状
 
 返回

From cee06c7d18a651542534b4acc4a7b61cc14b04c5 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Thu, 23 May 2024 13:31:27 +0800
Subject: [PATCH 07/15] update

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 6cf6639150b..5149b6eafbe 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss
 -------------------------------
 
 .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
-``AdaptiveLogSoftmaxWithLoss``是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
+ ``AdaptiveLogSoftmaxWithLoss`` 是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
 
-``AdaptiveLogSoftmaxWithLoss``将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
+ ``AdaptiveLogSoftmaxWithLoss`` 将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
 
 在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的组才会被计算。这种方法的设计理念是，频繁访问的组（如包含最常见标签的初始组）应该具有较低的计算成本。
 
-对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]``意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
+对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
 
-对于参数 ``div_value``，用于计算每个附加组的大小，其值为:math:`\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor`，其中 :math:`idx` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
+对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:`\[ \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor \]`，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
 
-对于参数 ``head_bias``，如果设置为 True，将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
+对于参数 ``head_bias``，如果设置为 True，将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 
 
 
@@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss
     - **n_classes** (int): 数据集中类型的个数。
     - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。
     - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值：4.0。
-    - **head_bias** (bool, 可选): 如果为 ``True``， ``AdaptiveLogSoftmaxWithLoss``的头部添加偏置项. 默认值： ``False``.
+    - **head_bias** (bool, 可选): 如果为 ``True``， ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 添加偏置项. 默认值： ``False``.
     - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状

From b3f37be4dbb3459e4f956c627b24a536e893a503 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Thu, 23 May 2024 14:58:11 +0800
Subject: [PATCH 08/15] finish

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 5149b6eafbe..5637e4befc8 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -12,7 +12,7 @@ AdaptiveLogSoftmaxWithLoss
 
 对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
 
-对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:`\[ \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor \]`，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
+对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:` \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor `，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
 
 对于参数 ``head_bias``，如果设置为 True，将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 

From 036056dbc1328874fb3b0d9a5cbcde3dca00ec31 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Thu, 23 May 2024 15:55:02 +0800
Subject: [PATCH 09/15] update

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index 5637e4befc8..b8caf0c2696 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss
 -------------------------------
 
 .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
- ``AdaptiveLogSoftmaxWithLoss`` 是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
+AdaptiveLogSoftmaxWithLoss是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
 
- ``AdaptiveLogSoftmaxWithLoss`` 将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
+AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
 
 在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的组才会被计算。这种方法的设计理念是，频繁访问的组（如包含最常见标签的初始组）应该具有较低的计算成本。
 
-对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
+对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到AdaptiveLogSoftmaxWithLoss的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
 
-对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:` \left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor `，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
+对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:`\left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor`，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
 
-对于参数 ``head_bias``，如果设置为 True，将在 ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
+对于参数 ``head_bias``，如果设置为 True，将在AdaptiveLogSoftmaxWithLoss的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 
 
 
@@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss
     - **n_classes** (int): 数据集中类型的个数。
     - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。
     - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值：4.0。
-    - **head_bias** (bool, 可选): 如果为 ``True``， ``AdaptiveLogSoftmaxWithLoss`` 的 ``head`` 添加偏置项. 默认值： ``False``.
+    - **head_bias** (bool, 可选): 如果为 ``True``，AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项. 默认值： ``False``.
     - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状

From 49d0f7edb8cafa2df30c35e3548ddfd6ebcd35c3 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Wed, 12 Jun 2024 20:15:17 +0800
Subject: [PATCH 10/15] update

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst         | 4 ++--
 docs/api/paddle/nn/Overview_cn.rst                           | 4 +++-
 .../nn/functional/adaptive_log_softmax_with_loss_cn.rst      | 5 +++--
 3 files changed, 8 insertions(+), 5 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index b8caf0c2696..c23ee3e2d09 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -23,8 +23,8 @@ AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组，每个组包
     - **in_features** (int): 输入 Tensor 的特征数量。
     - **n_classes** (int): 数据集中类型的个数。
     - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。
-    - **div_value** (float, 可选): 用于计算组大小的指数值. 默认值：4.0。
-    - **head_bias** (bool, 可选): 如果为 ``True``，AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项. 默认值： ``False``.
+    - **div_value** (float, 可选): 用于计算组大小的指数值。默认值：4.0。
+    - **head_bias** (bool, 可选): 如果为 ``True``，AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项。默认值： ``False``.
     - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状
diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index 0bb5c3724ac..fd0974d9cb5 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -272,6 +272,8 @@ Loss 层
     " :ref:`paddle.nn.TripletMarginWithDistanceLoss <cn_api_paddle_nn_TripletMarginWithDistanceLoss>` ", "TripletMarginWithDistanceLoss 层"
     " :ref:`paddle.nn.MultiLabelSoftMarginLoss <cn_api_paddle_nn_MultiLabelSoftMarginLoss>` ", "多标签 Hinge 损失层"
     " :ref:`paddle.nn.MultiMarginLoss <cn_api_paddle_nn_MultiMarginLoss>` ", "MultiMarginLoss 层"
+    " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
+    " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
 
 
 .. _vision_layers:
@@ -420,7 +422,7 @@ Padding 相关函数
     " :ref:`paddle.nn.functional.tanhshrink <cn_api_paddle_nn_functional_tanhshrink>` ", "tanhshrink 激活函数"
     " :ref:`paddle.nn.functional.thresholded_relu <cn_api_paddle_nn_functional_thresholded_relu>` ", "thresholded_relu 激活函数"
     " :ref:`paddle.nn.functional.thresholded_relu_ <cn_api_paddle_nn_functional_thresholded_relu_>` ", "Inplace 版本的 :ref:`cn_api_paddle_nn_functional_thresholded_relu` API，对输入 x 采用 Inplace 策略"
-
+    
 .. _normalization_functional:
 
 Normalization 方法
diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
index 2133ae6d607..638cdace6ba 100644
--- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
+++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
@@ -3,9 +3,10 @@
 adaptive_log_softmax_with_loss
 -------------------------------
 
-.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None)
+.. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None, name=None)
+
 计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。
-请参考：:ref:`_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss`
+请参考：:ref:`cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss`
 
 
 参数

From d79b9f2d28678ffa3acfcc5e51c53006f7f0429e Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Mon, 17 Jun 2024 13:50:34 +0800
Subject: [PATCH 11/15] finish

---
 docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst   | 10 +++++-----
 docs/api/paddle/nn/Overview_cn.rst                     |  4 ++--
 .../functional/adaptive_log_softmax_with_loss_cn.rst   |  2 +-
 3 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
index c23ee3e2d09..f6f9bf8f5bd 100644
--- a/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
+++ b/docs/api/paddle/nn/AdaptiveLogSoftmaxWithLoss_cn.rst
@@ -4,17 +4,17 @@ AdaptiveLogSoftmaxWithLoss
 -------------------------------
 
 .. py:class:: paddle.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, name=None)
-AdaptiveLogSoftmaxWithLoss是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
+AdaptiveLogSoftmaxWithLoss 是一种高效的策略，通常用于自然语言处理任务中的语言模型训练，尤其是在处理具有大量词汇且标签分布显著不平衡的语料库时。
 
-AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
+AdaptiveLogSoftmaxWithLoss 将标签按照频率划分为多个组，每个组包含的目标数量不同，且在频率较低的标签所在的组中会采用较低维度的嵌入，从而显著减少计算量。
 
 在每个训练的小批量中，只有当至少有一个目标标签出现时，相应的组才会被计算。这种方法的设计理念是，频繁访问的组（如包含最常见标签的初始组）应该具有较低的计算成本。
 
-对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到AdaptiveLogSoftmaxWithLoss的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
+对于参数 ``cutoffs``，按升序排序的整数序列。它控制组的数量和目标分配到组的方式。例如，设置 ``cutoffs = [10, 100, 1000]`` 意味着前 10 个目标将分配到 AdaptiveLogSoftmaxWithLoss 的 ``head``，目标 11, 12, ..., 100 将分配到第一个组，而目标 101, 102, ..., 1000 将分配到第二个组，而目标 1001, 1002, ..., n_classes - 1 将分配到第三个组。
 
 对于参数 ``div_value``，用于计算每个附加组的大小，其值为 :math:`\left\lfloor \frac{\text{in\_features}}{\text{div\_value}^{\text{idx}}} \right\rfloor`，其中 ``idx`` 是组索引（对于较不频繁的单词，组索引较大，索引从 :math:`1` 开始）。
 
-对于参数 ``head_bias``，如果设置为 True，将在AdaptiveLogSoftmaxWithLoss的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
+对于参数 ``head_bias``，如果设置为 True，将在 AdaptiveLogSoftmaxWithLoss 的 ``head`` 上添加偏置项。详细信息请参阅论文：https://arxiv.org/abs/1609.04309 。
 
 
 
@@ -24,7 +24,7 @@ AdaptiveLogSoftmaxWithLoss将标签按照频率划分为多个组，每个组包
     - **n_classes** (int): 数据集中类型的个数。
     - **cutoffs** (Sequence): 用于将 label 分配到不同存储组的截断值。
     - **div_value** (float, 可选): 用于计算组大小的指数值。默认值：4.0。
-    - **head_bias** (bool, 可选): 如果为 ``True``，AdaptiveLogSoftmaxWithLoss的 ``head`` 添加偏置项。默认值： ``False``.
+    - **head_bias** (bool, 可选): 如果为 ``True``，AdaptiveLogSoftmaxWithLoss 的 ``head`` 添加偏置项。默认值： ``False``.
     - **name** (str, 可选): 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 形状
diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index fd0974d9cb5..646ad62771e 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -272,8 +272,8 @@ Loss 层
     " :ref:`paddle.nn.TripletMarginWithDistanceLoss <cn_api_paddle_nn_TripletMarginWithDistanceLoss>` ", "TripletMarginWithDistanceLoss 层"
     " :ref:`paddle.nn.MultiLabelSoftMarginLoss <cn_api_paddle_nn_MultiLabelSoftMarginLoss>` ", "多标签 Hinge 损失层"
     " :ref:`paddle.nn.MultiMarginLoss <cn_api_paddle_nn_MultiMarginLoss>` ", "MultiMarginLoss 层"
-    " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
     " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
+    " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
 
 
 .. _vision_layers:
@@ -422,7 +422,7 @@ Padding 相关函数
     " :ref:`paddle.nn.functional.tanhshrink <cn_api_paddle_nn_functional_tanhshrink>` ", "tanhshrink 激活函数"
     " :ref:`paddle.nn.functional.thresholded_relu <cn_api_paddle_nn_functional_thresholded_relu>` ", "thresholded_relu 激活函数"
     " :ref:`paddle.nn.functional.thresholded_relu_ <cn_api_paddle_nn_functional_thresholded_relu_>` ", "Inplace 版本的 :ref:`cn_api_paddle_nn_functional_thresholded_relu` API，对输入 x 采用 Inplace 策略"
-    
+
 .. _normalization_functional:
 
 Normalization 方法
diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
index 638cdace6ba..6310e449ca0 100644
--- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
+++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
@@ -26,4 +26,4 @@ adaptive_log_softmax_with_loss
 
 代码示例
 :::::::::
-COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss
\ No newline at end of file
+COPY-FROM: paddle.nn.functional.adaptive_log_softmax_with_loss

From b8fa5f1be88e975b28f92a95ea5e80867d052dd2 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Mon, 17 Jun 2024 15:03:54 +0800
Subject: [PATCH 12/15] finish

---
 docs/api/paddle/nn/Overview_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index 646ad62771e..f68cb99e0ce 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -272,8 +272,8 @@ Loss 层
     " :ref:`paddle.nn.TripletMarginWithDistanceLoss <cn_api_paddle_nn_TripletMarginWithDistanceLoss>` ", "TripletMarginWithDistanceLoss 层"
     " :ref:`paddle.nn.MultiLabelSoftMarginLoss <cn_api_paddle_nn_MultiLabelSoftMarginLoss>` ", "多标签 Hinge 损失层"
     " :ref:`paddle.nn.MultiMarginLoss <cn_api_paddle_nn_MultiMarginLoss>` ", "MultiMarginLoss 层"
-    " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
     " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
+    " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
 
 
 .. _vision_layers:

From 1788a1e82bbea01e3178931c9a5ed4f8be5a4dca Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <82378946+Chen-Lun-Hao@users.noreply.github.com>
Date: Mon, 17 Jun 2024 16:07:50 +0800
Subject: [PATCH 13/15] Update
 docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst

Co-authored-by: zachary sun <70642955+sunzhongkai588@users.noreply.github.com>
---
 .../paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst  | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
index 6310e449ca0..0832dffec91 100644
--- a/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
+++ b/docs/api/paddle/nn/functional/adaptive_log_softmax_with_loss_cn.rst
@@ -5,7 +5,7 @@ adaptive_log_softmax_with_loss
 
 .. py:function:: paddle.nn.functional.adaptive_log_softmax_with_loss(input, label, head_weight, tail_weights, cutoffs, head_bias=None, name=None)
 
-计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数`head_weight`、`tail_weights`、`cutoffs`和`head_bias`是`AdaptiveLogSoftmaxWithLoss`的内部成员。
+计算自适应 logsoftmax 结果以及 input 和 label 之间的负对数似然。参数 `head_weight`、`tail_weights`、`cutoffs`和 `head_bias` 是 `AdaptiveLogSoftmaxWithLoss` 的内部成员。
 请参考：:ref:`cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss`
 
 

From 6e9a49103def52fd0c9f4582b9284fdf69b6f7cd Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E8=90=A7?= <2085127827@qq.com>
Date: Mon, 17 Jun 2024 16:10:55 +0800
Subject: [PATCH 14/15] finish

---
 docs/api/paddle/nn/Overview_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index f68cb99e0ce..2235a2009e3 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -272,7 +272,6 @@ Loss 层
     " :ref:`paddle.nn.TripletMarginWithDistanceLoss <cn_api_paddle_nn_TripletMarginWithDistanceLoss>` ", "TripletMarginWithDistanceLoss 层"
     " :ref:`paddle.nn.MultiLabelSoftMarginLoss <cn_api_paddle_nn_MultiLabelSoftMarginLoss>` ", "多标签 Hinge 损失层"
     " :ref:`paddle.nn.MultiMarginLoss <cn_api_paddle_nn_MultiMarginLoss>` ", "MultiMarginLoss 层"
-    " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
     " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
 
 
@@ -510,6 +509,7 @@ Embedding 相关函数
     " :ref:`paddle.nn.functional.triplet_margin_with_distance_loss <cn_api_paddle_nn_functional_triplet_margin_with_distance_loss>` ", "用户自定义距离函数用于计算 triplet margin loss 损失"
     " :ref:`paddle.nn.functional.multi_label_soft_margin_loss <cn_api_paddle_nn_functional_multi_label_soft_margin_loss>` ", "用于计算多分类的 hinge loss 损失函数"
     " :ref:`paddle.nn.functional.multi_margin_loss <cn_api_paddle_nn_functional_multi_margin_loss>` ", "用于计算 multi margin loss 损失函数"
+    " :ref:`paddle.nn.functional.adaptive_log_softmax_with_loss <cn_api_paddle_nn_functional_adaptive_log_softmax_with_loss>` ", "自适应 logsoftmax 损失函数"
 
 
 .. _common_functional:

From 752e49e0ae25871bd10341cb30d461fe32b383b3 Mon Sep 17 00:00:00 2001
From: zachary sun <70642955+sunzhongkai588@users.noreply.github.com>
Date: Tue, 18 Jun 2024 15:21:40 +0800
Subject: [PATCH 15/15] Update docs/api/paddle/nn/Overview_cn.rst

---
 docs/api/paddle/nn/Overview_cn.rst | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/api/paddle/nn/Overview_cn.rst b/docs/api/paddle/nn/Overview_cn.rst
index 2235a2009e3..4e318a96023 100644
--- a/docs/api/paddle/nn/Overview_cn.rst
+++ b/docs/api/paddle/nn/Overview_cn.rst
@@ -272,7 +272,7 @@ Loss 层
     " :ref:`paddle.nn.TripletMarginWithDistanceLoss <cn_api_paddle_nn_TripletMarginWithDistanceLoss>` ", "TripletMarginWithDistanceLoss 层"
     " :ref:`paddle.nn.MultiLabelSoftMarginLoss <cn_api_paddle_nn_MultiLabelSoftMarginLoss>` ", "多标签 Hinge 损失层"
     " :ref:`paddle.nn.MultiMarginLoss <cn_api_paddle_nn_MultiMarginLoss>` ", "MultiMarginLoss 层"
-    " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <_cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
+    " :ref:`paddle.nn.AdaptiveLogSoftmaxWithLoss <cn_api_paddle_nn_AdaptiveLogSoftmaxWithLoss>` ", "自适应 logsoftmax 损失类"
 
 
 .. _vision_layers: