-
Notifications
You must be signed in to change notification settings - Fork 724
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Docathon][Add CN Doc No.53] #6451
Conversation
感谢你贡献飞桨文档,文档预览构建中,Docs-New 跑完后即可预览,预览链接:http://preview-pr-6451.paddle-docs-preview.paddlepaddle.org.cn/documentation/docs/zh/api/index_cn.html |
|
||
.. py:function:: class paddle.incubate.nn.FusedMultiTransformer(embed_dim, num_heads, dim_feedforward, dropout_rate=0.0, activation='gelu', normalize_before=True, ln_scale_attrs=None, ln_bias_attrs=None, qkv_weight_attrs=None, qkv_bias_attrs=None, linear_weight_attrs=None, linear_bias_attrs=None, ffn_ln_scale_attrs=None, ffn_ln_bias_attrs=None, ffn1_weight_attrs=None, ffn1_bias_attrs=None, ffn2_weight_attrs=None, ffn2_bias_attrs=None, epsilon=1e-05, num_layers=- 1, nranks=1, trans_qkvw=True, ring_id=- 1, name=None) | ||
|
||
FusedMultiTransformer 由多层变压器层组成,该层包含两个子层,即自(多头)注意力和前馈网络。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
翻译成变压器不太合理
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
- **embed_dim** (int) - 输入和输出中的预期特征尺寸。 | ||
- **num_heads** (int) - 多头注意(MHA)的头数。 | ||
- **dim_feedforward** (int) - 前馈网络(FFN)中的隐藏层大小。 | ||
- **dropout_rate** (float, 可选) - 在 MHA 子层和 FFN 子层的前处理和后处理中使用了丢包率。默认值 0.0 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
这个机翻不太恰当
- **num_heads** (int) - 多头注意(MHA)的头数。 | ||
- **dim_feedforward** (int) - 前馈网络(FFN)中的隐藏层大小。 | ||
- **dropout_rate** (float, 可选) - 在 MHA 子层和 FFN 子层的前处理和后处理中使用了丢包率。默认值 0.0 | ||
- **activation** (str,可选) - 前馈网络中的激活函数。默认的"gelu" |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
可修改为默认为
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
嗯嗯
- **dim_feedforward** (int) - 前馈网络(FFN)中的隐藏层大小。 | ||
- **dropout_rate** (float, 可选) - 在 MHA 子层和 FFN 子层的前处理和后处理中使用了丢包率。默认值 0.0 | ||
- **activation** (str,可选) - 前馈网络中的激活函数。默认的"gelu" | ||
- **normalize_before** (bool, 可选) - 指示是否将层归一化放入 MHA 和 FFN 子层的预处理中。如果为 True,则前处理为层归一化,后处理包括丢弃、剩余连接。另外,没有前处理和后处理,包括丢失,剩余连接,层归一化。默认值为真 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
把pre-process and post-precess 翻译为前处理和后处理好像不太合适
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
😊pre-process为预处理,post-precess这个的话就英文可以吗?查不到怎么翻QAQ
- **nranks** (int, 可选) - 分布张量模型并行 nranks。默认为 1,表示不使用 mp。 | ||
- **trans_qkvw** (bool, 可选) - 是否对 qkv 的权重进行转置。如果为真,qkv 的形状八个应该是【3,num_head,dim_head,tim_embed】。否则 qkv 的权值的形状应该是【dim_embed,3,num_head,dim_head】。默认值:真。 | ||
- **ring_id** (int, 可选) - 用于分布式张量模型并行化。默认值为-1,表示不使用 mp。 | ||
- **name** (str,可选) - 默认值为“无”。通常用户不需要设置此属性。如需详细资讯,请参阅:ref:`api_guide_Name`。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
机翻的痕迹比较明显
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
整个文档机翻痕迹都比较明显,建议再修改修改
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
收到(。ò ∀ ó。)谢谢大佬的review
- **dropout_rate** (float, 可选) - MHA 和 FFN 子层的预处理和 post-precess 中使用的丢失概率。默认值:0.0 | ||
- **activation** (str,可选) - 前馈网络中的激活函数。默认为"gelu" | ||
- **normalize_before** (bool, 可选) - 指示是否将层归一化放入 MHA 和 FFN 子层的预处理中。如果为 True,则预处理是层归一化,后处理包括丢弃、残差连接。否则,没有预处理和 post-precess,包括丢失、残差连接、层归一化。默认值:True | ||
- **ln_scale_attrs** (ParamAttr|list|tuple, 可选) - 指定 Attention layer_norm 的权重参数属性。 对于 Attention layer_norm 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
图层还是有机器翻译的痕迹
- **activation** (str,可选) - 前馈网络中的激活函数。默认为"gelu" | ||
- **normalize_before** (bool, 可选) - 指示是否将层归一化放入 MHA 和 FFN 子层的预处理中。如果为 True,则预处理是层归一化,后处理包括丢弃、残差连接。否则,没有预处理和 post-precess,包括丢失、残差连接、层归一化。默认值:True | ||
- **ln_scale_attrs** (ParamAttr|list|tuple, 可选) - 指定 Attention layer_norm 的权重参数属性。 对于 Attention layer_norm 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **ln_bias_attrs** (ParamAttr|list|tuple|bool,可选) - 指定 Attention layer_norm 的偏置参数属性。对于 Attention layer_norm 偏差,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。False 值表示相应的层没有可训练的偏差参数。默认值:None,表示使用默认偏置参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
这里也是
- **normalize_before** (bool, 可选) - 指示是否将层归一化放入 MHA 和 FFN 子层的预处理中。如果为 True,则预处理是层归一化,后处理包括丢弃、残差连接。否则,没有预处理和 post-precess,包括丢失、残差连接、层归一化。默认值:True | ||
- **ln_scale_attrs** (ParamAttr|list|tuple, 可选) - 指定 Attention layer_norm 的权重参数属性。 对于 Attention layer_norm 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **ln_bias_attrs** (ParamAttr|list|tuple|bool,可选) - 指定 Attention layer_norm 的偏置参数属性。对于 Attention layer_norm 偏差,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。False 值表示相应的层没有可训练的偏差参数。默认值:None,表示使用默认偏置参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **qkv_weight_attrs** (ParamAttr|list|tuple,可选) - 指定 Attention qkv 计算的权重参数属性。对于 Attention qkv 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
同理
- **ln_bias_attrs** (ParamAttr|list|tuple|bool,可选) - 指定 Attention layer_norm 的偏置参数属性。对于 Attention layer_norm 偏差,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。False 值表示相应的层没有可训练的偏差参数。默认值:None,表示使用默认偏置参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **qkv_weight_attrs** (ParamAttr|list|tuple,可选) - 指定 Attention qkv 计算的权重参数属性。对于 Attention qkv 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **qkv_bias_attrs** (ParamAttr|list|tuple|bool, 可选) - 指定 Attention qkv 计算的偏置参数属性。对于 Attention qkv 偏差,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。False 值表示相应的层没有可训练的偏差参数。默认值:None,表示使用默认偏置参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 | ||
- **linear_weight_attrs** (ParamAttr|list|tuple, 可选) - 指定 Attention linear 的权重参数属性。对于 Attention linear 权重,如果它是一个列表/元组,则 attrs[0] 将用作 transformer 层 0 的 attr,attrs[1] 将用作 transformer 第 1 层的 attr,依此类推。否则,所有图层都将其用作创建参数的属性。默认值:None,表示使用默认权重参数属性。有关详细信息,请参阅 ParamAttr 中的用法。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
建议调整成第0层
- **epsilon** (float, 可选) - 将小浮点值添加到 layer_norm 的分母上,以避免除以零。默认值:1e-05。 | ||
- **num_layers** (int, 可选) - transformer 的层数。如果 qkv_weight_attrs 是列表或元组,则从 qkv_weight_attrs 中获取层数。仅当 qkv_weight_attrs 不是列表或元组时,num_layers 才会生效。默认值:-1。 | ||
- **nranks** (int, 可选) - 分布式张量模型并行 nranks。默认值为 1,表示不使用 mp。 | ||
- **trans_qkvw** (bool, 可选) - 是否转置 qkv 的权重。如果为 true,则 qkv 的形状八应为 [3, num_head, dim_head, dim_embed]。否则,qkv 的权重形状应为 [dim_embed, 3, num_head, dim_head]。默认值:True。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
?
- **epsilon** (float, 可选) - 将小浮点值添加到 layer_norm 的分母上,以避免除以零。默认值:1e-05。 | ||
- **num_layers** (int, 可选) - transformer 的层数。如果 qkv_weight_attrs 是列表或元组,则从 qkv_weight_attrs 中获取层数。仅当 qkv_weight_attrs 不是列表或元组时,num_layers 才会生效。默认值:-1。 | ||
- **nranks** (int, 可选) - 分布式张量模型并行 nranks。默认值为 1,表示不使用 mp。 | ||
- **trans_qkvw** (bool, 可选) - 是否转置 qkv 的权重。如果为 true,则 qkv 的形状八应为 [3, num_head, dim_head, dim_embed]。否则,qkv 的权重形状应为 [dim_embed, 3, num_head, dim_head]。默认值:True。 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
形状八是什么?
PR types
Others
PR changes
Docs
Description
中文文档添加任务
#6193
新增中文文档:
• paddle.incubate.nn.FusedMultiTransformer_cn.rst
英文文档链接:
序号 API名称
53 paddle.incubate.nn.FusedMultiTransformer
英文文档地址
https://www.paddlepaddle.org.cn/documentation/docs/en/develop/api/paddle/incubate/nn/FusedMultiTransformer_en.html
@iosmers @sunzhongkai588