Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[audio] fix optional in audio doc #5609

Merged
merged 13 commits into from
Feb 17, 2023
2 changes: 1 addition & 1 deletion docs/api/paddle/audio/backends/get_current_backend_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -13,7 +13,7 @@ get_current_backend
返回
:::::::::

``str``,语音 I/O 的后端名称。
``str``语音 I/O 的后端名称。

代码示例
:::::::::
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -13,7 +13,7 @@ list_available_backends
返回
:::::::::

``List[str]``, 可用的音频 I/O 后端集合。
``List[str]``可用的音频 I/O 后端集合。

代码示例
:::::::::
Expand Down
2 changes: 1 addition & 1 deletion docs/api/paddle/audio/backends/set_backend_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,7 +10,7 @@ set_backend
参数
::::::::::::

- **backend_name** (str) - 语音 I/O 后端名称,现支持wave_backend’,如果安装了 paddleaudio >=1.0.2,则也支持soundfile
- **backend_name** (str) - 语音 I/O 后端名称,现支持 ``'wave_backend'`` ,如果安装了 paddleaudio >=1.0.2则也支持 ``'soundfile'``

返回
:::::::::
Expand Down
6 changes: 3 additions & 3 deletions docs/api/paddle/audio/datasets/ESC50_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,9 +12,9 @@ ESC50
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **split** (int) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::
Expand Down
8 changes: 4 additions & 4 deletions docs/api/paddle/audio/datasets/TESS_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,10 +12,10 @@ TESS
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **n_folds** (int) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。
- **split** (int) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。
- **n_folds** (int,可选) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::
Expand Down
28 changes: 14 additions & 14 deletions docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,29 +10,29 @@ LogMelSpectrogram
参数
::::::::::::

- **sr** (int) - 采样率,默认 22050。
- **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。
- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str) - 窗函数名,默认'hann'。
- **power** (float) - 幅度谱的指数。
- **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。
- **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int) - mel bins 的数目。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放.
- **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化.
- **ref_value** (float) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0.
- **amin** (float) - 输入的幅值的最小值.
- **top_db** (float,可选) - log-mel 谱的最大值(db).
- **dtype** (str) - 输入和窗的数据类型,默认是'float32'.
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化
- **ref_value** (float,可选) - 参照值如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是None。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'


返回
:::::::::

计算``LogMelSpectrogram``的可调用对象.
计算``LogMelSpectrogram``的可调用对象

代码示例
:::::::::
Expand Down
24 changes: 12 additions & 12 deletions docs/api/paddle/audio/features/MFCC_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,22 +12,22 @@ MFCC

- **sr** (int,可选) - 采样率,默认 22050。
- **n_mfcc** (int,可选) - mfcc 的维度,默认 40。
- **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str) - 窗函数名,默认'hann'。
- **power** (float) - 幅度谱的指数。
- **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。
- **pad_mode** (str) - 如果 center 是 True,选择填充的方式,默认值是'reflect'.
- **n_mels** (int) - mel bins 的数目。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'
- **n_mels** (int,可选) - mel bins 的数目,默认是64
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
- **norm** (Union[strfloat], optional) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。
- **amin** (float) - 输入的幅值的最小值。
- **top_db** (float,可选) - log-mel 谱的最大值(db)。
- **dtype** (str) - 输入和窗的数据类型,默认是'float32'。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False
- **norm** (Union[str, float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float,可选) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是 None
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。

返回
:::::::::
Expand Down
18 changes: 9 additions & 9 deletions docs/api/paddle/audio/features/MelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -11,19 +11,19 @@ MelSpectrogram
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str) - 窗函数名,默认'hann'。
- **power** (float) - 幅度谱的指数。
- **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。
- **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。
- **n_mels** (int) - mel bins 的数目。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放。
- **norm** (Union[strfloat],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。
- **dtype** (str) - 输入和窗的数据类型,默认是'float32'。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False
- **norm** (Union[str, float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
Expand Down
12 changes: 6 additions & 6 deletions docs/api/paddle/audio/features/Spectrogram_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,14 +10,14 @@ Spectrogram
参数
::::::::::::

- **n_fft** (int) - 离散傅里叶变换中频率窗大小,默认 512。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str) - 窗函数名,默认'hann'。
- **power** (float) - 幅度谱的指数。
- **center** (bool) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始。
- **pad_mode** (str) - 如果 center 是 True,选择填充的方式.默认值是'reflect'。
- **dtype** (str) - 输入和窗的数据类型,默认是'float32'。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是1.0
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是True
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式默认值是'reflect'。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
Expand Down
14 changes: 7 additions & 7 deletions docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,17 +12,17 @@ compute_fbank_matrix

- **sr** (int) - 采样率。
- **n_fft** (int) - fft bins 的数目。
- **n_mels** (float) - mels bins 的数目。
- **f_min** (float) - 最小频率(hz)。
- **f_max** (Optional[float]) -最大频率(hz)。
- **htk** (bool) -是否使用 htk 缩放。
- **norm** (Union[strfloat]) -norm 的类型,默认是'slaney'。
- **dtype** (str) - 返回矩阵的数据类型,默认'float32'。
- **n_mels** (float,可选) - mels bins 的数目,默认是64
- **f_min** (float,可选) - 最小频率(hz),默认是0.0
- **f_max** (Optional[float],可选) - 最大频率(hz),默认是 None
- **htk** (bool,可选) - 是否使用 htk 缩放,默认是 False
- **norm** (Union[str, float],可选) - norm 的类型,默认是'slaney'。
- **dtype** (str,可选) - 返回矩阵的数据类型,默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。
``paddle.Tensor``Tensor shape (n_mels n_fft//2 + 1)。

代码示例
:::::::::
Expand Down
6 changes: 3 additions & 3 deletions docs/api/paddle/audio/functional/create_dct_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,13 +12,13 @@ create_dct

- **n_mfcc** (float) - mel 倒谱系数数目。
- **n_mels** (int) - mel 的 fliterbank 数。
- **norm** (float) - 正则化类型, 默认值是'ortho'。
- **dtype** (str) - 默认'float32'。
- **norm** (float,可选) - 正则化类型默认值是'ortho'。
- **dtype** (str,可选) - 默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_mels, n_mfcc)。
``paddle.Tensor``Tensor 形状 (n_mels, n_mfcc)。

代码示例
:::::::::
Expand Down
4 changes: 2 additions & 2 deletions docs/api/paddle/audio/functional/fft_frequencies_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,12 +12,12 @@ fft_frequencies

- **sr** (int) - 采样率。
- **n_fft** (int) - fft bins 的数目。
- **dtype** (str) - 默认'float32'。
- **dtype** (str,可选) - 默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_fft//2 + 1,)。
``paddle.Tensor``Tensor 形状 (n_fft//2 + 1,)。

代码示例
:::::::::
Expand Down
8 changes: 4 additions & 4 deletions docs/api/paddle/audio/functional/get_window_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,15 +10,15 @@ get_window
参数
::::::::::::

- **window** (str 或者 Tuple[str, float]) - 窗函数类型,或者(窗参数类型, 窗函数参数), 支持的窗函数类型'hamming', 'hann', 'gaussian', 'general_gaussian', 'exponential', 'triang', 'bohman', 'blackman', 'cosine', 'tukey', 'taylor'。
- **window** (str 或者 Tuple[strfloat]) - 窗函数类型或者(窗参数类型 窗函数参数)支持的窗函数类型'hamming''hann''gaussian''general_gaussian''exponential''triang''bohman''blackman''cosine''tukey''taylor'。
- **win_length** (int) - 采样点数。
- **fftbins** (bool) - 如果是 True,给出一个周期性的窗, 如果是 False 给出一个对称性的窗,默认是 True。
- **dtype** (str) - 默认'float64'。
- **fftbins** (bool,可选) - 如果是 True给出一个周期性的窗如果是 False 给出一个对称性的窗默认是 True。
- **dtype** (str,可选) - 默认'float64'。

返回
:::::::::

``paddle.Tensor``,对应窗表征的 Tensor 。
``paddle.Tensor``对应窗表征的 Tensor 。

代码示例
:::::::::
Expand Down
4 changes: 2 additions & 2 deletions docs/api/paddle/audio/functional/hz_to_mel_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -11,12 +11,12 @@ hz_to_mel
::::::::::::

- **freq** (Tensor, float) - 输入 tensor。
- **htk** (bool) - 是否使用 htk 缩放, 默认 False。
- **htk** (bool,可选) - 是否使用 htk 缩放默认 False。

返回
:::::::::

``paddle.Tensor 或 float``, mels 值。
``paddle.Tensor 或 float``mels 值。

代码示例
:::::::::
Expand Down
12 changes: 6 additions & 6 deletions docs/api/paddle/audio/functional/mel_frequencies_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,16 +10,16 @@ mel_frequencies
参数
::::::::::::

- **n_mels** (int) - 输入 tensor, 默认 64。
- **f_min** (float) - 最小频率(hz), 默认 0.0。
- **f_max** (float) - 最大频率(hz), 默认 11025.0。
- **htk** (bool) - 是否使用 htk 缩放, 默认 False。
- **dtype** (str) - 默认'float32'。
- **n_mels** (int,可选) - 输入 tensor默认 64。
- **f_min** (float,可选) - 最小频率(hz)默认 0.0。
- **f_max** (float,可选) - 最大频率(hz)默认 11025.0。
- **htk** (bool,可选) - 是否使用 htk 缩放默认 False。
- **dtype** (str,可选) - 默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_mels,)。
``paddle.Tensor``Tensor 形状 (n_mels,)。

代码示例
:::::::::
Expand Down
4 changes: 2 additions & 2 deletions docs/api/paddle/audio/functional/mel_to_hz_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -11,12 +11,12 @@ mel_to_hz
::::::::::::

- **mel** (Tensor, float) - 输入 tensor。
- **htk** (bool) - 是否使用 htk 缩放, 默认 False。
- **htk** (bool,可选) - 是否使用 htk 缩放默认 False。

返回
:::::::::

``paddle.Tensor 或 float``, hz 为单位的频率。
``paddle.Tensor 或 float``hz 为单位的频率。

代码示例
:::::::::
Expand Down
10 changes: 5 additions & 5 deletions docs/api/paddle/audio/functional/power_to_db_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -10,15 +10,15 @@ power_to_db
参数
::::::::::::

- **spect** (Tensor) - stft 能量谱, 输入 tensor。
- **ref_value** (float) - 参照值, 振幅相对于 ref 进行缩放, 默认 1.0。
- **amin** (float) - 最小阈值, 默认 1e-10。
- **top_db** (float,可选) - 阈值, 默认 80.0。
- **spect** (Tensor) - stft 能量谱输入 tensor。
- **ref_value** (float,可选) - 参照值振幅相对于 ref 进行缩放默认 1.0。
- **amin** (float,可选) - 最小阈值默认 1e-10。
- **top_db** (float,可选) - 阈值默认 80.0。

返回
:::::::::

``paddle.Tensor 或 float``, db 单位的能量谱。
``paddle.Tensor 或 float``db 单位的能量谱。

代码示例
:::::::::
Expand Down
10 changes: 5 additions & 5 deletions docs/api/paddle/audio/load_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -11,14 +11,14 @@ load
::::::::::::

- **filepath** (str 或者 Path) - 输入音频路径。
- **frame_offset** (int) - 默认是 0,开始读取音频起始帧。
- **num_frames** (int) - 默认是-1,读取音频帧数, -1 表示读取全部帧。
- **normalize** (bool) - 默认是 True。如果是 True,返回是音频值被规整到[-1.0, 1.0],如果是 False,那么就返回原始值。
- **channels_first** (bool) - 默认是 True。如果是 True,那么返回的形状是[channel,time],如果是 False,则是[time, channel]。
- **frame_offset** (int,可选) - 默认是 0,开始读取音频起始帧。
- **num_frames** (int,可选) - 默认是-1,读取音频帧数-1 表示读取全部帧。
- **normalize** (bool,可选) - 默认是 True。如果是 True,返回是音频值被规整到[-1.01.0],如果是 False,那么就返回原始值。
- **channels_first** (bool,可选) - 默认是 True。如果是 True,那么返回的形状是[channel,time],如果是 False,则是[timechannel]。
返回
:::::::::

``Tuple[paddle.Tensor, int]``, 音频数据值, 采样率。
``Tuple[paddle.Tensor, int]``音频数据值采样率。

代码示例
:::::::::
Expand Down
6 changes: 3 additions & 3 deletions docs/api/paddle/audio/save_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -13,9 +13,9 @@ save
- **filepath** (str 或者 Path) - 保存音频路径。
- **src** (paddle.Tensor) - 音频数据。
- **sample_rate** (int) - 采样率。
- **channels_first** (bool) - 如果是 True,那么 src 的 Tensor 形状是[channel,time],如果是 False,则是[time, channel]。
- **encoding** (Optional[str]) - 默认是 None,编码信息。
- **bits_per_sample** (Optional[int]) - 默认是 16编码位长。
- **channels_first** (bool,可选) - 如果是 True,那么 src 的 Tensor 形状是[channel,time],如果是 False,则是[timechannel]。
- **encoding** (Optional[str],可选) - 默认是 None,编码信息。
- **bits_per_sample** (Optional[int],可选) - 默认是 16编码位长。
返回
:::::::::
Expand Down