Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2.5 install doc #5866

Open
wants to merge 27 commits into
base: develop
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
Show all changes
27 commits
Select commit Hold shift + click to select a range
76498bc
copy v2.3 to v2.4 (#5309)
pangyoki Sep 27, 2022
bf33f8a
[install doc] update 2.4.0rc0 install doc (#5312)
pangyoki Sep 28, 2022
bc1ea59
add tensorrt in docs (#5313)
JZZ-NOTE Sep 28, 2022
e7e61b6
add tensorrt in docs (#5315)
JZZ-NOTE Sep 28, 2022
ffa9552
Jzz docs 2.4rc (#5317)
JZZ-NOTE Sep 28, 2022
2784e11
modify details (#5319)
JZZ-NOTE Sep 28, 2022
4559ba9
update doc of win (#5321)
zhwesky2010 Sep 29, 2022
e2f2bb9
[install doc] fix 2.4.0rc0 install doc (#5320)
pangyoki Sep 29, 2022
54e60ae
优化2.4rc 安装文档 (#5329)
JZZ-NOTE Sep 29, 2022
4114092
Update hyperlink in Chinese Overview doc (#5307) (#5339)
caolonghao Oct 9, 2022
e04cf7d
Fix infrence_lib download link (#5356)
JZZ-NOTE Oct 13, 2022
7914d20
Add paddle.geometric docs (#5292) (#5344)
DesmonDay Oct 25, 2022
7ba8fe9
[cherry-pick2.4]docs fix (#5401)
sunzhongkai588 Nov 3, 2022
bcccdf4
fix doc in recompute (#5407)
sljlp Nov 7, 2022
084af18
[cherry-pick] Delete geometric api release 2.4 (#5435)
DesmonDay Nov 21, 2022
87c9ba5
2.4.0 docs update: del suffix rc0 and many slight modify. (#5420)
zhengqiwen1997 Nov 22, 2022
36815e3
del conda macOS 1.2.2 python version and Tables.md:cuda11.0 (#5449)
zhengqiwen1997 Nov 24, 2022
5b126b5
2.4.0 docs update (#5451)
zhengqiwen1997 Nov 25, 2022
b5f42af
fix create parameter link error (#5472) (#5473)
chenwhql Dec 2, 2022
7e6f0b0
add 2.4.0 release note (#5464) (#5483)
dingjiaweiww Dec 5, 2022
4c509cc
change 2.4.0 to 2.4.1 (#5491)
zhengqiwen1997 Dec 8, 2022
3713090
mac py37 install link modify (#5499)
zhengqiwen1997 Dec 9, 2022
dfc0e17
[MLU] add mlu docs for r2.4 (#5432)
ShawnNew Jan 4, 2023
070b96b
Add chinese doc of paddle sparse api (#5603)
zhwesky2010 Feb 3, 2023
10844b7
[cherry-pick] add audio doc(#5299 #5363 #5378 #5445#5609) (#5608)
SmileGoat Feb 23, 2023
4d1b25b
2.4.1 to 2.4.2 and macOS avx installation (#5630)
zhengqiwen1997 Feb 27, 2023
fb0c30e
[cherry-pick]Release note2.4.1 (#5617)
sunzhongkai588 Mar 1, 2023
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion docs/api/paddle/CUDAPlace_cn.rst
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,7 @@ CUDAPlace
参数
::::::::::::

- **id** (int,可选) - GPU 的设备 ID。如果为 ``None``,则默认会使用 id 为 0 的设备。默认值为 ``None``
- **id** (int) - GPU 的设备 ID。

代码示例
::::::::::::
Expand Down
72 changes: 72 additions & 0 deletions docs/api/paddle/audio/Overview_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,72 @@
.. _cn_overview_callbacks:

paddle.audio
---------------------


paddle.audio 目录是飞桨在语音领域的高层 API。具体如下:

- :ref:`音频特征相关 API <about_features>`
- :ref:`音频处理基础函数相关 API <about_functional>`
- :ref:`音频 I/O 相关 API <about_backends>`
- :ref:`语音数据集相关 API <about_datasets>`

.. _about_features:

音频特征相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`LogMelSpectrogram <cn_api_audio_features_LogMelSpectrogram>` ", "计算语音特征 LogMelSpectrogram"
" :ref:`MelSpectrogram <cn_api_audio_features_MelSpectrogram>` ", "计算语音特征 MelSpectrogram"
" :ref:`MFCC <cn_api_audio_features_MFCC>` ", "计算语音特征 MFCC"
" :ref:`Spectrogram <cn_api_audio_features_Spectrogram>` ", "计算语音特征 Spectrogram"

.. _about_functional:

音频处理基础函数相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`compute_fbank_matrix <cn_api_audio_functional_compute_fbank_matrix>` ", "计算 fbank 矩阵"
" :ref:`create_dct <cn_api_audio_functional_create_dct>` ", "计算离散余弦变化矩阵"
" :ref:`fft_frequencies <cn_api_audio_functional_fft_frequencies>` ", "计算离散傅里叶采样频率"
" :ref:`hz_to_mel<cn_api_audio_functional_hz_to_mel>` ", "转换 hz 频率为 mel 频率"
" :ref:`mel_to_hz<cn_api_audio_functional_mel_to_hz>` ", "转换 mel 频率为 hz 频率"
" :ref:`mel_frequencies<cn_api_audio_functional_mel_frequencies>` ", "计算 mel 频率"
" :ref:`power_to_db<cn_api_audio_functional_power_to_db>` ", "转换能量谱为分贝"
" :ref:`get_window<cn_api_audio_functional_get_window>` ", "得到各种窗函数"

.. _about_backends:

音频 I/O 相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`get_current_backend <cn_api_audio_backends_get_current_backend>` ", "获取现在的语音 I/O 后端"
" :ref:`list_available_backends <cn_api_audio_backends_list_available_backends>` ", "获取可设置得语音 I/O 后端"
" :ref:`set_backend <cn_api_audio_backends_set_backend>` ", "设置语音 I/O 后端"
" :ref:`load <cn_api_audio_load>` ", "载入音频"
" :ref:`info <cn_api_audio_info>` ", "查询音频信息"
" :ref:`save <cn_api_audio_save>` ", "保存音频"

.. _about_datasets:

音频数据集相关 API
::::::::::::::::::::

.. csv-table::
:header: "API 名称", "API 功能"
:widths: 10, 30

" :ref:`TESS <cn_api_audio_datasets_TESS>` ", "TESS 数据集"
" :ref:`ESC50 <cn_api_audio_datasets_ESC50>` ", "ESC50 数据集"
21 changes: 21 additions & 0 deletions docs/api/paddle/audio/backends/get_current_backend_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
.. _cn_api_audio_backends_get_current_backend:

get_current_backend
-------------------------------

.. py:function:: paddle.audio.backends.get_current_backend()

获取现在的处理语音 I/O 的后端名称。

参数
::::::::::::

返回
:::::::::

``str``,语音 I/O 的后端名称。

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.get_current_backend
21 changes: 21 additions & 0 deletions docs/api/paddle/audio/backends/list_available_backends_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
.. _cn_api_audio_backends_list_available_backends:

list_available_backends
-------------------------------

.. py:function:: paddle.audio.backends.list_available_backends()

获取可用的音频 I/O 后端。

参数
::::::::::::

返回
:::::::::

``List[str]``,可用的音频 I/O 后端集合。

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.list_available_backends
22 changes: 22 additions & 0 deletions docs/api/paddle/audio/backends/set_backend_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
.. _cn_api_audio_backends_set_backend:

set_backend
-------------------------------

.. py:function:: paddle.audio.backends.set_backend(backend_name: str)

设置处理语音 I/O 的后端。

参数
::::::::::::

- **backend_name** (str) - 语音 I/O 后端名称,现支持 ``'wave_backend'`` ,如果安装了 paddleaudio >=1.0.2,则也支持 ``'soundfile'`` 。

返回
:::::::::

代码示例
:::::::::

COPY-FROM: paddle.audio.backends.set_backend
27 changes: 27 additions & 0 deletions docs/api/paddle/audio/datasets/ESC50_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
.. _cn_api_audio_datasets_ESC50:

ESC50
-------------------------------

.. py:class:: paddle.audio.datasets.ESC50(mode: str = 'train', split: int = 1, feat_type: str = 'raw', archive=None, **kwargs)


`ESC50 <http://dx.doi.org/10.1145/2733373.2806390>`_ 数据集的实现。

参数
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::

:ref:`cn_api_io_cn_Dataset`,ESC50 数据集实例。

代码示例
:::::::::

COPY-FROM: paddle.audio.datasets.ESC50
28 changes: 28 additions & 0 deletions docs/api/paddle/audio/datasets/TESS_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
.. _cn_api_audio_datasets_TESS:

TESS
-------------------------------

.. py:class:: paddle.audio.datasets.TESS(mode: str = 'train', n_folds = 5, split = 1, feat_type = 'raw', archive=None, **kwargs)


`TESS <https://tspace.library.utoronto.ca/handle/1807/24487>`_ 数据集的实现。

参数
:::::::::

- **mode** (str,可选) - ``'train'`` 或 ``'dev'`` 模式两者之一,默认值为 ``'train'``。
- **n_folds** (int,可选) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。
- **split** (int,可选) - 默认是 1,指定 dev 的文件夹。
- **feat_type** (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。
- **archive** (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回
:::::::::

:ref:`cn_api_io_cn_Dataset`,TESS 数据集实例。

代码示例
:::::::::

COPY-FROM: paddle.audio.datasets.TESS
40 changes: 40 additions & 0 deletions docs/api/paddle/audio/features/LogMelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
.. _cn_api_audio_features_LogMelSpectrogram:

LogMelSpectrogram
-------------------------------

.. py:class:: paddle.audio.features.LogMelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')

计算给定信号的 log-mel 谱。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str,float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',你也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float,可选) - 参照值,如果小于 1.0,信号的 db 会被提升,相反 db 会下降,默认值为 1.0。
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是None。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``LogMelSpectrogram``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.layers.LogMelSpectrogram
40 changes: 40 additions & 0 deletions docs/api/paddle/audio/features/MFCC_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
.. _cn_api_audio_features_MFCC:

MFCC
-------------------------------

.. py:class:: paddle.audio.features.MFCC(sr=22050, n_mfcc=40, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', ref_value=1.0, amin=1e-10, top_db=None, dtype='float32')

计算给定信号的 MFCC。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_mfcc** (int,可选) - mfcc 的维度,默认 40。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str, float],可选) - 计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **ref_value** (float,可选) - 参照值, 如果小于 1.0,信号的 db 会被提升, 相反 db 会下降, 默认值为 1.0。
- **amin** (float,可选) - 输入的幅值的最小值,默认是1e-10。
- **top_db** (float,可选) - log-mel 谱的最大值(db),默认是 None。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。

返回
:::::::::

计算``MFCC``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.layers.MFCC
37 changes: 37 additions & 0 deletions docs/api/paddle/audio/features/MelSpectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,37 @@
.. _cn_api_audio_features_MelSpectrogram:

MelSpectrogram
-------------------------------

.. py:class:: paddle.audio.features.MelSpectrogram(sr=22050, n_fft=2048, hop_length=512, win_length=None, window='hann', power=2.0, center=True, pad_mode='reflect', n_mels=64, f_min=50.0, f_max=None, htk=False, norm='slaney', dtype='float32')

求得给定信号的 Mel 谱。

参数
::::::::::::

- **sr** (int,可选) - 采样率,默认 22050。
- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是2.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是 True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **n_mels** (int,可选) - mel bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认 50.0。
- **f_max** (float,可选) - 最大频率(hz),默认为 None。
- **htk** (bool,可选) - 在计算 fbank 矩阵时是否用在 HTK 公式缩放,默认是 False。
- **norm** (Union[str, float],可选) -计算 fbank 矩阵时正则化的种类,默认是'slaney',也可以 norm=0.5,使用 p-norm 正则化。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``MelSpectrogram``的可调用对象。

代码示例
:::::::::

COPY-FROM: paddle.audio.features.MelSpectrogram
30 changes: 30 additions & 0 deletions docs/api/paddle/audio/features/Spectrogram_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
.. _cn_api_audio_features_Spectrogram:

Spectrogram
-------------------------------

.. py:class:: paddle.audio.features.Spectrogram(n_fft=512, hop_length=512, win_length=None, window='hann', power=1.0, center=True, pad_mode='reflect', dtype='float32')

通过给定信号的短时傅里叶变换得到频谱。

参数
::::::::::::

- **n_fft** (int,可选) - 离散傅里叶变换中频率窗大小,默认 512。
- **hop_length** (int,可选) - 帧移,默认 512。
- **win_length** (int,可选) - 短时 FFT 的窗长,默认为 None。
- **window** (str,可选) - 窗函数名,默认'hann'。
- **power** (float,可选) - 幅度谱的指数,默认是1.0。
- **center** (bool,可选) - 对输入信号填充,如果 True,那么 t 以 t*hop_length 为中心,如果为 False,则 t 以 t*hop_length 开始,默认是True。
- **pad_mode** (str,可选) - 如果 center 是 True,选择填充的方式,默认值是'reflect'。
- **dtype** (str,可选) - 输入和窗的数据类型,默认是'float32'。


返回
:::::::::

计算``Spectrogram``的可调用对象.

代码示例
:::::::::
COPY-FROM: paddle.audio.features.Spectrogram
30 changes: 30 additions & 0 deletions docs/api/paddle/audio/functional/compute_fbank_matrix_cn.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
.. _cn_api_audio_functional_compute_fbank_matrix:

compute_fbank_matrix
-------------------------------

.. py:function:: paddle.audio.functional.compute_fbank_matrix(sr, n_fft, n_mels=64, f_min=0.0, f_max=None, htk=False, nrom='slaney', dtype='float32')

计算 mel 变换矩阵。

参数
::::::::::::

- **sr** (int) - 采样率。
- **n_fft** (int) - fft bins 的数目。
- **n_mels** (float,可选) - mels bins 的数目,默认是64。
- **f_min** (float,可选) - 最小频率(hz),默认是0.0。
- **f_max** (Optional[float],可选) - 最大频率(hz),默认是 None。
- **htk** (bool,可选) - 是否使用 htk 缩放,默认是 False。
- **norm** (Union[str, float],可选) - norm 的类型,默认是'slaney'。
- **dtype** (str,可选) - 返回矩阵的数据类型,默认'float32'。

返回
:::::::::

``paddle.Tensor``,Tensor shape (n_mels, n_fft//2 + 1)。

代码示例
:::::::::

COPY-FROM: paddle.audio.functional.compute_fbank_matrix
Loading