分布式模式介绍

当模型、数据的规模达到单机训练的瓶颈之后，分布式训练是必然选择。目前PaddleRec可直接支持基于参数服务器模式(ParameterServer)的分布式训练。

yaml 配置

分布式模式的相关配置在模型文件中的config.yaml中配置，详细的yaml配置说明参考进阶教程。分布式模式相较单机模式，增量的配置如下：

runner:
    sync_mode: "async" # 可选, string: sync/async/geo
    geo_step: 400 # 可选, int, 在geo模式下控制本地的迭代次数
    split_file_list: False # 可选, bool, 若每个节点上都拥有全量数据，则需设置为True 
    thread_num: 1 # 多线程配置

    # reader类型，分布式下推荐QueueDataset
    reader_type: "QueueDataset" # DataLoader / QueueDataset / RecDataset
    pipe_command: "python benchmark_reader.py" # QueueDataset 模式下的数据pipe命令
    dataset_debug: False # QueueDataset 模式下 Profiler开关

单机模拟分布式启动命令

支持在任意目录下运行，以下命令默认在PaddleRec根目录中运行

fleetrun --worker_num=1 --server_num=1 tools/static_ps_trainer.py -m models/rank/dnn/config.yaml

分布式环境启动命令

首先确保各个节点之间是联通的，相互之间通过IP可访问
在每个节点上都需要持有代码与数据
在每个节点上执行如下命令, 以下命令默认在PaddleRec根目录中运行

fleetrun --workers="ip1:port1,ip2:port2...ipN:portN" --servers="ip1:port1,ip2:port2...ipN:portN" tools/static_ps_trainer.py -m models/rank/dnn/config.yaml

常用数据集

这是PaddleRec的数据集的的存储库。您可以在这里方便的一键下载我们处理完成的数据集，也可以使用PaddleRec轻松测试这些数据集上不同推荐模型的性能。
推荐系统数据集

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fleet_mode.md

fleet_mode.md

分布式模式介绍

yaml 配置

单机模拟分布式启动命令

分布式环境启动命令

常用数据集

Files

fleet_mode.md

Latest commit

History

fleet_mode.md

File metadata and controls

分布式模式介绍

yaml 配置

单机模拟分布式启动命令

分布式环境启动命令

常用数据集