Skip to content

Latest commit

 

History

History
36 lines (25 loc) · 1.11 KB

README.md

File metadata and controls

36 lines (25 loc) · 1.11 KB

通常用于预训练或者微调 ML 模型,这些模型使用各种 ML 框架例如 Pytorch, TensorFlow, XGBoost, MPI 和 Paddle 等

本仓库 manifests 来自 training-operator v1.7.0 下目录 manifests

  • 关闭 mpijob/v1

    前面安装 mpi-operator 提供的 mpijob/v2beta1training-operator 提供的 mpijob/v1 不能同时存在。

    另外 mpijob/v2beta1 采用 ssh 互信方式,更接近裸金属环境适用范围更广

    • 注释 base/crds/kustomize.yaml 中的 - kubeflow.org_mpijob.yaml

    • base/deployment.yaml 中

      - command:
          - /manager

      下面添加

      args:
          - --enable-scheme=tfjob
          - --enable-scheme=pytorchjob
          - --enable-scheme=mxjob
          - --enable-scheme=xgboostjob
          - --enable-scheme=paddlejob
  • 部署

    kubectl apply -k overlays/standalone