Feat support host memory #9928

clackhan · 2023-03-02T08:59:48Z

实现HostMemoryInput机制，可以将op的某个输入定义为HostMemoryInput类型，定义方式如下：

REGISTER_OP_HOST_MEMORY_INPUT("host_scalar_add_by_tensor", "scalar", 0);

当被定义为HostMemoryInput时，可以直接在kernel的host函数体内访问数据。

…feat_support_host_memory_in_lazy_mode

…b.com/Oneflow-Inc/oneflow into feat_support_host_memory_in_lazy_mode

…feat_support_host_memory_in_lazy_mode

oneflow/core/framework/global_tensor_infer_cache.cpp

oneflow/core/framework/local_tensor_infer_cache.cpp

oneflow/core/framework/op_interpreter/eager_global_op_interpreter.cpp

clackhan · 2023-03-09T03:18:08Z

oneflow/core/framework/op_interpreter/eager_global_op_interpreter.cpp

+    Symbol<ParallelDesc> dst_parallel_desc =
+        is_host_input
+            ? JUST(ReplaceDeviceType(infered_input_meta->parallel_desc(), DeviceType::kCPU))
+            : infered_input_meta->parallel_desc();


当op的输入为HostMemory类型时，boxing_out_ parallel_desc的类型设置为cpu

oneflow/core/framework/op_interpreter/eager_local_op_interpreter.cpp

clackhan · 2023-03-09T03:23:09Z

oneflow/core/framework/op_interpreter/eager_local_op_interpreter.cpp

+      const auto& host_input = JUST(functional::To(
+          inputs.at(i), Optional<Symbol<Device>>(JUST(GetDefaultCpuDevice())), NullOpt, false));
+      input_eager_blob_objects.at(i) = JUST(host_input->eager_blob_object());
+      host_inputs.emplace_back(host_input);


延长host_input的生命周期，防止其被过析构

oneflow/core/functional/functional_api.yaml

oneflow/user/kernels/host_scalar_add_by_tensor_kernel.cu

oneflow/user/ops/scalar_by_tensor_op.cpp

…b.com/Oneflow-Inc/oneflow into feat_support_host_memory_in_lazy_mode

oneflow/core/framework/op_interpreter/eager_local_op_interpreter.cpp

oneflow/core/framework/local_tensor_infer_cache.cpp

oneflow/core/framework/op_interpreter/lazy_op_interpreter.cpp

python/oneflow/test/modules/test_host_memory_input.py

github-actions · 2023-03-15T11:45:46Z

Speed stats:

GPU Name: GeForce GTX 1080 

❌ OneFlow resnet50 time: 140.9ms (= 14086.1ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 143.9ms (= 14387.3ms / 100, input_shape=[16, 3, 224, 224])
❌ Relative speed: 1.02 (= 143.9ms / 140.9ms)

OneFlow resnet50 time: 80.5ms (= 8049.0ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 84.2ms (= 8424.3ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.05 (= 84.2ms / 80.5ms)

OneFlow resnet50 time: 49.0ms (= 9801.2ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 54.1ms (= 10817.2ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.10 (= 54.1ms / 49.0ms)

OneFlow resnet50 time: 32.6ms (= 6526.4ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 44.1ms (= 8818.8ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.35 (= 44.1ms / 32.6ms)

OneFlow resnet50 time: 25.3ms (= 5056.1ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 40.6ms (= 8128.3ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.61 (= 40.6ms / 25.3ms)

OneFlow swin dataloader time: 0.239s (= 47.702s / 200, num_workers=1)
PyTorch swin dataloader time: 0.150s (= 30.030s / 200, num_workers=1)
Relative speed: 0.630 (= 0.150s / 0.239s)

OneFlow swin dataloader time: 0.066s (= 13.242s / 200, num_workers=4)
PyTorch swin dataloader time: 0.041s (= 8.271s / 200, num_workers=4)
Relative speed: 0.625 (= 0.041s / 0.066s)

OneFlow swin dataloader time: 0.043s (= 8.638s / 200, num_workers=8)
PyTorch swin dataloader time: 0.022s (= 4.486s / 200, num_workers=8)
Relative speed: 0.519 (= 0.022s / 0.043s)

❌ OneFlow resnet50 time: 152.4ms (= 15241.0ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 161.3ms (= 16128.9ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
❌ Relative speed: 1.06 (= 161.3ms / 152.4ms)

OneFlow resnet50 time: 91.1ms (= 9106.8ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 108.1ms (= 10807.6ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.19 (= 108.1ms / 91.1ms)

OneFlow resnet50 time: 59.0ms (= 11793.4ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 78.0ms (= 15598.3ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.32 (= 78.0ms / 59.0ms)

OneFlow resnet50 time: 42.3ms (= 8459.8ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 72.5ms (= 14502.5ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.71 (= 72.5ms / 42.3ms)

OneFlow resnet50 time: 36.5ms (= 7305.6ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 72.2ms (= 14437.6ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.98 (= 72.2ms / 36.5ms)

oneflow/core/graph/task_graph.cpp

oneflow/core/framework/user_op_registry_manager.cpp

oneflow/user/ops/scalar_by_tensor_op.cpp

oneflow/core/framework/global_tensor_infer_cache.cpp

oneflow/core/framework/local_tensor_infer_cache.cpp

oneflow/core/framework/op_expr.h

oneflow/core/framework/user_op_registry_manager.h

oneflow/core/graph/task_graph.cpp

…feat_support_host_memory_in_lazy_mode

github-actions · 2023-03-24T05:34:43Z

Speed stats:

github-actions · 2023-03-29T16:42:12Z

Speed stats:

GPU Name: GeForce GTX 1080 

❌ OneFlow resnet50 time: 141.2ms (= 14115.2ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 144.2ms (= 14416.5ms / 100, input_shape=[16, 3, 224, 224])
❌ Relative speed: 1.02 (= 144.2ms / 141.2ms)

OneFlow resnet50 time: 82.0ms (= 8200.7ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 88.1ms (= 8812.9ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.07 (= 88.1ms / 82.0ms)

OneFlow resnet50 time: 51.3ms (= 10261.3ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 60.5ms (= 12101.2ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.18 (= 60.5ms / 51.3ms)

OneFlow resnet50 time: 34.4ms (= 6887.3ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 46.6ms (= 9324.2ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.35 (= 46.6ms / 34.4ms)

OneFlow resnet50 time: 26.6ms (= 5322.1ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 44.3ms (= 8851.7ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 1.66 (= 44.3ms / 26.6ms)

OneFlow swin dataloader time: 0.256s (= 51.141s / 200, num_workers=1)
PyTorch swin dataloader time: 0.151s (= 30.152s / 200, num_workers=1)
Relative speed: 0.590 (= 0.151s / 0.256s)

OneFlow swin dataloader time: 0.073s (= 14.637s / 200, num_workers=4)
PyTorch swin dataloader time: 0.045s (= 8.906s / 200, num_workers=4)
Relative speed: 0.608 (= 0.045s / 0.073s)

OneFlow swin dataloader time: 0.041s (= 8.261s / 200, num_workers=8)
PyTorch swin dataloader time: 0.023s (= 4.617s / 200, num_workers=8)
Relative speed: 0.559 (= 0.023s / 0.041s)

❌ OneFlow resnet50 time: 153.5ms (= 15350.4ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 165.6ms (= 16562.1ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
❌ Relative speed: 1.08 (= 165.6ms / 153.5ms)

OneFlow resnet50 time: 93.1ms (= 9311.7ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 103.4ms (= 10341.1ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.11 (= 103.4ms / 93.1ms)

OneFlow resnet50 time: 61.2ms (= 12231.0ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 79.1ms (= 15827.8ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.29 (= 79.1ms / 61.2ms)

OneFlow resnet50 time: 42.8ms (= 8564.4ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 67.2ms (= 13434.3ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.57 (= 67.2ms / 42.8ms)

OneFlow resnet50 time: 37.1ms (= 7428.0ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 68.8ms (= 13761.9ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.85 (= 68.8ms / 37.1ms)

github-actions · 2023-03-29T16:57:20Z

View latest API docs preview at: https://staging.oneflow.info/docs/Oneflow-Inc/oneflow/pr/9928/

clackhan added 2 commits March 2, 2023 08:54

feat_support_host_memory_in_lazy_mode

7674b43

refine

28b91fa

clackhan requested a review from liujuncheng March 2, 2023 08:59

clackhan added 8 commits March 2, 2023 17:00

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

aae225d

Merge branch 'master' of https://github.com/Oneflow-Inc/oneflow into …

3c2d286

…feat_support_host_memory_in_lazy_mode

compatible_eager_and_lazy

c48f40d

del useless code

24b9bcb

Merge branch 'feat_support_host_memory_in_lazy_mode' of https://githu…

5cdc9fa

…b.com/Oneflow-Inc/oneflow into feat_support_host_memory_in_lazy_mode

optimize code

89609a9

refine

cff151f

Merge branch 'master' of https://github.com/Oneflow-Inc/oneflow into …

aeae1e4

…feat_support_host_memory_in_lazy_mode

clackhan changed the title ~~Feat support host memory in lazy mode~~ Feat support host memory Mar 9, 2023

clackhan marked this pull request as ready for review March 9, 2023 03:09

clackhan requested review from hjchen2, BBuf, jackalcooper, chengtbf, strint and daquexian as code owners March 9, 2023 03:09

clackhan removed request for strint, jackalcooper, chengtbf, hjchen2 and BBuf March 9, 2023 03:09

clackhan added enhancement feature system labels Mar 9, 2023

clackhan requested a review from oneflow-ci-bot March 9, 2023 03:10

refine

54b097e

clackhan commented Mar 9, 2023

View reviewed changes

refine

1bf742f

clackhan requested review from oneflow-ci-bot and removed request for oneflow-ci-bot March 9, 2023 03:48

clackhan added 3 commits March 9, 2023 14:12

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

7e254ac

fix static check error

dd69263

Merge branch 'feat_support_host_memory_in_lazy_mode' of https://githu…

e2887b4

…b.com/Oneflow-Inc/oneflow into feat_support_host_memory_in_lazy_mode

daquexian approved these changes Mar 15, 2023

View reviewed changes

clackhan added 2 commits March 15, 2023 16:30

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

4bb813e

deal comments

84373c4

liujuncheng reviewed Mar 20, 2023

View reviewed changes

oneflow/core/graph/task_graph.cpp Outdated Show resolved Hide resolved

liujuncheng reviewed Mar 20, 2023

View reviewed changes

oneflow/core/framework/user_op_registry_manager.cpp Outdated Show resolved Hide resolved

liujuncheng reviewed Mar 20, 2023

View reviewed changes

oneflow/user/ops/scalar_by_tensor_op.cpp Outdated Show resolved Hide resolved

oneflow/core/framework/global_tensor_infer_cache.cpp Outdated Show resolved Hide resolved

oneflow/core/framework/local_tensor_infer_cache.cpp Outdated Show resolved Hide resolved

clackhan added 2 commits March 20, 2023 06:00

reslove comments

163cb22

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

94cd8a8

liujuncheng reviewed Mar 24, 2023

View reviewed changes

oneflow/core/framework/op_expr.h Outdated Show resolved Hide resolved

oneflow/core/framework/user_op_registry_manager.h Outdated Show resolved Hide resolved

oneflow/core/graph/task_graph.cpp Outdated Show resolved Hide resolved

clackhan added 2 commits March 24, 2023 04:37

reslove comments

585a920

Merge branch 'master' of https://github.com/Oneflow-Inc/oneflow into …

977682d

…feat_support_host_memory_in_lazy_mode

liujuncheng approved these changes Mar 27, 2023

View reviewed changes

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

eab40e3

clackhan added the automerge label Mar 29, 2023

mergify bot added 2 commits March 29, 2023 10:33

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

32d650d

Merge branch 'master' into feat_support_host_memory_in_lazy_mode

330ab9e

mergify bot merged commit b305117 into master Mar 29, 2023

mergify bot deleted the feat_support_host_memory_in_lazy_mode branch March 29, 2023 17:36

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feat support host memory #9928

Feat support host memory #9928

clackhan commented Mar 2, 2023 •

edited

Loading

clackhan Mar 9, 2023

clackhan Mar 9, 2023

github-actions bot commented Mar 15, 2023

github-actions bot commented Mar 24, 2023

github-actions bot commented Mar 29, 2023

github-actions bot commented Mar 29, 2023

Feat support host memory #9928

Feat support host memory #9928

Conversation

clackhan commented Mar 2, 2023 • edited Loading

clackhan Mar 9, 2023

Choose a reason for hiding this comment

clackhan Mar 9, 2023

Choose a reason for hiding this comment

github-actions bot commented Mar 15, 2023

github-actions bot commented Mar 24, 2023

github-actions bot commented Mar 29, 2023

github-actions bot commented Mar 29, 2023

clackhan commented Mar 2, 2023 •

edited

Loading