Torchserve v2 protocol (kubeflow#1870)

* feat: v2 protocol support for torchserve Signed-off-by: Dan Sun <dsun20@bloomberg.net> Feat: Add unit test for torchserve predictor - Add e2e test Signed-off-by: Dan Sun <dsun20@bloomberg.net> Feat: Add readme doc for v2 support - fix lint error - add grpc sample yaml - add tensor input generation script - fix model archiver to support v2 protocol Signed-off-by: Dan Sun <dsun20@bloomberg.net> Feat: Add gRPC client - fix lint error - update readme for gRPC Signed-off-by: Dan Sun <dsun20@bloomberg.net> feat: Add custom handlers for v2 api Signed-off-by: Dan Sun <dsun20@bloomberg.net> Update torchserve image in test overlay Signed-off-by: Dan Sun <dsun20@bloomberg.net> Feat: Add readme doc for v2 support - fix lint error - add grpc sample yaml - add tensor input generation script - fix model archiver to support v2 protocol Signed-off-by: Dan Sun <dsun20@bloomberg.net> Update test_transformer.py Signed-off-by: Dan Sun <dsun20@bloomberg.net> Add e2e test for grpc torchserve Signed-off-by: Dan Sun <dsun20@bloomberg.net> Update test configuration Signed-off-by: Dan Sun <dsun20@bloomberg.net> Support torchserve runtime for v2 protocol Signed-off-by: Dan Sun <dsun20@bloomberg.net> Fix storage uri for v2 example Signed-off-by: Dan Sun <dsun20@bloomberg.net> Add grpc debug and retry config Signed-off-by: Dan Sun <dsun20@bloomberg.net> fix: torchserve gRPC test Signed-off-by: Jagadeesh J <jagadeeshj@ideas2it.com> * fix: skip gRPC test Signed-off-by: Jagadeesh J <jagadeeshj@ideas2it.com>
magdalenakuhn17 · Dec 14, 2021 · 07e4d5d · 07e4d5d
1 parent f25ca1a
commit 07e4d5d
Show file tree

Hide file tree

Showing 64 changed files with 1,764 additions and 3,806 deletions.
diff --git a/config/configmap/inferenceservice.yaml b/config/configmap/inferenceservice.yaml
@@ -61,24 +61,13 @@ data:
           }
         },
         "pytorch": {
-          "v1" : {
-            "image": "kserve/pytorchserver",
-            "defaultImageVersion": "latest",
-            "defaultGpuImageVersion": "latest-gpu",
-            "supportedFrameworks": [
-              "pytorch"
-            ],
-            "multiModelServer": false
-          },
-          "v2" : {
-            "image": "pytorch/torchserve-kfs",
-            "defaultImageVersion": "0.4.1",
-            "defaultGpuImageVersion": "0.4.1-gpu",
-            "supportedFrameworks": [
-              "pytorch"
-            ],
-            "multiModelServer": false
-          }
+          "image": "kserve/torchserve-kfs",
+          "defaultImageVersion": "0.5.0",
+          "defaultGpuImageVersion": "0.5.0-gpu",
+          "supportedFrameworks": [
+            "pytorch"
+          ],
+          "multiModelServer": false
         },
         "triton": {
             "image": "nvcr.io/nvidia/tritonserver",

diff --git a/config/crd/serving.kserve.io_inferenceservices.yaml b/config/crd/serving.kserve.io_inferenceservices.yaml
@@ -7301,8 +7301,6 @@ spec:
                               format: int32
                               type: integer
                           type: object
-                        modelClassName:
-                          type: string
                         name:
                           type: string
                         ports:

diff --git a/config/overlays/test/configmap/inferenceservice.yaml b/config/overlays/test/configmap/inferenceservice.yaml
@@ -61,24 +61,13 @@ data:
           }
         },
         "pytorch": {
-          "v1" : {
-            "image": "809251082950.dkr.ecr.us-west-2.amazonaws.com/kserve/pytorchserver",
-            "defaultImageVersion": "latest",
-            "defaultGpuImageVersion": "latest-gpu",
-            "supportedFrameworks": [
-              "pytorch"
-            ],
-            "multiModelServer": false
-          },
-          "v2" : {
-            "image": "pytorch/torchserve-kfs",
-            "defaultImageVersion": "0.4.1",
-            "defaultGpuImageVersion": "0.4.1-gpu",
-            "supportedFrameworks": [
-              "pytorch"
-            ],
-            "multiModelServer": false
-          }
+          "image": "kserve/torchserve-kfs",
+          "defaultImageVersion": "0.5.0",
+          "defaultGpuImageVersion": "0.5.0-gpu",
+          "supportedFrameworks": [
+            "pytorch"
+          ],
+          "multiModelServer": false
         },
         "paddle": {
             "image": "ruminateer/paddleserver",

diff --git a/config/runtimes/kserve-pytorchserver.yaml b/config/runtimes/kserve-pytorchserver.yaml
diff --git a/config/runtimes/kustomization.yaml b/config/runtimes/kustomization.yaml
@@ -7,7 +7,6 @@ resources:
   - kserve-pmmlserver.yaml
   - kserve-paddleserver.yaml
   - kserve-lgbserver.yaml
-  - kserve-pytorchserver.yaml
   - kserve-torchserve.yaml
 
 images:
@@ -44,10 +43,6 @@ images:
     newName: kserve/lgbserver
     newTag: latest
 
-  - name: kserve-pytorchserver
-    newName: kserve/pytorchserver
-    newTag: latest
-
   - name: kserve-torchserve
-    newName: pytorch/torchserve-kfs
-    newTag: 0.4.1
+    newName: kserve/torchserve-kfs
+    newTag: 0.5.0
diff --git a/docs/samples/README.md b/docs/samples/README.md
@@ -26,7 +26,7 @@ After models are deployed onto model servers with KServe, you get all the follow
 | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- |
 | [Triton Inference Server](https://github.com/triton-inference-server/server) | [TensorFlow,TorchScript,ONNX,TensorRT](https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/model_repository.html)| v2 | :heavy_check_mark: | :heavy_check_mark: | [Compatibility Matrix](https://docs.nvidia.com/deeplearning/frameworks/support-matrix/index.html)| [Triton Examples](./v1beta1/triton) |
 | [TFServing](https://www.tensorflow.org/tfx/guide/serving) | [TensorFlow SavedModel](https://www.tensorflow.org/guide/saved_model) | v1 | :heavy_check_mark: | :heavy_check_mark: | [TFServing Versions](https://github.com/tensorflow/serving/releases) | [TensorFlow Examples](./v1beta1/tensorflow)  |
-| [TorchServe](https://pytorch.org/serve/server.html) | [Eager Model/TorchScript](https://pytorch.org/docs/master/generated/torch.save.html) | v1 | :heavy_check_mark: | :heavy_check_mark: | 0.4.1 | [TorchServe Examples](./v1beta1/torchserve)  |
+| [TorchServe](https://pytorch.org/serve/server.html) | [Eager Model/TorchScript](https://pytorch.org/docs/master/generated/torch.save.html) | v1/v2 | :heavy_check_mark: | :heavy_check_mark: | 0.4.1 | [TorchServe Examples](./v1beta1/torchserve)  |
 | [TorchServe Native](https://pytorch.org/serve/server.html) | [Eager Model/TorchScript](https://pytorch.org/docs/master/generated/torch.save.html) | native | :heavy_check_mark: | :heavy_check_mark: | 0.4.1 | [TorchServe Examples](./v1beta1/custom/torchserve)  |
 | [ONNXRuntime](https://github.com/microsoft/onnxruntime)  | [Exported ONNX Model](https://github.com/onnx/tutorials#converting-to-onnx-format) | v1 | :heavy_check_mark: | :heavy_check_mark: | [Compatibility](https://github.com/microsoft/onnxruntime#compatibility) |[ONNX Style Model](./v1beta1/onnx)  |
 | [SKLearn MLServer](https://github.com/SeldonIO/MLServer) | [Pickled Model](https://scikit-learn.org/stable/modules/model_persistence.html) | v2 | :heavy_check_mark: | :heavy_check_mark: | 0.23.1 | [SKLearn Iris V2](./v1beta1/sklearn/v2)  |

diff --git a/docs/samples/v1beta1/torchserve/README.md b/docs/samples/v1beta1/torchserve/README.md
diff --git a/docs/samples/v1beta1/torchserve/model-archiver/model-archiver-image/dockerd-entrypoint.sh b/docs/samples/v1beta1/torchserve/model-archiver/model-archiver-image/dockerd-entrypoint.sh
@@ -11,9 +11,11 @@ CONFIG_PATH=$BASE_PATH/config
 touch $CONFIG_PATH/config.properties
 
 cat <<EOF > "$CONFIG_PATH"/config.properties
-inference_address=http://0.0.0.0:8080
-management_address=http://0.0.0.0:8081
+inference_address=http://0.0.0.0:8085
+management_address=http://0.0.0.0:8085
 number_of_netty_threads=4
+enable_envvars_config=true
+install_py_dep_per_model=true
 job_queue_size=100
 model_store="$MODEL_STORE"
 model_snapshot=

diff --git a/docs/samples/v1beta1/torchserve/v1/README.md b/docs/samples/v1beta1/torchserve/v1/README.md
diff --git a/...samples/v1beta1/torchserve/bert/README.md → ...ples/v1beta1/torchserve/v1/bert/README.md b/...samples/v1beta1/torchserve/bert/README.md → ...ples/v1beta1/torchserve/v1/bert/README.md
@@ -1,6 +1,6 @@
 # TorchServe example with Huggingface bert model
 In this example we will show how to serve [Huggingface Transformers with TorchServe](https://github.com/pytorch/serve/tree/master/examples/Huggingface_Transformers)
-on KFServing.
+on KServe.
 
 ## Model archive file creation
 

diff --git a/...samples/v1beta1/torchserve/bert/bert.yaml → ...ples/v1beta1/torchserve/v1/bert/bert.yaml b/...samples/v1beta1/torchserve/bert/bert.yaml → ...ples/v1beta1/torchserve/v1/bert/bert.yaml
diff --git a/...v1beta1/torchserve/bert/config.properties → ...eta1/torchserve/v1/bert/config.properties b/...v1beta1/torchserve/bert/config.properties → ...eta1/torchserve/v1/bert/config.properties
@@ -1,10 +1,13 @@
 inference_address=http://0.0.0.0:8085
-management_address=http://0.0.0.0:8081
+management_address=http://0.0.0.0:8085
 metrics_address=http://0.0.0.0:8082
+grpc_inference_port=7070
+grpc_management_port=7071
 enable_metrics_api=true
 metrics_format=prometheus
 number_of_netty_threads=4
 job_queue_size=10
-service_envelope=kfserving
+enable_envvars_config=true
+install_py_dep_per_model=true
 model_store=/mnt/models/model-store
 model_snapshot={"name":"startup.cfg","modelCount":1,"models":{"bert":{"1.0":{"defaultVersion":true,"marName":"BERTSeqClassification.mar","minWorkers":1,"maxWorkers":5,"batchSize":1,"maxBatchDelay":5000,"responseTimeout":120}}}}
diff --git a/...s/v1beta1/torchserve/bert/sample_text.txt → ...1beta1/torchserve/v1/bert/sample_text.txt b/...s/v1beta1/torchserve/bert/sample_text.txt → ...1beta1/torchserve/v1/bert/sample_text.txt
diff --git a/...ples/v1beta1/torchserve/config.properties → ...s/v1beta1/torchserve/v1/config.properties b/...ples/v1beta1/torchserve/config.properties → ...s/v1beta1/torchserve/v1/config.properties
@@ -1,10 +1,13 @@
 inference_address=http://0.0.0.0:8085
-management_address=http://0.0.0.0:8081
+management_address=http://0.0.0.0:8085
 metrics_address=http://0.0.0.0:8082
+grpc_inference_port=7070
+grpc_management_port=7071
 enable_metrics_api=true
 metrics_format=prometheus
 number_of_netty_threads=4
 job_queue_size=10
-service_envelope=kfserving
+enable_envvars_config=true
+install_py_dep_per_model=true
 model_store=/mnt/models/model-store
 model_snapshot={"name":"startup.cfg","modelCount":1,"models":{"mnist":{"1.0":{"defaultVersion":true,"marName":"mnist.mar","minWorkers":1,"maxWorkers":5,"batchSize":1,"maxBatchDelay":5000,"responseTimeout":120}}}}
diff --git a/docs/samples/v1beta1/torchserve/gpu.yaml → docs/samples/v1beta1/torchserve/v1/gpu.yaml b/docs/samples/v1beta1/torchserve/gpu.yaml → docs/samples/v1beta1/torchserve/v1/gpu.yaml
@@ -1,7 +1,7 @@
 apiVersion: "serving.kserve.io/v1beta1"
 kind: "InferenceService"
 metadata:
-  name: "torchserve"
+  name: "torchserve-gpu"
 spec:
   predictor:
     pytorch:

diff --git a/docs/samples/v1beta1/torchserve/v1/grpc.yaml b/docs/samples/v1beta1/torchserve/v1/grpc.yaml
@@ -0,0 +1,12 @@
+apiVersion: serving.kserve.io/v1beta1
+kind: InferenceService
+metadata:
+  name: "torchserve-grpc"
+spec:
+  predictor:
+    pytorch:
+      storageUri: gs://kfserving-examples/models/torchserve/image_classifier
+      ports:
+       - containerPort: 7070
+         name: h2c
+         protocol: TCP
diff --git a/.../samples/v1beta1/torchserve/imgconv/0.png → ...mples/v1beta1/torchserve/v1/imgconv/0.png b/.../samples/v1beta1/torchserve/imgconv/0.png → ...mples/v1beta1/torchserve/v1/imgconv/0.png
diff --git a/.../samples/v1beta1/torchserve/imgconv/1.png → ...mples/v1beta1/torchserve/v1/imgconv/1.png b/.../samples/v1beta1/torchserve/imgconv/1.png → ...mples/v1beta1/torchserve/v1/imgconv/1.png
diff --git a/...ples/v1beta1/torchserve/imgconv/README.md → ...s/v1beta1/torchserve/v1/imgconv/README.md b/...ples/v1beta1/torchserve/imgconv/README.md → ...s/v1beta1/torchserve/v1/imgconv/README.md
diff --git a/...beta1/torchserve/imgconv/img2bytearray.py → ...a1/torchserve/v1/imgconv/img2bytearray.py b/...beta1/torchserve/imgconv/img2bytearray.py → ...a1/torchserve/v1/imgconv/img2bytearray.py
diff --git a/...les/v1beta1/torchserve/imgconv/input.json → .../v1beta1/torchserve/v1/imgconv/input.json b/...les/v1beta1/torchserve/imgconv/input.json → .../v1beta1/torchserve/v1/imgconv/input.json
diff --git a/docs/samples/v1beta1/torchserve/mnist.json → .../samples/v1beta1/torchserve/v1/mnist.json b/docs/samples/v1beta1/torchserve/mnist.json → .../samples/v1beta1/torchserve/v1/mnist.json
diff --git a/...amples/v1beta1/torchserve/torchserve.yaml → ...les/v1beta1/torchserve/v1/torchserve.yaml b/...amples/v1beta1/torchserve/torchserve.yaml → ...les/v1beta1/torchserve/v1/torchserve.yaml
diff --git a/docs/samples/v1beta1/torchserve/v1/torchserve_grpc_client.py b/docs/samples/v1beta1/torchserve/v1/torchserve_grpc_client.py
@@ -0,0 +1,104 @@
+import grpc
+import inference_pb2
+import inference_pb2_grpc
+import management_pb2
+import management_pb2_grpc
+import sys
+
+
+def get_inference_stub():
+    channel = grpc.insecure_channel(
+        'localhost:8080',
+        options=(('grpc.ssl_target_name_override',
+                  'torchserve-grpc.kserve-test.example.com'),))
+    stub = inference_pb2_grpc.InferenceAPIsServiceStub(channel)
+    return stub
+
+
+def get_management_stub():
+    channel = grpc.insecure_channel(
+        'localhost:8081',
+        options=(('grpc.ssl_target_name_override',
+                  'torchserve-grpc.kserve-test.example.com'),))
+    stub = management_pb2_grpc.ManagementAPIsServiceStub(channel)
+    return stub
+
+
+def infer(stub, model_name, model_input):
+    with open(model_input, 'rb') as f:
+        data = f.read()
+
+    input_data = {'data': data}
+    response = stub.Predictions(
+        inference_pb2.PredictionsRequest(model_name=model_name,
+                                         input=input_data))
+
+    try:
+        prediction = response.prediction.decode('utf-8')
+        print(prediction)
+    except grpc.RpcError:
+        exit(1)
+
+
+def ping(stub):
+    response = stub.Ping(inference_pb2.TorchServeHealthResponse())
+    try:
+        health = response
+        print("Ping Response:", health)
+    except grpc.RpcError:
+        exit(1)
+
+
+def register(stub, model_name, mar_set_str):
+    mar_set = set()
+    if mar_set_str:
+        mar_set = set(mar_set_str.split(','))
+    marfile = f"{model_name}.mar"
+    print(f"## Check {marfile} in mar_set :", mar_set)
+    if marfile not in mar_set:
+        marfile = "https://torchserve.s3.amazonaws.com/mar_files/{}.mar".format(
+            model_name)
+
+    print(f"## Register marfile:{marfile}\n")
+    params = {
+        'url': marfile,
+        'initial_workers': 1,
+        'synchronous': True,
+        'model_name': model_name
+    }
+    try:
+        stub.RegisterModel(management_pb2.RegisterModelRequest(**params))
+        print(f"Model {model_name} registered successfully")
+    except grpc.RpcError as e:
+        print(f"Failed to register model {model_name}.")
+        print(str(e.details()))
+        exit(1)
+
+
+def unregister(stub, model_name):
+    try:
+        stub.UnregisterModel(
+            management_pb2.UnregisterModelRequest(model_name=model_name))
+        print(f"Model {model_name} unregistered successfully")
+    except grpc.RpcError as e:
+        print(f"Failed to unregister model {model_name}.")
+        print(str(e.details()))
+        exit(1)
+
+
+if __name__ == '__main__':
+    # args:
+    # 1-> api name [infer, register, unregister]
+    # 2-> model name
+    # 3-> model input for prediction
+    args = sys.argv[1:]
+    if args[0] == "infer":
+        infer(get_inference_stub(), args[1], args[2])
+    elif args[0] == "ping":
+        ping(get_inference_stub())
+    else:
+        api = globals()[args[0]]
+        if args[0] == "register":
+            api(get_management_stub(), args[1], args[2])
+        else:
+            api(get_management_stub(), args[1])