DEVICE/API: Simplify createGpuXferReq to single-step API

michal-shalev · michal-shalev · commit b0fe40c28b22 · 2025-10-12T14:53:38.000+03:00
Signed-off-by: Michal Shalev &lt;mshalev@nvidia.com&gt;
diff --git a/src/api/cpp/nixl.h b/src/api/cpp/nixl.h
@@ -322,12 +322,22 @@ class nixlAgent {
         /**
          * @brief  Create a GPU transfer request from a transfer request.
          *
-         * @param  req_hndl     [in]  Transfer request obtained from makeXferReq/createXferReq
-         * @param  gpu_req_hndl [out] GPU transfer request handle
-         * @return nixl_status_t Error code if call was not successful
+         *
+         * @param  local_descs    [in]  Local descriptor list (empty for signal-only case)
+         * @param  remote_descs   [in]  Remote descriptor list
+         * @param  remote_agent   [in]  Remote agent name for accessing the remote data
+         * @param  gpu_req_hndl   [out] GPU transfer request handle
+         * @param  req_hndl       [out] Transfer request handle
+         * @param  extra_params   [in]  Optional extra parameters
+         * @return nixl_status_t  Error code if call was not successful
          */
         nixl_status_t
-        createGpuXferReq(const nixlXferReqH &req_hndl, nixlGpuXferReqH &gpu_req_hndl) const;
+        createGpuXferReq(const nixl_xfer_dlist_t &local_descs,
+                         const nixl_xfer_dlist_t &remote_descs,
+                         const std::string &remote_agent,
+                         nixlGpuXferReqH &gpu_req_hndl,
+                         nixlXferReqH *&req_hndl,
+                         const nixl_opt_args_t *extra_params = nullptr) const;
 
         /**
          * @brief  Release transfer request from GPU memory
diff --git a/src/core/nixl_agent.cpp b/src/core/nixl_agent.cpp
@@ -1217,25 +1217,143 @@ nixlAgent::releaseXferReq(nixlXferReqH *req_hndl) const {
 }
 
 nixl_status_t
-nixlAgent::createGpuXferReq(const nixlXferReqH &req_hndl, nixlGpuXferReqH &gpu_req_hndl) const {
-    if (!req_hndl.engine) {
-        NIXL_ERROR_FUNC << "Invalid request handle[" << &req_hndl << "]: engine is null";
-        return NIXL_ERR_INVALID_PARAM;
+nixlAgent::createGpuXferReq(const nixl_xfer_dlist_t &local_descs,
+                            const nixl_xfer_dlist_t &remote_descs,
+                            const std::string &remote_agent,
+                            nixlGpuXferReqH &gpu_req_hndl,
+                            nixlXferReqH *&req_hndl,
+                            const nixl_opt_args_t *extra_params) const {
+    nixl_status_t     ret1, ret2;
+    nixl_opt_b_args_t opt_args;
+
+    std::unique_ptr<backend_set_t> backend_set = std::make_unique<backend_set_t>();
+
+    req_hndl = nullptr;
+
+    NIXL_SHARED_LOCK_GUARD(data->lock);
+
+    if (data->remoteSections.count(remote_agent) == 0)
+    {
+        NIXL_ERROR_FUNC << "metadata for remote agent '" << remote_agent << "' not found";
+        data->addErrorTelemetry(NIXL_ERR_NOT_FOUND);
+        return NIXL_ERR_NOT_FOUND;
     }
 
-    if (!req_hndl.backendHandle) {
-        NIXL_ERROR_FUNC << "Invalid request handle[" << &req_hndl << "]: backendHandle is null";
+    size_t total_bytes = 0;
+    if (local_descs.descCount() != remote_descs.descCount()) {
+        NIXL_ERROR_FUNC << "different descriptor list sizes (local=" << local_descs.descCount()
+                        << ", remote=" << remote_descs.descCount() << ")";
         return NIXL_ERR_INVALID_PARAM;
     }
+    for (int i = 0; i < local_descs.descCount(); ++i) {
+        if (local_descs[i].len != remote_descs[i].len) {
+            NIXL_ERROR_FUNC << "length mismatch at index " << i;
+            return NIXL_ERR_INVALID_PARAM;
+        }
+        total_bytes += local_descs[i].len;
+    }
 
-    NIXL_SHARED_LOCK_GUARD(data->lock);
-    const auto status = req_hndl.engine->createGpuXferReq(
-        *req_hndl.backendHandle, *req_hndl.initiatorDescs, *req_hndl.targetDescs, gpu_req_hndl);
+    if (!extra_params || extra_params->backends.size() == 0) {
+        // Finding backends that support the corresponding memories
+        // locally and remotely, and find the common ones.
+        backend_set_t* local_set =
+            data->memorySection->queryBackends(local_descs.getType());
+        backend_set_t* remote_set =
+            data->remoteSections[remote_agent]->queryBackends(
+                                                remote_descs.getType());
+        if (!local_set || !remote_set) {
+            NIXL_ERROR_FUNC << "no backends found for local or remote for their "
+                               "corresponding memory type";
+            return NIXL_ERR_NOT_FOUND;
+        }
+
+        for (auto & elm : *local_set)
+            if (remote_set->count(elm) != 0)
+                backend_set->insert(elm);
+
+        if (backend_set->empty()) {
+            NIXL_ERROR_FUNC << "no potential backend found to be able to do the transfer";
+            return NIXL_ERR_NOT_FOUND;
+        }
+    } else {
+        for (auto & elm : extra_params->backends)
+            backend_set->insert(elm->engine);
+    }
+
+    std::unique_ptr<nixlXferReqH> handle = std::make_unique<nixlXferReqH>();
+    handle->initiatorDescs = new nixl_meta_dlist_t(local_descs.getType());
+
+    handle->targetDescs = new nixl_meta_dlist_t(remote_descs.getType());
+
+    for (auto & backend : *backend_set) {
+        ret1 = data->memorySection->populate(
+                     local_descs, backend, *handle->initiatorDescs);
+        ret2 = data->remoteSections[remote_agent]->populate(
+                     remote_descs, backend, *handle->targetDescs);
+
+        if ((ret1 == NIXL_SUCCESS) && (ret2 == NIXL_SUCCESS)) {
+            NIXL_INFO << "Selected backend: " << backend->getType();
+            handle->engine = backend;
+            break;
+        }
+    }
+
+    if (!handle->engine) {
+        NIXL_ERROR_FUNC << "no specified or potential backend had the required "
+                           "registrations to be able to do the transfer";
+        data->addErrorTelemetry(NIXL_ERR_NOT_FOUND);
+        return NIXL_ERR_NOT_FOUND;
+    }
+
+    if (extra_params) {
+        if (extra_params->hasNotif) {
+            opt_args.notifMsg = extra_params->notifMsg;
+            opt_args.hasNotif = true;
+        }
+
+        if (extra_params->customParam.length() > 0)
+            opt_args.customParam = extra_params->customParam;
+    }
+
+    if (opt_args.hasNotif && (!handle->engine->supportsNotif())) {
+        NIXL_ERROR_FUNC << "the selected backend '" << handle->engine->getType()
+                        << "' does not support notifications";
+        data->addErrorTelemetry(NIXL_ERR_BACKEND);
+        return NIXL_ERR_BACKEND;
+    }
+
+    handle->remoteAgent = remote_agent;
+    handle->status = NIXL_ERR_NOT_POSTED;
+    handle->notifMsg = opt_args.notifMsg;
+    handle->hasNotif = opt_args.hasNotif;
+
+    if (data->telemetryEnabled) {
+        handle->telemetry.totalBytes = total_bytes;
+        handle->telemetry.descCount = handle->initiatorDescs->descCount();
+    }
+
+    ret1 = handle->engine->prepXfer (handle->backendOp,
+                                     *handle->initiatorDescs,
+                                     *handle->targetDescs,
+                                     handle->remoteAgent,
+                                     handle->backendHandle,
+                                     &opt_args);
+    if (ret1 != NIXL_SUCCESS) {
+        NIXL_ERROR_FUNC << "backend '" << handle->engine->getType()
+                        << "' failed to prepare the transfer request with status " << ret1;
+        data->addErrorTelemetry(ret1);
+        return ret1;
+    }
+
+    req_hndl = handle.release();
+
+    const auto status = req_hndl->engine->createGpuXferReq(
+        *req_hndl->backendHandle, *req_hndl->initiatorDescs, *req_hndl->targetDescs, gpu_req_hndl);
     if (status == NIXL_SUCCESS) {
-        data->gpuReqToEngine.emplace(gpu_req_hndl, req_hndl.engine);
+        data->gpuReqToEngine.emplace(gpu_req_hndl, req_hndl->engine);
     }
 
-    return status;
+    return NIXL_SUCCESS;
 }
 
 void
diff --git a/src/plugins/ucx/ucx_backend.cpp b/src/plugins/ucx/ucx_backend.cpp
@@ -1633,16 +1633,6 @@ nixlUcxEngine::createGpuXferReq(const nixlBackendReqH &req_hndl,
                                 nixlGpuXferReqH &gpu_req_hndl) const {
     auto intHandle = static_cast<const nixlUcxBackendH *>(&req_hndl);
 
-    if (local_descs.descCount() != remote_descs.descCount()) {
-        NIXL_ERROR << "Mismatch between local and remote descriptor counts";
-        return NIXL_ERR_INVALID_PARAM;
-    }
-
-    if (local_descs.descCount() == 0) {
-        NIXL_ERROR << "Empty descriptor lists";
-        return NIXL_ERR_INVALID_PARAM;
-    }
-
     auto remoteMd = static_cast<nixlUcxPublicMetadata *>(remote_descs[0].metadataP);
     if (!remoteMd || !remoteMd->conn) {
         NIXL_ERROR << "No connection found in remote metadata";
@@ -1655,9 +1645,11 @@ nixlUcxEngine::createGpuXferReq(const nixlBackendReqH &req_hndl,
     std::vector<nixlUcxMem> local_mems;
     std::vector<const nixl::ucx::rkey *> remote_rkeys;
     std::vector<uint64_t> remote_addrs;
+    std::vector<size_t> remote_lengths;
     local_mems.reserve(local_descs.descCount());
     remote_rkeys.reserve(remote_descs.descCount());
     remote_addrs.reserve(remote_descs.descCount());
+    remote_lengths.reserve(remote_descs.descCount());
 
     for (size_t i = 0; i < static_cast<size_t>(local_descs.descCount()); i++) {
         auto localMd = static_cast<nixlUcxPrivateMetadata *>(local_descs[i].metadataP);
@@ -1666,10 +1658,11 @@ nixlUcxEngine::createGpuXferReq(const nixlBackendReqH &req_hndl,
         local_mems.push_back(localMd->mem);
         remote_rkeys.push_back(&remoteMdDesc->getRkey(workerId));
         remote_addrs.push_back(static_cast<uint64_t>(remote_descs[i].addr));
+        remote_lengths.push_back(remote_descs[i].len);
     }
 
     try {
-        gpu_req_hndl = nixl::ucx::createGpuXferReq(*ep, local_mems, remote_rkeys, remote_addrs);
+        gpu_req_hndl = nixl::ucx::createGpuXferReq(*ep, local_mems, remote_rkeys, remote_addrs, remote_lengths);
         return NIXL_SUCCESS;
     }
     catch (const std::exception &e) {
diff --git a/src/utils/ucx/gpu_xfer_req_h.cpp b/src/utils/ucx/gpu_xfer_req_h.cpp
@@ -35,34 +35,43 @@ nixlGpuXferReqH
 createGpuXferReq(const nixlUcxEp &ep,
                  const std::vector<nixlUcxMem> &local_mems,
                  const std::vector<const nixl::ucx::rkey *> &remote_rkeys,
-                 const std::vector<uint64_t> &remote_addrs) {
+                 const std::vector<uint64_t> &remote_addrs,
+                 const std::vector<size_t> &remote_lengths) {
     nixl_status_t status = ep.checkTxState();
     if (status != NIXL_SUCCESS) {
         throw std::runtime_error("Endpoint not in valid state for creating memory list");
     }
 
-    if (local_mems.empty() || remote_rkeys.empty() || remote_addrs.empty()) {
-        throw std::invalid_argument("Empty memory, rkey, or address lists provided");
-    }
-
-    if (local_mems.size() != remote_rkeys.size() || local_mems.size() != remote_addrs.size()) {
-        throw std::invalid_argument(
-            "Local memory, remote rkey, and remote address lists must have same size");
-    }
 
     std::vector<ucp_device_mem_list_elem_t> ucp_elements;
     ucp_elements.reserve(local_mems.size());
 
     for (size_t i = 0; i < local_mems.size(); i++) {
         ucp_device_mem_list_elem_t ucp_elem;
-        ucp_elem.field_mask = UCP_DEVICE_MEM_LIST_ELEM_FIELD_MEMH |
-            UCP_DEVICE_MEM_LIST_ELEM_FIELD_RKEY | UCP_DEVICE_MEM_LIST_ELEM_FIELD_LOCAL_ADDR |
-            UCP_DEVICE_MEM_LIST_ELEM_FIELD_REMOTE_ADDR | UCP_DEVICE_MEM_LIST_ELEM_FIELD_LENGTH;
-        ucp_elem.memh = local_mems[i].getMemh();
+        bool has_local_mem = local_mems[i].getMemh() != nullptr;
+
+        if (has_local_mem) {
+            /* Data element with local memory */
+            ucp_elem.field_mask = UCP_DEVICE_MEM_LIST_ELEM_FIELD_MEMH |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_RKEY |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_LOCAL_ADDR |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_REMOTE_ADDR |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_LENGTH;
+            ucp_elem.memh = local_mems[i].getMemh();
+            ucp_elem.local_addr = local_mems[i].getBase();
+            ucp_elem.length = local_mems[i].getSize();
+        } else {
+            /* Signal element without local memory */
+            ucp_elem.field_mask = UCP_DEVICE_MEM_LIST_ELEM_FIELD_RKEY |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_REMOTE_ADDR |
+                                  UCP_DEVICE_MEM_LIST_ELEM_FIELD_LENGTH;
+            ucp_elem.memh = nullptr;
+            ucp_elem.local_addr = nullptr;
+            ucp_elem.length = remote_lengths[i];
+        }
+
         ucp_elem.rkey = remote_rkeys[i]->get();
-        ucp_elem.local_addr = local_mems[i].getBase();
         ucp_elem.remote_addr = remote_addrs[i];
-        ucp_elem.length = local_mems[i].getSize();
         ucp_elements.push_back(ucp_elem);
     }
 
diff --git a/src/utils/ucx/gpu_xfer_req_h.h b/src/utils/ucx/gpu_xfer_req_h.h
@@ -32,7 +32,8 @@ nixlGpuXferReqH
 createGpuXferReq(const nixlUcxEp &ep,
                  const std::vector<nixlUcxMem> &local_mems,
                  const std::vector<const nixl::ucx::rkey *> &remote_rkeys,
-                 const std::vector<uint64_t> &remote_addrs);
+                 const std::vector<uint64_t> &remote_addrs,
+                 const std::vector<size_t> &remote_lengths);
 
 void
 releaseGpuXferReq(nixlGpuXferReqH gpu_req) noexcept;
diff --git a/test/gtest/device_api/single_write_test.cu b/test/gtest/device_api/single_write_test.cu
@@ -385,7 +385,7 @@ TEST_P(SingleWriteTest, BasicSingleWriteTest) {
     constexpr size_t count = 1;
     nixl_mem_t mem_type = VRAM_SEG;
     size_t num_threads = 32;
-    const size_t num_iters = 10000;
+    const size_t num_iters = 10;
     constexpr unsigned index = 0;
     const bool is_no_delay = true;
 
@@ -405,22 +405,21 @@ TEST_P(SingleWriteTest, BasicSingleWriteTest) {
     extra_params.notifMsg = NOTIF_MSG;
 
     nixlXferReqH *xfer_req = nullptr;
+    nixlGpuXferReqH gpu_req_hndl;
+
     nixl_status_t status = getAgent(SENDER_AGENT)
-                               .createXferReq(NIXL_WRITE,
+                               .createGpuXferReq(
                                               makeDescList<nixlBasicDesc>(src_buffers, mem_type),
                                               makeDescList<nixlBasicDesc>(dst_buffers, mem_type),
                                               getAgentName(RECEIVER_AGENT),
+                                              gpu_req_hndl,
                                               xfer_req,
                                               &extra_params);
 
     ASSERT_EQ(status, NIXL_SUCCESS)
-        << "Failed to create xfer request " << nixlEnumStrings::statusStr(status);
+        << "Failed to create GPU xfer request " << nixlEnumStrings::statusStr(status);
     EXPECT_NE(xfer_req, nullptr);
 
-    nixlGpuXferReqH gpu_req_hndl;
-    status = getAgent(SENDER_AGENT).createGpuXferReq(*xfer_req, gpu_req_hndl);
-    ASSERT_EQ(status, NIXL_SUCCESS) << "Failed to create GPU xfer request";
-
     ASSERT_NE(gpu_req_hndl, nullptr) << "GPU request handle is null after createGpuXferReq";
 
     size_t src_offset = 0;
@@ -485,7 +484,7 @@ TEST_P(SingleWriteTest, VariableSizeTest) {
         constexpr size_t count = 1;
         nixl_mem_t mem_type = VRAM_SEG;
         size_t num_threads = 32;
-        const size_t num_iters = 50000;
+        const size_t num_iters = 10;
         constexpr unsigned index = 0;
         const bool is_no_delay = true;
 
@@ -507,19 +506,18 @@ TEST_P(SingleWriteTest, VariableSizeTest) {
         extra_params.notifMsg = NOTIF_MSG;
 
         nixlXferReqH *xfer_req = nullptr;
+        nixlGpuXferReqH gpu_req_hndl;
+
         nixl_status_t status =
             getAgent(SENDER_AGENT)
-                .createXferReq(NIXL_WRITE,
+                .createGpuXferReq(
                                makeDescList<nixlBasicDesc>(src_buffers, mem_type),
                                makeDescList<nixlBasicDesc>(dst_buffers, mem_type),
                                getAgentName(RECEIVER_AGENT),
+                               gpu_req_hndl,
                                xfer_req,
                                &extra_params);
 
-        ASSERT_EQ(status, NIXL_SUCCESS) << "Failed to create xfer request for size " << test_size;
-
-        nixlGpuXferReqH gpu_req_hndl;
-        status = getAgent(SENDER_AGENT).createGpuXferReq(*xfer_req, gpu_req_hndl);
         ASSERT_EQ(status, NIXL_SUCCESS)
             << "Failed to create GPU xfer request for size " << test_size;