ggerganov · ggerganov · Jun 25, 2023 · Jun 25, 2023
diff --git a/examples/talk-llama/llama.cpp b/examples/talk-llama/llama.cpp
@@ -1002,7 +1002,7 @@ static void llama_model_load_internal(
  }
 
 #ifdef GGML_USE_CUBLAS
-#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CUDA
+#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_GPU
 #else
 #define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_CPU
 #endif
@@ -1054,7 +1054,7 @@ static void llama_model_load_internal(
  layer.w2 = ml->get_tensor(layers_i + ".feed_forward.w2.weight", { n_ff, n_embd}, backend);
  layer.w3 = ml->get_tensor(layers_i + ".feed_forward.w3.weight", {n_embd, n_ff}, backend);
 
- if (backend == GGML_BACKEND_CUDA) {
+ if (backend == GGML_BACKEND_GPU) {
  vram_total +=
  ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk) +
  ggml_nbytes(layer.wv) + ggml_nbytes(layer.wo) + ggml_nbytes(layer.attention_norm) +
@@ -1115,7 +1115,7 @@ static void llama_model_load_internal(
  }
  }
  for (llama_load_tensor & lt : ml->tensors_map.tensors) {
- if (lt.ggml_tensor->backend != GGML_BACKEND_CUDA) {
+ if (lt.ggml_tensor->backend != GGML_BACKEND_GPU) {
  continue;
  }
  if (progress_callback) {