leejet
diff --git a/‎clip.hpp‎
Lines changed: 6 additions & 6 deletions b/‎clip.hpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎common.hpp‎
Lines changed: 4 additions & 4 deletions b/‎common.hpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎conditioner.hpp‎
Lines changed: 46 additions & 46 deletions b/‎conditioner.hpp‎
Lines changed: 46 additions & 46 deletions
diff --git a/‎control.hpp‎
Lines changed: 1 addition & 1 deletion b/‎control.hpp‎
Lines changed: 1 addition & 1 deletion
@@ -641,10 +641,10 @@ class CLIPVisionEmbeddings : public GGMLBlock {
         // concat(patch_embedding, class_embedding) + position_embedding
         struct ggml_tensor* patch_embedding;
         int64_t N       = pixel_values->ne[3];
-        patch_embedding = ggml_nn_conv_2d(ctx, pixel_values, patch_embed_weight, nullptr, patch_size, patch_size);  // [N, embed_dim, image_size // pacht_size, image_size // pacht_size]
-        patch_embedding = ggml_reshape_3d(ctx, patch_embedding, num_patches, embed_dim, N);                         // [N, embed_dim, num_patches]
-        patch_embedding = ggml_cont(ctx, ggml_permute(ctx, patch_embedding, 1, 0, 2, 3));                           // [N, num_patches, embed_dim]
-        patch_embedding = ggml_reshape_4d(ctx, patch_embedding, 1, embed_dim, num_patches, N);                      // [N, num_patches, embed_dim, 1]
+        patch_embedding = ggml_ext_conv_2d(ctx, pixel_values, patch_embed_weight, nullptr, patch_size, patch_size);  // [N, embed_dim, image_size // pacht_size, image_size // pacht_size]
+        patch_embedding = ggml_reshape_3d(ctx, patch_embedding, num_patches, embed_dim, N);                          // [N, embed_dim, num_patches]
+        patch_embedding = ggml_cont(ctx, ggml_permute(ctx, patch_embedding, 1, 0, 2, 3));                            // [N, num_patches, embed_dim]
+        patch_embedding = ggml_reshape_4d(ctx, patch_embedding, 1, embed_dim, num_patches, N);                       // [N, num_patches, embed_dim, 1]
 
         struct ggml_tensor* class_embedding = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, embed_dim, N);
         class_embedding                     = ggml_repeat(ctx, class_embed_weight, class_embedding);      // [N, embed_dim]
@@ -736,7 +736,7 @@ class CLIPTextModel : public GGMLBlock {
             auto text_projection = params["text_projection"];
             ggml_tensor* pooled  = ggml_view_1d(ctx, x, hidden_size, x->nb[1] * max_token_idx);
             if (text_projection != nullptr) {
-                pooled = ggml_nn_linear(ctx, pooled, text_projection, nullptr);
+                pooled = ggml_ext_linear(ctx, pooled, text_projection, nullptr);
             } else {
                 LOG_DEBUG("identity projection");
             }
@@ -836,7 +836,7 @@ class CLIPProjection : public UnaryBlock {
         if (transpose_weight) {
             w = ggml_cont(ctx, ggml_transpose(ctx, w));
         }
-        return ggml_nn_linear(ctx, x, w, nullptr);
+        return ggml_ext_linear(ctx, x, w, nullptr);
     }
 };
 
 
@@ -205,8 +205,8 @@ class GEGLU : public UnaryBlock {
         auto gate_b = ggml_view_1d(ctx, b, b->ne[0] / 2, b->nb[0] * b->ne[0] / 2);                      // [dim_out, ]
 
         auto x_in = x;
-        x         = ggml_nn_linear(ctx, x_in, x_w, x_b);        // [ne3, ne2, ne1, dim_out]
-        auto gate = ggml_nn_linear(ctx, x_in, gate_w, gate_b);  // [ne3, ne2, ne1, dim_out]
+        x         = ggml_ext_linear(ctx, x_in, x_w, x_b);        // [ne3, ne2, ne1, dim_out]
+        auto gate = ggml_ext_linear(ctx, x_in, gate_w, gate_b);  // [ne3, ne2, ne1, dim_out]
 
         gate = ggml_gelu_inplace(ctx, gate);
 
@@ -325,7 +325,7 @@ class CrossAttention : public GGMLBlock {
         auto k = to_k->forward(ctx, context);  // [N, n_context, inner_dim]
         auto v = to_v->forward(ctx, context);  // [N, n_context, inner_dim]
 
-        x = ggml_nn_attention_ext(ctx, backend, q, k, v, n_head, nullptr, false, false, flash_attn);  // [N, n_token, inner_dim]
+        x = ggml_ext_attention_ext(ctx, backend, q, k, v, n_head, nullptr, false, false, flash_attn);  // [N, n_token, inner_dim]
 
         x = to_out_0->forward(ctx, x);  // [N, n_token, query_dim]
         return x;
@@ -492,7 +492,7 @@ class AlphaBlender : public GGMLBlock {
     float get_alpha() {
         // image_only_indicator is always tensor([0.]) and since mix_factor.shape is [1,]
         // so learned_with_images is same as learned
-        float alpha = ggml_backend_tensor_get_f32(params["mix_factor"]);
+        float alpha = ggml_ext_backend_tensor_get_f32(params["mix_factor"]);
         return sigmoid(alpha);
     }
 
 
@@ -462,7 +462,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
                                          clip_skip,
                                          &chunk_hidden_states2, work_ctx);
                     // concat
-                    chunk_hidden_states = ggml_tensor_concat(work_ctx, chunk_hidden_states1, chunk_hidden_states2, 0);
+                    chunk_hidden_states = ggml_ext_tensor_concat(work_ctx, chunk_hidden_states1, chunk_hidden_states2, 0);
 
                     if (chunk_idx == 0) {
                         text_model2->compute(n_threads,
@@ -484,18 +484,18 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
             LOG_DEBUG("computing condition graph completed, taking %" PRId64 " ms", t1 - t0);
             ggml_tensor* result = ggml_dup_tensor(work_ctx, chunk_hidden_states);
             {
-                float original_mean = ggml_tensor_mean(chunk_hidden_states);
+                float original_mean = ggml_ext_tensor_mean(chunk_hidden_states);
                 for (int i2 = 0; i2 < chunk_hidden_states->ne[2]; i2++) {
                     for (int i1 = 0; i1 < chunk_hidden_states->ne[1]; i1++) {
                         for (int i0 = 0; i0 < chunk_hidden_states->ne[0]; i0++) {
-                            float value = ggml_tensor_get_f32(chunk_hidden_states, i0, i1, i2);
+                            float value = ggml_ext_tensor_get_f32(chunk_hidden_states, i0, i1, i2);
                             value *= chunk_weights[i1];
-                            ggml_tensor_set_f32(result, value, i0, i1, i2);
+                            ggml_ext_tensor_set_f32(result, value, i0, i1, i2);
                         }
                     }
                 }
-                float new_mean = ggml_tensor_mean(result);
-                ggml_tensor_scale(result, (original_mean / new_mean));
+                float new_mean = ggml_ext_tensor_mean(result);
+                ggml_ext_tensor_scale_inplace(result, (original_mean / new_mean));
             }
             if (zero_out_masked) {
                 float* vec = (float*)result->data;
@@ -874,18 +874,18 @@ struct SD3CLIPEmbedder : public Conditioner {
                                 work_ctx);
                 {
                     auto tensor         = chunk_hidden_states_l;
-                    float original_mean = ggml_tensor_mean(tensor);
+                    float original_mean = ggml_ext_tensor_mean(tensor);
                     for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                         for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                             for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                                float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                                float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                                 value *= chunk_weights[i1];
-                                ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                                ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                             }
                         }
                     }
-                    float new_mean = ggml_tensor_mean(tensor);
-                    ggml_tensor_scale(tensor, (original_mean / new_mean));
+                    float new_mean = ggml_ext_tensor_mean(tensor);
+                    ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
                 }
 
                 if (chunk_idx == 0) {
@@ -932,18 +932,18 @@ struct SD3CLIPEmbedder : public Conditioner {
 
                 {
                     auto tensor         = chunk_hidden_states_g;
-                    float original_mean = ggml_tensor_mean(tensor);
+                    float original_mean = ggml_ext_tensor_mean(tensor);
                     for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                         for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                             for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                                float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                                float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                                 value *= chunk_weights[i1];
-                                ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                                ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                             }
                         }
                     }
-                    float new_mean = ggml_tensor_mean(tensor);
-                    ggml_tensor_scale(tensor, (original_mean / new_mean));
+                    float new_mean = ggml_ext_tensor_mean(tensor);
+                    ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
                 }
 
                 if (chunk_idx == 0) {
@@ -984,18 +984,18 @@ struct SD3CLIPEmbedder : public Conditioner {
                             work_ctx);
                 {
                     auto tensor         = chunk_hidden_states_t5;
-                    float original_mean = ggml_tensor_mean(tensor);
+                    float original_mean = ggml_ext_tensor_mean(tensor);
                     for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                         for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                             for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                                float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                                float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                                 value *= chunk_weights[i1];
-                                ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                                ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                             }
                         }
                     }
-                    float new_mean = ggml_tensor_mean(tensor);
-                    ggml_tensor_scale(tensor, (original_mean / new_mean));
+                    float new_mean = ggml_ext_tensor_mean(tensor);
+                    ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
                 }
             } else {
                 chunk_hidden_states_t5 = ggml_new_tensor_2d(work_ctx, GGML_TYPE_F32, 4096, chunk_len);
@@ -1013,19 +1013,19 @@ struct SD3CLIPEmbedder : public Conditioner {
                     for (int i0 = 0; i0 < chunk_hidden_states_lg_pad->ne[0]; i0++) {
                         float value = 0.f;
                         if (i0 < chunk_hidden_states_l->ne[0]) {
-                            value = ggml_tensor_get_f32(chunk_hidden_states_l, i0, i1, i2);
+                            value = ggml_ext_tensor_get_f32(chunk_hidden_states_l, i0, i1, i2);
                         } else if (i0 < chunk_hidden_states_l->ne[0] + chunk_hidden_states_g->ne[0]) {
-                            value = ggml_tensor_get_f32(chunk_hidden_states_g, i0 - chunk_hidden_states_l->ne[0], i1, i2);
+                            value = ggml_ext_tensor_get_f32(chunk_hidden_states_g, i0 - chunk_hidden_states_l->ne[0], i1, i2);
                         }
-                        ggml_tensor_set_f32(chunk_hidden_states_lg_pad, value, i0, i1, i2);
+                        ggml_ext_tensor_set_f32(chunk_hidden_states_lg_pad, value, i0, i1, i2);
                     }
                 }
             }
 
-            chunk_hidden_states = ggml_tensor_concat(work_ctx, chunk_hidden_states_lg_pad, chunk_hidden_states_t5, 1);  // [n_token*2, 4096]
+            chunk_hidden_states = ggml_ext_tensor_concat(work_ctx, chunk_hidden_states_lg_pad, chunk_hidden_states_t5, 1);  // [n_token*2, 4096]
 
             if (chunk_idx == 0) {
-                pooled = ggml_tensor_concat(work_ctx, pooled_l, pooled_g, 0);  // [768 + 1280]
+                pooled = ggml_ext_tensor_concat(work_ctx, pooled_l, pooled_g, 0);  // [768 + 1280]
             }
 
             int64_t t1 = ggml_time_ms();
@@ -1269,18 +1269,18 @@ struct FluxCLIPEmbedder : public Conditioner {
                             work_ctx);
                 {
                     auto tensor         = chunk_hidden_states;
-                    float original_mean = ggml_tensor_mean(tensor);
+                    float original_mean = ggml_ext_tensor_mean(tensor);
                     for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                         for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                             for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                                float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                                float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                                 value *= chunk_weights[i1];
-                                ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                                ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                             }
                         }
                     }
-                    float new_mean = ggml_tensor_mean(tensor);
-                    ggml_tensor_scale(tensor, (original_mean / new_mean));
+                    float new_mean = ggml_ext_tensor_mean(tensor);
+                    ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
                 }
             } else {
                 chunk_hidden_states = ggml_new_tensor_2d(work_ctx, GGML_TYPE_F32, 4096, chunk_len);
@@ -1483,18 +1483,18 @@ struct T5CLIPEmbedder : public Conditioner {
                         work_ctx);
             {
                 auto tensor         = chunk_hidden_states;
-                float original_mean = ggml_tensor_mean(tensor);
+                float original_mean = ggml_ext_tensor_mean(tensor);
                 for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                     for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                         for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                            float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                            float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                             value *= chunk_weights[i1];
-                            ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                            ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                         }
                     }
                 }
-                float new_mean = ggml_tensor_mean(tensor);
-                ggml_tensor_scale(tensor, (original_mean / new_mean));
+                float new_mean = ggml_ext_tensor_mean(tensor);
+                ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
             }
 
             int64_t t1 = ggml_time_ms();
@@ -1505,7 +1505,7 @@ struct T5CLIPEmbedder : public Conditioner {
                     for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                         for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
                             if (chunk_mask[i1] < 0.f) {
-                                ggml_tensor_set_f32(tensor, 0.f, i0, i1, i2);
+                                ggml_ext_tensor_set_f32(tensor, 0.f, i0, i1, i2);
                             }
                         }
                     }
@@ -1664,7 +1664,7 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {
                 image.data = nullptr;
 
                 ggml_tensor* image_tensor = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, resized_image.width, resized_image.height, 3, 1);
-                sd_image_f32_to_tensor(resized_image, image_tensor, false);
+                sd_image_f32_to_ggml_tensor(resized_image, image_tensor, false);
                 free(resized_image.data);
                 resized_image.data = nullptr;
 
@@ -1709,18 +1709,18 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {
                         work_ctx);
         {
             auto tensor         = hidden_states;
-            float original_mean = ggml_tensor_mean(tensor);
+            float original_mean = ggml_ext_tensor_mean(tensor);
             for (int i2 = 0; i2 < tensor->ne[2]; i2++) {
                 for (int i1 = 0; i1 < tensor->ne[1]; i1++) {
                     for (int i0 = 0; i0 < tensor->ne[0]; i0++) {
-                        float value = ggml_tensor_get_f32(tensor, i0, i1, i2);
+                        float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);
                         value *= weights[i1];
-                        ggml_tensor_set_f32(tensor, value, i0, i1, i2);
+                        ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);
                     }
                 }
             }
-            float new_mean = ggml_tensor_mean(tensor);
-            ggml_tensor_scale(tensor, (original_mean / new_mean));
+            float new_mean = ggml_ext_tensor_mean(tensor);
+            ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));
         }
 
         GGML_ASSERT(hidden_states->ne[1] > prompt_template_encode_start_idx);
@@ -1731,9 +1731,9 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {
                                                             hidden_states->ne[1] - prompt_template_encode_start_idx,
                                                             hidden_states->ne[2]);
 
-        ggml_tensor_iter(new_hidden_states, [&](ggml_tensor* new_hidden_states, int64_t i0, int64_t i1, int64_t i2, int64_t i3) {
-            float value = ggml_tensor_get_f32(hidden_states, i0, i1 + prompt_template_encode_start_idx, i2, i3);
-            ggml_tensor_set_f32(new_hidden_states, value, i0, i1, i2, i3);
+        ggml_ext_tensor_iter(new_hidden_states, [&](ggml_tensor* new_hidden_states, int64_t i0, int64_t i1, int64_t i2, int64_t i3) {
+            float value = ggml_ext_tensor_get_f32(hidden_states, i0, i1 + prompt_template_encode_start_idx, i2, i3);
+            ggml_ext_tensor_set_f32(new_hidden_states, value, i0, i1, i2, i3);
         });
 
         int64_t t1 = ggml_time_ms();
 
@@ -230,7 +230,7 @@ class ControlNetBlock : public GGMLBlock {
 
         auto middle_block_out = std::dynamic_pointer_cast<Conv2d>(blocks["middle_block_out.0"]);
 
-        auto t_emb = ggml_nn_timestep_embedding(ctx, timesteps, model_channels);  // [N, model_channels]
+        auto t_emb = ggml_ext_timestep_embedding(ctx, timesteps, model_channels);  // [N, model_channels]
 
         auto emb = time_embed_0->forward(ctx, t_emb);
         emb      = ggml_silu_inplace(ctx, emb);
Original file line number	Diff line number	Diff line change
`@@ -462,7 +462,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`462`	`462`	`clip_skip,`
`463`	`463`	`&chunk_hidden_states2, work_ctx);`
`464`	`464`	`// concat`
`465`		`- chunk_hidden_states = ggml_tensor_concat(work_ctx, chunk_hidden_states1, chunk_hidden_states2, 0);`
	`465`	`+ chunk_hidden_states = ggml_ext_tensor_concat(work_ctx, chunk_hidden_states1, chunk_hidden_states2, 0);`
`466`	`466`
`467`	`467`	`if (chunk_idx == 0) {`
`468`	`468`	`text_model2->compute(n_threads,`
`@@ -484,18 +484,18 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`484`	`484`	`LOG_DEBUG("computing condition graph completed, taking %" PRId64 " ms", t1 - t0);`
`485`	`485`	`ggml_tensor* result = ggml_dup_tensor(work_ctx, chunk_hidden_states);`
`486`	`486`	`{`
`487`		`- float original_mean = ggml_tensor_mean(chunk_hidden_states);`
	`487`	`+ float original_mean = ggml_ext_tensor_mean(chunk_hidden_states);`
`488`	`488`	`for (int i2 = 0; i2 < chunk_hidden_states->ne[2]; i2++) {`
`489`	`489`	`for (int i1 = 0; i1 < chunk_hidden_states->ne[1]; i1++) {`
`490`	`490`	`for (int i0 = 0; i0 < chunk_hidden_states->ne[0]; i0++) {`
`491`		`- float value = ggml_tensor_get_f32(chunk_hidden_states, i0, i1, i2);`
	`491`	`+ float value = ggml_ext_tensor_get_f32(chunk_hidden_states, i0, i1, i2);`
`492`	`492`	`value *= chunk_weights[i1];`
`493`		`- ggml_tensor_set_f32(result, value, i0, i1, i2);`
	`493`	`+ ggml_ext_tensor_set_f32(result, value, i0, i1, i2);`
`494`	`494`	`}`
`495`	`495`	`}`
`496`	`496`	`}`
`497`		`- float new_mean = ggml_tensor_mean(result);`
`498`		`- ggml_tensor_scale(result, (original_mean / new_mean));`
	`497`	`+ float new_mean = ggml_ext_tensor_mean(result);`
	`498`	`+ ggml_ext_tensor_scale_inplace(result, (original_mean / new_mean));`
`499`	`499`	`}`
`500`	`500`	`if (zero_out_masked) {`
`501`	`501`	`float* vec = (float*)result->data;`
`@@ -874,18 +874,18 @@ struct SD3CLIPEmbedder : public Conditioner {`
`874`	`874`	`work_ctx);`
`875`	`875`	`{`
`876`	`876`	`auto tensor = chunk_hidden_states_l;`
`877`		`- float original_mean = ggml_tensor_mean(tensor);`
	`877`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`878`	`878`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`879`	`879`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`880`	`880`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`881`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`881`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`882`	`882`	`value *= chunk_weights[i1];`
`883`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`883`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`884`	`884`	`}`
`885`	`885`	`}`
`886`	`886`	`}`
`887`		`- float new_mean = ggml_tensor_mean(tensor);`
`888`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`887`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`888`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`889`	`889`	`}`
`890`	`890`
`891`	`891`	`if (chunk_idx == 0) {`
`@@ -932,18 +932,18 @@ struct SD3CLIPEmbedder : public Conditioner {`
`932`	`932`
`933`	`933`	`{`
`934`	`934`	`auto tensor = chunk_hidden_states_g;`
`935`		`- float original_mean = ggml_tensor_mean(tensor);`
	`935`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`936`	`936`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`937`	`937`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`938`	`938`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`939`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`939`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`940`	`940`	`value *= chunk_weights[i1];`
`941`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`941`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`942`	`942`	`}`
`943`	`943`	`}`
`944`	`944`	`}`
`945`		`- float new_mean = ggml_tensor_mean(tensor);`
`946`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`945`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`946`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`947`	`947`	`}`
`948`	`948`
`949`	`949`	`if (chunk_idx == 0) {`
`@@ -984,18 +984,18 @@ struct SD3CLIPEmbedder : public Conditioner {`
`984`	`984`	`work_ctx);`
`985`	`985`	`{`
`986`	`986`	`auto tensor = chunk_hidden_states_t5;`
`987`		`- float original_mean = ggml_tensor_mean(tensor);`
	`987`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`988`	`988`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`989`	`989`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`990`	`990`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`991`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`991`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`992`	`992`	`value *= chunk_weights[i1];`
`993`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`993`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`994`	`994`	`}`
`995`	`995`	`}`
`996`	`996`	`}`
`997`		`- float new_mean = ggml_tensor_mean(tensor);`
`998`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`997`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`998`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`999`	`999`	`}`
`1000`	`1000`	`} else {`
`1001`	`1001`	`chunk_hidden_states_t5 = ggml_new_tensor_2d(work_ctx, GGML_TYPE_F32, 4096, chunk_len);`
`@@ -1013,19 +1013,19 @@ struct SD3CLIPEmbedder : public Conditioner {`
`1013`	`1013`	`for (int i0 = 0; i0 < chunk_hidden_states_lg_pad->ne[0]; i0++) {`
`1014`	`1014`	`float value = 0.f;`
`1015`	`1015`	`if (i0 < chunk_hidden_states_l->ne[0]) {`
`1016`		`- value = ggml_tensor_get_f32(chunk_hidden_states_l, i0, i1, i2);`
	`1016`	`+ value = ggml_ext_tensor_get_f32(chunk_hidden_states_l, i0, i1, i2);`
`1017`	`1017`	`} else if (i0 < chunk_hidden_states_l->ne[0] + chunk_hidden_states_g->ne[0]) {`
`1018`		`- value = ggml_tensor_get_f32(chunk_hidden_states_g, i0 - chunk_hidden_states_l->ne[0], i1, i2);`
	`1018`	`+ value = ggml_ext_tensor_get_f32(chunk_hidden_states_g, i0 - chunk_hidden_states_l->ne[0], i1, i2);`
`1019`	`1019`	`}`
`1020`		`- ggml_tensor_set_f32(chunk_hidden_states_lg_pad, value, i0, i1, i2);`
	`1020`	`+ ggml_ext_tensor_set_f32(chunk_hidden_states_lg_pad, value, i0, i1, i2);`
`1021`	`1021`	`}`
`1022`	`1022`	`}`
`1023`	`1023`	`}`
`1024`	`1024`
`1025`		`- chunk_hidden_states = ggml_tensor_concat(work_ctx, chunk_hidden_states_lg_pad, chunk_hidden_states_t5, 1); // [n_token*2, 4096]`
	`1025`	`+ chunk_hidden_states = ggml_ext_tensor_concat(work_ctx, chunk_hidden_states_lg_pad, chunk_hidden_states_t5, 1); // [n_token*2, 4096]`
`1026`	`1026`
`1027`	`1027`	`if (chunk_idx == 0) {`
`1028`		`- pooled = ggml_tensor_concat(work_ctx, pooled_l, pooled_g, 0); // [768 + 1280]`
	`1028`	`+ pooled = ggml_ext_tensor_concat(work_ctx, pooled_l, pooled_g, 0); // [768 + 1280]`
`1029`	`1029`	`}`
`1030`	`1030`
`1031`	`1031`	`int64_t t1 = ggml_time_ms();`
`@@ -1269,18 +1269,18 @@ struct FluxCLIPEmbedder : public Conditioner {`
`1269`	`1269`	`work_ctx);`
`1270`	`1270`	`{`
`1271`	`1271`	`auto tensor = chunk_hidden_states;`
`1272`		`- float original_mean = ggml_tensor_mean(tensor);`
	`1272`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`1273`	`1273`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`1274`	`1274`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`1275`	`1275`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`1276`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`1276`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`1277`	`1277`	`value *= chunk_weights[i1];`
`1278`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`1278`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`1279`	`1279`	`}`
`1280`	`1280`	`}`
`1281`	`1281`	`}`
`1282`		`- float new_mean = ggml_tensor_mean(tensor);`
`1283`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`1282`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`1283`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`1284`	`1284`	`}`
`1285`	`1285`	`} else {`
`1286`	`1286`	`chunk_hidden_states = ggml_new_tensor_2d(work_ctx, GGML_TYPE_F32, 4096, chunk_len);`
`@@ -1483,18 +1483,18 @@ struct T5CLIPEmbedder : public Conditioner {`
`1483`	`1483`	`work_ctx);`
`1484`	`1484`	`{`
`1485`	`1485`	`auto tensor = chunk_hidden_states;`
`1486`		`- float original_mean = ggml_tensor_mean(tensor);`
	`1486`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`1487`	`1487`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`1488`	`1488`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`1489`	`1489`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`1490`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`1490`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`1491`	`1491`	`value *= chunk_weights[i1];`
`1492`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`1492`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`1493`	`1493`	`}`
`1494`	`1494`	`}`
`1495`	`1495`	`}`
`1496`		`- float new_mean = ggml_tensor_mean(tensor);`
`1497`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`1496`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`1497`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`1498`	`1498`	`}`
`1499`	`1499`
`1500`	`1500`	`int64_t t1 = ggml_time_ms();`
`@@ -1505,7 +1505,7 @@ struct T5CLIPEmbedder : public Conditioner {`
`1505`	`1505`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`1506`	`1506`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`1507`	`1507`	`if (chunk_mask[i1] < 0.f) {`
`1508`		`- ggml_tensor_set_f32(tensor, 0.f, i0, i1, i2);`
	`1508`	`+ ggml_ext_tensor_set_f32(tensor, 0.f, i0, i1, i2);`
`1509`	`1509`	`}`
`1510`	`1510`	`}`
`1511`	`1511`	`}`
`@@ -1664,7 +1664,7 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {`
`1664`	`1664`	`image.data = nullptr;`
`1665`	`1665`
`1666`	`1666`	`ggml_tensor* image_tensor = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, resized_image.width, resized_image.height, 3, 1);`
`1667`		`- sd_image_f32_to_tensor(resized_image, image_tensor, false);`
	`1667`	`+ sd_image_f32_to_ggml_tensor(resized_image, image_tensor, false);`
`1668`	`1668`	`free(resized_image.data);`
`1669`	`1669`	`resized_image.data = nullptr;`
`1670`	`1670`
`@@ -1709,18 +1709,18 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {`
`1709`	`1709`	`work_ctx);`
`1710`	`1710`	`{`
`1711`	`1711`	`auto tensor = hidden_states;`
`1712`		`- float original_mean = ggml_tensor_mean(tensor);`
	`1712`	`+ float original_mean = ggml_ext_tensor_mean(tensor);`
`1713`	`1713`	`for (int i2 = 0; i2 < tensor->ne[2]; i2++) {`
`1714`	`1714`	`for (int i1 = 0; i1 < tensor->ne[1]; i1++) {`
`1715`	`1715`	`for (int i0 = 0; i0 < tensor->ne[0]; i0++) {`
`1716`		`- float value = ggml_tensor_get_f32(tensor, i0, i1, i2);`
	`1716`	`+ float value = ggml_ext_tensor_get_f32(tensor, i0, i1, i2);`
`1717`	`1717`	`value *= weights[i1];`
`1718`		`- ggml_tensor_set_f32(tensor, value, i0, i1, i2);`
	`1718`	`+ ggml_ext_tensor_set_f32(tensor, value, i0, i1, i2);`
`1719`	`1719`	`}`
`1720`	`1720`	`}`
`1721`	`1721`	`}`
`1722`		`- float new_mean = ggml_tensor_mean(tensor);`
`1723`		`- ggml_tensor_scale(tensor, (original_mean / new_mean));`
	`1722`	`+ float new_mean = ggml_ext_tensor_mean(tensor);`
	`1723`	`+ ggml_ext_tensor_scale_inplace(tensor, (original_mean / new_mean));`
`1724`	`1724`	`}`
`1725`	`1725`
`1726`	`1726`	`GGML_ASSERT(hidden_states->ne[1] > prompt_template_encode_start_idx);`
`@@ -1731,9 +1731,9 @@ struct Qwen2_5_VLCLIPEmbedder : public Conditioner {`
`1731`	`1731`	`hidden_states->ne[1] - prompt_template_encode_start_idx,`
`1732`	`1732`	`hidden_states->ne[2]);`
`1733`	`1733`
`1734`		`- ggml_tensor_iter(new_hidden_states, [&](ggml_tensor* new_hidden_states, int64_t i0, int64_t i1, int64_t i2, int64_t i3) {`
`1735`		`- float value = ggml_tensor_get_f32(hidden_states, i0, i1 + prompt_template_encode_start_idx, i2, i3);`
`1736`		`- ggml_tensor_set_f32(new_hidden_states, value, i0, i1, i2, i3);`
	`1734`	`+ ggml_ext_tensor_iter(new_hidden_states, [&](ggml_tensor* new_hidden_states, int64_t i0, int64_t i1, int64_t i2, int64_t i3) {`
	`1735`	`+ float value = ggml_ext_tensor_get_f32(hidden_states, i0, i1 + prompt_template_encode_start_idx, i2, i3);`
	`1736`	`+ ggml_ext_tensor_set_f32(new_hidden_states, value, i0, i1, i2, i3);`
`1737`	`1737`	`});`
`1738`	`1738`
`1739`	`1739`	`int64_t t1 = ggml_time_ms();`