NVIDIA
diff --git a/‎cudax/examples/stf/linear_algebra/06-pdgemm.cu‎
Lines changed: 10 additions & 10 deletions b/‎cudax/examples/stf/linear_algebra/06-pdgemm.cu‎
Lines changed: 10 additions & 10 deletions
diff --git a/‎cudax/examples/stf/linear_algebra/07-cholesky.cu‎
Lines changed: 21 additions & 21 deletions b/‎cudax/examples/stf/linear_algebra/07-cholesky.cu‎
Lines changed: 21 additions & 21 deletions
@@ -160,9 +160,9 @@ public:
   {
     nvtxRangePushA("FILL");
     // Fill blocks by blocks
-    for (int colb = 0; colb < nt; colb++)
+    for (size_t colb = 0; colb < nt; colb++)
     {
-      for (int rowb = 0; rowb < mt; rowb++)
+      for (size_t rowb = 0; rowb < mt; rowb++)
       {
         // Each task fills a block
         auto& h   = get_handle(rowb, colb);
@@ -251,9 +251,9 @@ void PDGEMM(stream_ctx& ctx,
             double beta,
             matrix<double>& C)
 {
-  for (int m = 0; m < C.mt; m++)
+  for (size_t m = 0; m < C.mt; m++)
   {
-    for (int n = 0; n < C.nt; n++)
+    for (size_t n = 0; n < C.nt; n++)
     {
       //=========================================
       // alpha*A*B does not contribute; scale C
@@ -271,7 +271,7 @@ void PDGEMM(stream_ctx& ctx,
         if (transb == CUBLAS_OP_N)
         {
           assert(A.nt == B.mt);
-          for (int k = 0; k < A.nt; k++)
+          for (size_t k = 0; k < A.nt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(ctx, transa, transb, alpha, A, m, k, B, k, n, zbeta, C, m, n);
@@ -282,7 +282,7 @@ void PDGEMM(stream_ctx& ctx,
         //=====================================
         else
         {
-          for (int k = 0; k < A.nt; k++)
+          for (size_t k = 0; k < A.nt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(ctx, transa, transb, alpha, A, m, k, B, n, k, zbeta, C, m, n);
@@ -296,7 +296,7 @@ void PDGEMM(stream_ctx& ctx,
         //=====================================
         if (transb == CUBLAS_OP_N)
         {
-          for (int k = 0; k < A.mt; k++)
+          for (size_t k = 0; k < A.mt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(ctx, transa, transb, alpha, A, k, m, B, k, n, zbeta, C, m, n);
@@ -307,7 +307,7 @@ void PDGEMM(stream_ctx& ctx,
         //==========================================
         else
         {
-          for (int k = 0; k < A.mt; k++)
+          for (size_t k = 0; k < A.mt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(ctx, transa, transb, alpha, A, k, m, B, n, k, zbeta, C, m, n);
@@ -328,14 +328,14 @@ void run(stream_ctx& ctx, size_t N, size_t NB)
   cuda_safe_call(cudaGetDeviceCount(&ndevs));
 
   /* Warm up allocators */
-  for (size_t d = 0; d < ndevs; d++)
+  for (int d = 0; d < ndevs; d++)
   {
     auto lX = ctx.logical_data(shape_of<slice<double>>(1));
     ctx.parallel_for(exec_place::device(d), lX.shape(), lX.write())->*[] _CCCL_DEVICE(size_t, auto) {};
   }
 
   /* Initializes CUBLAS on all devices */
-  for (size_t d = 0; d < ndevs; d++)
+  for (int d = 0; d < ndevs; d++)
   {
     cuda_safe_call(cudaSetDevice(d));
     get_cublas_handle();
 
@@ -91,10 +91,10 @@ public:
 
     handles.resize(mt * nt);
 
-    for (int colb = 0; colb < nt; colb++)
+    for (size_t colb = 0; colb < nt; colb++)
     {
       int low_rowb = sym_matrix ? colb : 0;
-      for (int rowb = low_rowb; rowb < mt; rowb++)
+      for (size_t rowb = low_rowb; rowb < mt; rowb++)
       {
         T* addr_h = get_block_h(rowb, colb);
         auto& h   = handle(rowb, colb);
@@ -171,10 +171,10 @@ public:
   {
     nvtxRangePushA("FILL");
     // Fill blocks by blocks
-    for (int colb = 0; colb < nt; colb++)
+    for (size_t colb = 0; colb < nt; colb++)
     {
       int low_rowb = sym_matrix ? colb : 0;
-      for (int rowb = low_rowb; rowb < mt; rowb++)
+      for (size_t rowb = low_rowb; rowb < mt; rowb++)
       {
         // Each task fills a block
         auto& h   = handle(rowb, colb);
@@ -363,9 +363,9 @@ void PDNRM2_HOST(matrix<double>* A, double* result)
   reserved::dot::set_current_color("red");
 #endif
 
-  for (int rowb = 0; rowb < A->mt; rowb++)
+  for (size_t rowb = 0; rowb < A->mt; rowb++)
   {
-    for (int colb = 0; colb < A->nt; colb++)
+    for (size_t colb = 0; colb < A->nt; colb++)
     {
       ctx.host_launch(A->handle(rowb, colb).read())->*[=](auto sA) {
         double res2 = 0.0;
@@ -452,17 +452,17 @@ void PDTRSM(cublasSideMode_t side,
       //===========================================
       if (trans == CUBLAS_OP_N)
       {
-        for (int k = 0; k < B.mt; k++)
+        for (size_t k = 0; k < B.mt; k++)
         {
           double lalpha = k == 0 ? alpha : 1.0;
-          for (int n = 0; n < B.nt; n++)
+          for (size_t n = 0; n < B.nt; n++)
           {
             cuda_safe_call(cudaSetDevice(A.get_preferred_devid(k, k)));
             DTRSM(side, uplo, trans, diag, lalpha, A, k, k, B, k, n);
           }
-          for (int m = k + 1; m < B.mt; m++)
+          for (size_t m = k + 1; m < B.mt; m++)
           {
-            for (int n = 0; n < B.nt; n++)
+            for (size_t n = 0; n < B.nt; n++)
             {
               cuda_safe_call(cudaSetDevice(A.get_preferred_devid(m, k)));
               DGEMM(CUBLAS_OP_N, CUBLAS_OP_N, -1.0, A, m, k, B, k, n, lalpha, B, m, n);
@@ -475,17 +475,17 @@ void PDTRSM(cublasSideMode_t side,
       //================================================
       else
       {
-        for (int k = 0; k < B.mt; k++)
+        for (size_t k = 0; k < B.mt; k++)
         {
           double lalpha = k == 0 ? alpha : 1.0;
-          for (int n = 0; n < B.nt; n++)
+          for (size_t n = 0; n < B.nt; n++)
           {
             cuda_safe_call(cudaSetDevice(A.get_preferred_devid(B.mt - k - 1, B.mt - k - 1)));
             DTRSM(side, uplo, trans, diag, lalpha, A, B.mt - k - 1, B.mt - k - 1, B, B.mt - k - 1, n);
           }
-          for (int m = k + 1; m < B.mt; m++)
+          for (size_t m = k + 1; m < B.mt; m++)
           {
-            for (int n = 0; n < B.nt; n++)
+            for (size_t n = 0; n < B.nt; n++)
             {
               cuda_safe_call(cudaSetDevice(A.get_preferred_devid(B.mt - k - 1, B.mt - 1 - m)));
               DGEMM(
@@ -543,9 +543,9 @@ void PDGEMM(cublasOperation_t transa,
   reserved::dot::set_current_color("blue");
 #endif
 
-  for (int m = 0; m < C.mt; m++)
+  for (size_t m = 0; m < C.mt; m++)
   {
-    for (int n = 0; n < C.nt; n++)
+    for (size_t n = 0; n < C.nt; n++)
     {
       //=========================================
       // alpha*A*B does not contribute; scale C
@@ -562,7 +562,7 @@ void PDGEMM(cublasOperation_t transa,
         //================================
         if (transb == CUBLAS_OP_N)
         {
-          for (int k = 0; k < A.nt; k++)
+          for (size_t k = 0; k < A.nt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(transa, transb, alpha, A, m, k, B, k, n, zbeta, C, m, n);
@@ -573,7 +573,7 @@ void PDGEMM(cublasOperation_t transa,
         //=====================================
         else
         {
-          for (int k = 0; k < A.nt; k++)
+          for (size_t k = 0; k < A.nt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(transa, transb, alpha, A, m, k, B, n, k, zbeta, C, m, n);
@@ -587,7 +587,7 @@ void PDGEMM(cublasOperation_t transa,
         //=====================================
         if (transb == CUBLAS_OP_N)
         {
-          for (int k = 0; k < A.mt; k++)
+          for (size_t k = 0; k < A.mt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(transa, transb, alpha, A, k, m, B, k, n, zbeta, C, m, n);
@@ -598,7 +598,7 @@ void PDGEMM(cublasOperation_t transa,
         //==========================================
         else
         {
-          for (int k = 0; k < A.mt; k++)
+          for (size_t k = 0; k < A.mt; k++)
           {
             double zbeta = k == 0 ? beta : 1.0;
             DGEMM(transa, transb, alpha, A, k, m, B, n, k, zbeta, C, m, n);
@@ -640,7 +640,7 @@ int main(int argc, char** argv)
   int ndevs;
   cuda_safe_call(cudaGetDeviceCount(&ndevs));
 
-  for (size_t d = 0; d < ndevs; d++)
+  for (int d = 0; d < ndevs; d++)
   {
     auto lX = ctx.logical_data(shape_of<slice<double>>(1));
     ctx.parallel_for(exec_place::device(d), lX.shape(), lX.write())->*[] _CCCL_DEVICE(size_t, auto) {};
Original file line number	Diff line number	Diff line change
`@@ -160,9 +160,9 @@ public:`
`160`	`160`	`{`
`161`	`161`	`nvtxRangePushA("FILL");`
`162`	`162`	`// Fill blocks by blocks`
`163`		`- for (int colb = 0; colb < nt; colb++)`
	`163`	`+ for (size_t colb = 0; colb < nt; colb++)`
`164`	`164`	`{`
`165`		`- for (int rowb = 0; rowb < mt; rowb++)`
	`165`	`+ for (size_t rowb = 0; rowb < mt; rowb++)`
`166`	`166`	`{`
`167`	`167`	`// Each task fills a block`
`168`	`168`	`auto& h = get_handle(rowb, colb);`
`@@ -251,9 +251,9 @@ void PDGEMM(stream_ctx& ctx,`
`251`	`251`	`double beta,`
`252`	`252`	`matrix<double>& C)`
`253`	`253`	`{`
`254`		`- for (int m = 0; m < C.mt; m++)`
	`254`	`+ for (size_t m = 0; m < C.mt; m++)`
`255`	`255`	`{`
`256`		`- for (int n = 0; n < C.nt; n++)`
	`256`	`+ for (size_t n = 0; n < C.nt; n++)`
`257`	`257`	`{`
`258`	`258`	`//=========================================`
`259`	`259`	`// alphaAB does not contribute; scale C`
`@@ -271,7 +271,7 @@ void PDGEMM(stream_ctx& ctx,`
`271`	`271`	`if (transb == CUBLAS_OP_N)`
`272`	`272`	`{`
`273`	`273`	`assert(A.nt == B.mt);`
`274`		`- for (int k = 0; k < A.nt; k++)`
	`274`	`+ for (size_t k = 0; k < A.nt; k++)`
`275`	`275`	`{`
`276`	`276`	`double zbeta = k == 0 ? beta : 1.0;`
`277`	`277`	`DGEMM(ctx, transa, transb, alpha, A, m, k, B, k, n, zbeta, C, m, n);`
`@@ -282,7 +282,7 @@ void PDGEMM(stream_ctx& ctx,`
`282`	`282`	`//=====================================`
`283`	`283`	`else`
`284`	`284`	`{`
`285`		`- for (int k = 0; k < A.nt; k++)`
	`285`	`+ for (size_t k = 0; k < A.nt; k++)`
`286`	`286`	`{`
`287`	`287`	`double zbeta = k == 0 ? beta : 1.0;`
`288`	`288`	`DGEMM(ctx, transa, transb, alpha, A, m, k, B, n, k, zbeta, C, m, n);`
`@@ -296,7 +296,7 @@ void PDGEMM(stream_ctx& ctx,`
`296`	`296`	`//=====================================`
`297`	`297`	`if (transb == CUBLAS_OP_N)`
`298`	`298`	`{`
`299`		`- for (int k = 0; k < A.mt; k++)`
	`299`	`+ for (size_t k = 0; k < A.mt; k++)`
`300`	`300`	`{`
`301`	`301`	`double zbeta = k == 0 ? beta : 1.0;`
`302`	`302`	`DGEMM(ctx, transa, transb, alpha, A, k, m, B, k, n, zbeta, C, m, n);`
`@@ -307,7 +307,7 @@ void PDGEMM(stream_ctx& ctx,`
`307`	`307`	`//==========================================`
`308`	`308`	`else`
`309`	`309`	`{`
`310`		`- for (int k = 0; k < A.mt; k++)`
	`310`	`+ for (size_t k = 0; k < A.mt; k++)`
`311`	`311`	`{`
`312`	`312`	`double zbeta = k == 0 ? beta : 1.0;`
`313`	`313`	`DGEMM(ctx, transa, transb, alpha, A, k, m, B, n, k, zbeta, C, m, n);`
`@@ -328,14 +328,14 @@ void run(stream_ctx& ctx, size_t N, size_t NB)`
`328`	`328`	`cuda_safe_call(cudaGetDeviceCount(&ndevs));`
`329`	`329`
`330`	`330`	`/* Warm up allocators */`
`331`		`- for (size_t d = 0; d < ndevs; d++)`
	`331`	`+ for (int d = 0; d < ndevs; d++)`
`332`	`332`	`{`
`333`	`333`	`auto lX = ctx.logical_data(shape_of<slice<double>>(1));`
`334`	`334`	`ctx.parallel_for(exec_place::device(d), lX.shape(), lX.write())->*[] _CCCL_DEVICE(size_t, auto) {};`
`335`	`335`	`}`
`336`	`336`
`337`	`337`	`/* Initializes CUBLAS on all devices */`
`338`		`- for (size_t d = 0; d < ndevs; d++)`
	`338`	`+ for (int d = 0; d < ndevs; d++)`
`339`	`339`	`{`
`340`	`340`	`cuda_safe_call(cudaSetDevice(d));`
`341`	`341`	`get_cublas_handle();`
Original file line number	Diff line number	Diff line change
`@@ -91,10 +91,10 @@ public:`
`91`	`91`
`92`	`92`	`handles.resize(mt * nt);`
`93`	`93`
`94`		`- for (int colb = 0; colb < nt; colb++)`
	`94`	`+ for (size_t colb = 0; colb < nt; colb++)`
`95`	`95`	`{`
`96`	`96`	`int low_rowb = sym_matrix ? colb : 0;`
`97`		`- for (int rowb = low_rowb; rowb < mt; rowb++)`
	`97`	`+ for (size_t rowb = low_rowb; rowb < mt; rowb++)`
`98`	`98`	`{`
`99`	`99`	`T* addr_h = get_block_h(rowb, colb);`
`100`	`100`	`auto& h = handle(rowb, colb);`
`@@ -171,10 +171,10 @@ public:`
`171`	`171`	`{`
`172`	`172`	`nvtxRangePushA("FILL");`
`173`	`173`	`// Fill blocks by blocks`
`174`		`- for (int colb = 0; colb < nt; colb++)`
	`174`	`+ for (size_t colb = 0; colb < nt; colb++)`
`175`	`175`	`{`
`176`	`176`	`int low_rowb = sym_matrix ? colb : 0;`
`177`		`- for (int rowb = low_rowb; rowb < mt; rowb++)`
	`177`	`+ for (size_t rowb = low_rowb; rowb < mt; rowb++)`
`178`	`178`	`{`
`179`	`179`	`// Each task fills a block`
`180`	`180`	`auto& h = handle(rowb, colb);`
`@@ -363,9 +363,9 @@ void PDNRM2_HOST(matrix<double>* A, double* result)`
`363`	`363`	`reserved::dot::set_current_color("red");`
`364`	`364`	`#endif`
`365`	`365`
`366`		`- for (int rowb = 0; rowb < A->mt; rowb++)`
	`366`	`+ for (size_t rowb = 0; rowb < A->mt; rowb++)`
`367`	`367`	`{`
`368`		`- for (int colb = 0; colb < A->nt; colb++)`
	`368`	`+ for (size_t colb = 0; colb < A->nt; colb++)`
`369`	`369`	`{`
`370`	`370`	`ctx.host_launch(A->handle(rowb, colb).read())->*[=](auto sA) {`
`371`	`371`	`double res2 = 0.0;`
`@@ -452,17 +452,17 @@ void PDTRSM(cublasSideMode_t side,`
`452`	`452`	`//===========================================`
`453`	`453`	`if (trans == CUBLAS_OP_N)`
`454`	`454`	`{`
`455`		`- for (int k = 0; k < B.mt; k++)`
	`455`	`+ for (size_t k = 0; k < B.mt; k++)`
`456`	`456`	`{`
`457`	`457`	`double lalpha = k == 0 ? alpha : 1.0;`
`458`		`- for (int n = 0; n < B.nt; n++)`
	`458`	`+ for (size_t n = 0; n < B.nt; n++)`
`459`	`459`	`{`
`460`	`460`	`cuda_safe_call(cudaSetDevice(A.get_preferred_devid(k, k)));`
`461`	`461`	`DTRSM(side, uplo, trans, diag, lalpha, A, k, k, B, k, n);`
`462`	`462`	`}`
`463`		`- for (int m = k + 1; m < B.mt; m++)`
	`463`	`+ for (size_t m = k + 1; m < B.mt; m++)`
`464`	`464`	`{`
`465`		`- for (int n = 0; n < B.nt; n++)`
	`465`	`+ for (size_t n = 0; n < B.nt; n++)`
`466`	`466`	`{`
`467`	`467`	`cuda_safe_call(cudaSetDevice(A.get_preferred_devid(m, k)));`
`468`	`468`	`DGEMM(CUBLAS_OP_N, CUBLAS_OP_N, -1.0, A, m, k, B, k, n, lalpha, B, m, n);`
`@@ -475,17 +475,17 @@ void PDTRSM(cublasSideMode_t side,`
`475`	`475`	`//================================================`
`476`	`476`	`else`
`477`	`477`	`{`
`478`		`- for (int k = 0; k < B.mt; k++)`
	`478`	`+ for (size_t k = 0; k < B.mt; k++)`
`479`	`479`	`{`
`480`	`480`	`double lalpha = k == 0 ? alpha : 1.0;`
`481`		`- for (int n = 0; n < B.nt; n++)`
	`481`	`+ for (size_t n = 0; n < B.nt; n++)`
`482`	`482`	`{`
`483`	`483`	`cuda_safe_call(cudaSetDevice(A.get_preferred_devid(B.mt - k - 1, B.mt - k - 1)));`
`484`	`484`	`DTRSM(side, uplo, trans, diag, lalpha, A, B.mt - k - 1, B.mt - k - 1, B, B.mt - k - 1, n);`
`485`	`485`	`}`
`486`		`- for (int m = k + 1; m < B.mt; m++)`
	`486`	`+ for (size_t m = k + 1; m < B.mt; m++)`
`487`	`487`	`{`
`488`		`- for (int n = 0; n < B.nt; n++)`
	`488`	`+ for (size_t n = 0; n < B.nt; n++)`
`489`	`489`	`{`
`490`	`490`	`cuda_safe_call(cudaSetDevice(A.get_preferred_devid(B.mt - k - 1, B.mt - 1 - m)));`
`491`	`491`	`DGEMM(`
`@@ -543,9 +543,9 @@ void PDGEMM(cublasOperation_t transa,`
`543`	`543`	`reserved::dot::set_current_color("blue");`
`544`	`544`	`#endif`
`545`	`545`
`546`		`- for (int m = 0; m < C.mt; m++)`
	`546`	`+ for (size_t m = 0; m < C.mt; m++)`
`547`	`547`	`{`
`548`		`- for (int n = 0; n < C.nt; n++)`
	`548`	`+ for (size_t n = 0; n < C.nt; n++)`
`549`	`549`	`{`
`550`	`550`	`//=========================================`
`551`	`551`	`// alphaAB does not contribute; scale C`
`@@ -562,7 +562,7 @@ void PDGEMM(cublasOperation_t transa,`
`562`	`562`	`//================================`
`563`	`563`	`if (transb == CUBLAS_OP_N)`
`564`	`564`	`{`
`565`		`- for (int k = 0; k < A.nt; k++)`
	`565`	`+ for (size_t k = 0; k < A.nt; k++)`
`566`	`566`	`{`
`567`	`567`	`double zbeta = k == 0 ? beta : 1.0;`
`568`	`568`	`DGEMM(transa, transb, alpha, A, m, k, B, k, n, zbeta, C, m, n);`
`@@ -573,7 +573,7 @@ void PDGEMM(cublasOperation_t transa,`
`573`	`573`	`//=====================================`
`574`	`574`	`else`
`575`	`575`	`{`
`576`		`- for (int k = 0; k < A.nt; k++)`
	`576`	`+ for (size_t k = 0; k < A.nt; k++)`
`577`	`577`	`{`
`578`	`578`	`double zbeta = k == 0 ? beta : 1.0;`
`579`	`579`	`DGEMM(transa, transb, alpha, A, m, k, B, n, k, zbeta, C, m, n);`
`@@ -587,7 +587,7 @@ void PDGEMM(cublasOperation_t transa,`
`587`	`587`	`//=====================================`
`588`	`588`	`if (transb == CUBLAS_OP_N)`
`589`	`589`	`{`
`590`		`- for (int k = 0; k < A.mt; k++)`
	`590`	`+ for (size_t k = 0; k < A.mt; k++)`
`591`	`591`	`{`
`592`	`592`	`double zbeta = k == 0 ? beta : 1.0;`
`593`	`593`	`DGEMM(transa, transb, alpha, A, k, m, B, k, n, zbeta, C, m, n);`
`@@ -598,7 +598,7 @@ void PDGEMM(cublasOperation_t transa,`
`598`	`598`	`//==========================================`
`599`	`599`	`else`
`600`	`600`	`{`
`601`		`- for (int k = 0; k < A.mt; k++)`
	`601`	`+ for (size_t k = 0; k < A.mt; k++)`
`602`	`602`	`{`
`603`	`603`	`double zbeta = k == 0 ? beta : 1.0;`
`604`	`604`	`DGEMM(transa, transb, alpha, A, k, m, B, n, k, zbeta, C, m, n);`
`@@ -640,7 +640,7 @@ int main(int argc, char** argv)`
`640`	`640`	`int ndevs;`
`641`	`641`	`cuda_safe_call(cudaGetDeviceCount(&ndevs));`
`642`	`642`
`643`		`- for (size_t d = 0; d < ndevs; d++)`
	`643`	`+ for (int d = 0; d < ndevs; d++)`
`644`	`644`	`{`
`645`	`645`	`auto lX = ctx.logical_data(shape_of<slice<double>>(1));`
`646`	`646`	`ctx.parallel_for(exec_place::device(d), lX.shape(), lX.write())->*[] _CCCL_DEVICE(size_t, auto) {};`