CUDA: fixed row rounding for 0 tensor splits (#4594)

2025-10-28 08:31:25 +00:00 · 2023-12-23 09:16:33 +01:00
parent 7082d24cec
commit e0a4002273
1 changed files with 6 additions and 2 deletions
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -7937,15 +7937,19 @@ static void ggml_cuda_op_mul_mat(

            if (id != 0) {
                row_low[id]  = ne01*g_tensor_split[id];
+                if (row_low[id] < ne01) {
                    row_low[id] -= row_low[id] % rounding;
                }
+            }

            if (id != g_device_count - 1) {
                row_high[id]  = ne01*g_tensor_split[id + 1];
+                if (row_high[id] < ne01) {
                    row_high[id] -= row_high[id] % rounding;
                }
            }
        }
+    }

    for (int64_t id = 0; id < g_device_count; ++id) {
        if ((!split && id != g_main_device) || row_low[id] == row_high[id]) {