Add --no-op-offload to improve -ot pp perf in MoE models like llama4 400B (#13386)

2025-10-27 08:21:30 +00:00 · 2025-05-11 20:18:39 +08:00
parent 3eac209319
commit 7f323a589f
11 changed files with 57 additions and 9 deletions
--- a/tools/mtmd/clip.cpp
+++ b/tools/mtmd/clip.cpp
@@ -383,7 +383,7 @@ struct clip_ctx {
        backend_buft.push_back(ggml_backend_get_default_buffer_type(backend_cpu));

        sched.reset(
-            ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), 8192, false)
+            ggml_backend_sched_new(backend_ptrs.data(), backend_buft.data(), backend_ptrs.size(), 8192, false, true)
        );
    }