llama: use FA + max. GPU layers by default (#15434)

* llama: use max. GPU layers by default, auto -fa * ggml-backend: abort instead of segfault
2025-10-27 08:21:30 +00:00 · 2025-08-30 16:32:10 +02:00
parent 38ad381f9f
commit e81b8e4b7f
19 changed files with 235 additions and 72 deletions
--- a/tools/server/tests/unit/test_ctx_shift.py
+++ b/tools/server/tests/unit/test_ctx_shift.py
@@ -15,25 +15,26 @@ Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deseru
 def create_server():
    global server
    server = ServerPreset.tinyllama2()
-    server.n_ctx = 256
+    server.n_ctx = 512
    server.n_slots = 2
+    server.n_predict = 128


 def test_ctx_shift_enabled():
    # the prompt is 301 tokens
-    # the slot context is 256/2 = 128 tokens
-    # the prompt is truncated to keep the last 109 tokens
-    # 64 tokens are generated thanks to shifting the context when it gets full
+    # the slot context is 512/2 = 256 tokens
+    # the prompt is truncated to keep the last (301 - 256/2) = 173 tokens
+    # 96 tokens are generated thanks to shifting the context when it gets full
    global server
    server.enable_ctx_shift = True
    server.start()
    res = server.make_request("POST", "/completion", data={
-        "n_predict": 64,
+        "n_predict": 96,
        "prompt": LONG_TEXT,
    })
    assert res.status_code == 200
-    assert res.body["timings"]["prompt_n"] == 109
-    assert res.body["timings"]["predicted_n"] == 64
+    assert res.body["timings"]["prompt_n"] == 173
+    assert res.body["timings"]["predicted_n"] == 96
    assert res.body["truncated"] is True


--- a/tools/server/tests/unit/test_speculative.py
+++ b/tools/server/tests/unit/test_speculative.py
@@ -14,6 +14,7 @@ def create_server():
    server.model_draft = download_file(MODEL_DRAFT_FILE_URL)
    server.draft_min = 4
    server.draft_max = 8
+    server.fa = "off"


@pytest.fixture(autouse=True)
--- a/tools/server/tests/utils.py
+++ b/tools/server/tests/utils.py
@@ -66,7 +66,7 @@ class ServerProcess:
    n_slots: int | None = None
    ctk: str | None = None
    ctv: str | None = None
-    fa: bool | None = None
+    fa: str | None = None
    server_continuous_batching: bool | None = False
    server_embeddings: bool | None = False
    server_reranking: bool | None = False
@@ -161,7 +161,7 @@ class ServerProcess:
        if self.ctv:
            server_args.extend(["-ctv", self.ctv])
        if self.fa is not None:
-            server_args.append("-fa")
+            server_args.extend(["-fa", self.fa])
        if self.n_predict:
            server_args.extend(["--n-predict", self.n_predict])
        if self.slot_save_path:
@@ -427,7 +427,7 @@ class ServerPreset:
        server.n_batch = 300
        server.n_ubatch = 300
        server.n_slots = 2
-        server.fa = True
+        server.fa = "on"
        server.seed = 42
        server.server_embeddings = True
        return server