llama : update per-seq context computation

2025-11-02 09:12:03 +00:00 · 2025-10-23 17:54:53 +03:00
parent db6f8e24e6
commit 8e11ec8eee
8 changed files with 40 additions and 36 deletions
--- a/tools/server/server.cpp
+++ b/tools/server/server.cpp
@@ -2385,10 +2385,6 @@ struct server_context {
        llama_batch_free(batch);
    }

-    int32_t n_ctx_slot() const {
-        return params_base.kv_unified ? n_ctx : n_ctx / params_base.n_parallel;
-    }
-
    bool load_model(const common_params & params) {
        SRV_INF("loading model '%s'\n", params.model.path.c_str());

@@ -2417,7 +2413,7 @@ struct server_context {

            params_dft.devices      = params_base.speculative.devices;
            params_dft.model        = params_base.speculative.model;
-            params_dft.n_ctx        = params_base.speculative.n_ctx == 0 ? n_ctx_slot() : params_base.speculative.n_ctx;
+            params_dft.n_ctx        = params_base.speculative.n_ctx == 0 ? llama_n_ctx_seq(ctx) : params_base.speculative.n_ctx;
            params_dft.n_gpu_layers = params_base.speculative.n_gpu_layers;
            params_dft.n_parallel   = 1;
            params_dft.cache_type_k = params_base.speculative.cache_type_k;
@@ -2512,7 +2508,7 @@ struct server_context {

            slot.id = i;
            slot.ctx = ctx;
-            slot.n_ctx = n_ctx_slot();
+            slot.n_ctx = llama_n_ctx_seq(ctx);
            slot.mctx = mctx;
            slot.prompt.tokens.has_mtmd = mctx != nullptr;

--- a/tools/server/tests/unit/test_chat_completion.py
+++ b/tools/server/tests/unit/test_chat_completion.py
@@ -433,21 +433,21 @@ def test_context_size_exceeded_stream():
@pytest.mark.parametrize(
    "n_batch,batch_count,reuse_cache",
    [
-        (64, 15, False),
+        (64, 3, False),
        (64, 1, True),
    ]
 )
-def test_return_progresssss(n_batch, batch_count, reuse_cache):
+def test_return_progress(n_batch, batch_count, reuse_cache):
    global server
    server.n_batch = n_batch
-    server.n_ctx = 2048
+    server.n_ctx = 256
    server.n_slots = 1
    server.start()
    def make_cmpl_request():
        return server.make_stream_request("POST", "/chat/completions", data={
            "max_tokens": 10,
            "messages": [
-                {"role": "user", "content": "This is a test" * 100},
+                {"role": "user", "content": "This is a test" * 10},
            ],
            "stream": True,
            "return_progress": True,
--- a/tools/server/tests/unit/test_infill.py
+++ b/tools/server/tests/unit/test_infill.py
@@ -18,7 +18,7 @@ def test_infill_without_input_extra():
        "input_suffix": "}\n",
    })
    assert res.status_code == 200
-    assert match_regex("(Ann|small|shiny|Daddy)+", res.body["content"])
+    assert match_regex("(Ann|small|shiny|Daddy|Jimmy)+", res.body["content"])


 def test_infill_with_input_extra():
@@ -34,7 +34,7 @@ def test_infill_with_input_extra():
        "input_suffix": "}\n",
    })
    assert res.status_code == 200
-    assert match_regex("(Dad|excited|park)+", res.body["content"])
+    assert match_regex("(Dad|excited|park|Jimmy)+", res.body["content"])


@pytest.mark.parametrize("input_extra", [