llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-11-16 11:27:03 +00:00

Files

Georgi Gerganov 85a7d8677b memory : remove KV cache size padding (#16812 )

* memory : remove KV cache size padding

* cont : restore padding for n_kv tensor shape

* server : use slot context size instead of training context size

* server : simplify context limit logic

2025-10-28 20:19:44 +02:00

CMakeLists.txt

…

llama-adapter.cpp

…

llama-adapter.h

…

llama-arch.cpp

…

llama-arch.h

…

llama-batch.cpp

…

llama-batch.h

…

llama-chat.cpp

…

llama-chat.h

…

llama-context.cpp

…

llama-context.h

…

llama-cparams.cpp

…

llama-cparams.h

…

llama-grammar.cpp

…

llama-grammar.h

…

llama-graph.cpp

…

llama-graph.h

…

llama-hparams.cpp

…

llama-hparams.h

…

llama-impl.cpp

…

llama-impl.h

…

llama-io.cpp

…

llama-io.h

…

llama-kv-cache-iswa.cpp

…

llama-kv-cache-iswa.h

…

llama-kv-cache.cpp

…

llama-kv-cache.h

…

llama-kv-cells.h

…

llama-memory-hybrid.cpp

…

llama-memory-hybrid.h

…

llama-memory-recurrent.cpp

…

llama-memory-recurrent.h

…

llama-memory.cpp

…

llama-memory.h

…

llama-mmap.cpp

…

llama-mmap.h

…

llama-model-loader.cpp

…

llama-model-loader.h

…

llama-model-saver.cpp

…

llama-model-saver.h

…

llama-model.cpp

…

llama-model.h

…

llama-quant.cpp

…

llama-quant.h

…

llama-sampling.cpp

…

llama-sampling.h

…

llama-vocab.cpp

…

llama-vocab.h

…

llama.cpp

…

unicode-data.cpp

…

unicode-data.h

…

unicode.cpp

…

unicode.h

…