llama.cpp/llama.cpp at d208995c6da66f252d4054c1c5a90eb8ccb7a2f7

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-10-29 08:41:22 +00:00

Files

Georgi Gerganov d7b800b8bc llama : pad KV cache size (#4280 )

* llama : pad KV cache size to 32

* metal : try to improve batched decoding

2023-12-03 10:58:16 +02:00

View Raw