llama.cpp/ggml-metal.m at 05cd6e5036d72d0930de4d8f6be7bce09e8dda24

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-11-17 11:37:10 +00:00

Files

Georgi Gerganov d7b800b8bc llama : pad KV cache size (#4280 )

* llama : pad KV cache size to 32

* metal : try to improve batched decoding

2023-12-03 10:58:16 +02:00

View Raw