llama.cpp/ggml-cuda.cu at f77972f9af8b5e84c3a8061b81264f94fc1778e7

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-11-15 11:17:31 +00:00

Files

Kawrakow 2f9cf974a0 Some more Q4_K and Q5_K speedup on CUDA (#2346 )

* Faster Q5_K on CUDA

* Small Q5_K improvement on older GPUs

* Spped up Q4_K on CUDA

GTX1660: 29.5 ms/t -> 25.6 ms/t
RTX4080: 8.40 ms/t -> 8.25 ms/t

* Spped up Q4_K on CUDA

GTX1660: 36.7 ms/t -> 35.6 ms/t
RTX4080:  9.8 ms/t ->  9.5 ms/t

* Address PR comments

* Add some comments to satisfy PR reviewer

---------

Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

2023-07-24 00:19:47 +03:00

151 KiB

Raw Blame History

View Raw

151 KiB Raw Blame History

151 KiB

Raw Blame History