llama.cpp/examples/llama-bench/llama-bench.cpp at gg/speculative-fix-oob

mirror of https://github.com/ggml-org/llama.cpp.git synced 2025-10-31 08:51:55 +00:00

Files

Georgi Gerganov 841f27abdb metal : optimize FA kernels (#10171 )

* ggml : add ggml_flash_attn_ext_get_prec

* metal : use F16 precision in FA kernels

ggml-ci

* metal : minor clean-up

* metal : compile-guard bf16 FA kernels

ggml-ci

* build : remove obsolete compile flag [no ci]

* metal : prevent int overflows [no ci]

* cuda : disable BF16 FA

ggml-ci

* metal : fix BF16 requirement for FA kernels

ggml-ci

* make : clean-up [no ci]

2024-11-08 13:47:22 +02:00

57 KiB

Raw Permalink Blame History

View Raw

57 KiB Raw Permalink Blame History

57 KiB

Raw Permalink Blame History