Zen4: Faster PP for IQ2_KS, IQ4_KS, IQ5_KS #428

ikawrakow · 2025-05-17T07:29:25Z

model	size	threads	test	t/s (main)	t/s (PR)	Speedup
llama 8B IQ2_KS	2.46 GiB	16	pp512	179.51 ± 1.13	196.20 ± 1.59	1.093
llama 8B IQ4_KS	4.14 GiB	16	pp512	172.36 ± 1.28	198.57 ± 1.74	1.152
llama 8B IQ5_KS	4.95 GiB	16	pp512	150.93 ± 1.61	196.20 ± 1.59	1.300

Kawrakow added 2 commits May 17, 2025 09:48

Zen4: faster PP for iq4_ks and iq5_ks

2f557a0

Zen4: faster PP for iq2_ks

d7ebb3e

ikawrakow merged commit c35a383 into main May 17, 2025

Provide feedback