基准测试 | SLIM-ARC

三档环境性能（80B Q4_K_M）

环境	线程	配置	pp (t/s)	tg (t/s)	vs baseline
8GB (4核)	4	baseline	0.22	0.08	—
8GB (4核)	4	SLIM-ARC + KV q4_0	0.35	0.76	+850%
16GB (8核)	8	baseline	1.04	0.18	—
16GB (8核)	8	SLIM-ARC + KV q4_0	1.34	1.03	+472%
32GB (热缓存)	8	SLIM-ARC (KV f16)	1.90	1.24	—

FlashAttention 加速

配置	pp64 (t/s)	tg48 (t/s)	提升
baseline (无 -fa)	5.89	3.01	—
-fa on	6.64	3.90	+29.6%
-fa auto (最优)	12.99	5.16	+71.4%

GSM8K 推理精度（ALEM 协议）

模型	量化	GSM8K Acc	t/s	说明
Qwen3-4B	Q4_K_M	75%	7.8	推理保持
Qwen3-Next-80B	Q4_K_M + KV q4_0	50%	0.7	部分保持
Qwen3-Next-80B	IQ4_XS + KV q4_0	0%	1.7	推理崩溃

关键发现：IQ4_XS 保持语言流畅性但数学推理崩溃，证明 PPL 不充分，GSM8K 更敏感。

KV Eviction 效果

配置	pp64 (t/s)	tg48 (t/s)	vs baseline
baseline (无 eviction)	5.89	3.01	—
KV eviction (sink=4, window=32)	4.85	3.30	+9.6%

KV 内存释放给权重缓存，decode 反而加速 9.6%。