三档环境性能(80B Q4_K_M)

环境线程配置pp (t/s)tg (t/s)vs baseline
8GB (4核)4baseline0.220.08
8GB (4核)4SLIM-ARC + KV q4_00.350.76+850%
16GB (8核)8baseline1.040.18
16GB (8核)8SLIM-ARC + KV q4_01.341.03+472%
32GB (热缓存)8SLIM-ARC (KV f16)1.901.24

FlashAttention 加速

配置pp64 (t/s)tg48 (t/s)提升
baseline (无 -fa)5.893.01
-fa on6.643.90+29.6%
-fa auto (最优)12.995.16+71.4%

GSM8K 推理精度(ALEM 协议)

模型量化GSM8K Acct/s说明
Qwen3-4BQ4_K_M75%7.8推理保持
Qwen3-Next-80BQ4_K_M + KV q4_050%0.7部分保持
Qwen3-Next-80BIQ4_XS + KV q4_00%1.7推理崩溃

关键发现:IQ4_XS 保持语言流畅性但数学推理崩溃,证明 PPL 不充分,GSM8K 更敏感。

KV Eviction 效果

配置pp64 (t/s)tg48 (t/s)vs baseline
baseline (无 eviction)5.893.01
KV eviction (sink=4, window=32)4.853.30+9.6%

KV 内存释放给权重缓存,decode 反而加速 9.6%。