遵循综述 ALEM 协议,三档环境 × 标准基准测试的系统化评估
| 环境 | 线程 | 配置 | pp (t/s) | tg (t/s) | vs baseline |
|---|---|---|---|---|---|
| 8GB (4核) | 4 | baseline | 0.22 | 0.08 | — |
| 8GB (4核) | 4 | SLIM-ARC + KV q4_0 | 0.35 | 0.76 | +850% |
| 16GB (8核) | 8 | baseline | 1.04 | 0.18 | — |
| 16GB (8核) | 8 | SLIM-ARC + KV q4_0 | 1.34 | 1.03 | +472% |
| 32GB (热缓存) | 8 | SLIM-ARC (KV f16) | 1.90 | 1.24 | — |
| 配置 | pp64 (t/s) | tg48 (t/s) | 提升 |
|---|---|---|---|
| baseline (无 -fa) | 5.89 | 3.01 | — |
| -fa on | 6.64 | 3.90 | +29.6% |
| -fa auto (最优) | 12.99 | 5.16 | +71.4% |
| 模型 | 量化 | GSM8K Acc | t/s | 说明 |
|---|---|---|---|---|
| Qwen3-4B | Q4_K_M | 75% | 7.8 | 推理保持 |
| Qwen3-Next-80B | Q4_K_M + KV q4_0 | 50% | 0.7 | 部分保持 |
| Qwen3-Next-80B | IQ4_XS + KV q4_0 | 0% | 1.7 | 推理崩溃 |
关键发现:IQ4_XS 保持语言流畅性但数学推理崩溃,证明 PPL 不充分,GSM8K 更敏感。
| 配置 | pp64 (t/s) | tg48 (t/s) | vs baseline |
|---|---|---|---|
| baseline (无 eviction) | 5.89 | 3.01 | — |
| KV eviction (sink=4, window=32) | 4.85 | 3.30 | +9.6% |
KV 内存释放给权重缓存,decode 反而加速 9.6%。