OS挑战赛 Proj 59 · 中山大学

SLIM-ARC

Synergistic LLM Integration with Memory-Aware Runtime Co-Optimization for On-Device Agents

让 80B MoE 大模型在 8GB 内存端侧设备上流畅运行

64.5×
累计加速
5.16
tokens/s (32GB)
+71.4%
FlashAttention
2GB
RSS (vs 45GB)

核心成果

0
8GB 环境解码加速
vs baseline (0.08→0.76 t/s)
0
物理内存节省
MADV_RANDOM 按需加载
0
GSM8K 精度保持
Qwen3-4B Q4_K_M
0
引用论文
NeurIPS/ICLR/USENIX

技术亮点

🧠

MoE 稀疏性 × OS 虚拟内存

通过 posix_madvise(MADV_RANDOM) 让内核 demand paging 与 MoE Router 2% 激活率天然匹配,仅加载被激活的专家权重。

FlashAttention 集成

IO-aware tiling 融合,将 attention 的 QKT 和 softmax(P)V 合并为单 kernel,decode 吞吐 +71.4%。

💾

StreamingLLM KV Eviction

sink + sliding window 驱逐策略,KV 内存从 O(L) 降至 O(1),80B decode +9.6%。

📊

量化精度边界发现

首次用 GSM8K ALEM 协议发现 IQ4_XS 保持语言流畅但推理崩溃,为端侧模型选择提供指导。

优化链:0.08 → 5.16 t/s

Baseline
0.08 t/s
+MADV_RANDOM
0.42 t/s
+KV q4_0
0.76 t/s
+IQ4_XS
2.45 t/s
+FlashAttention
5.16 t/s

深入了解

系统架构 →

三层设计:内核协同层、运行时调度层、量化优化层

实验数据 →

三档环境性能、GSM8K 精度、消融实验

源代码 →

完整可复现的 SLIM-ARC 实现