OS挑战赛 Proj 59 · 中山大学

SLIM-ARC

Synergistic LLM Integration with Memory-Aware Runtime Co-Optimization for On-Device Agents

让 80B MoE 大模型在 8GB 内存端侧设备上流畅运行

探索架构 → 查看数据

64.5×

累计加速

5.16

tokens/s (32GB)

+71.4%

FlashAttention

2GB

RSS (vs 45GB)

核心成果

8GB 环境解码加速
vs baseline (0.08→0.76 t/s)

物理内存节省
MADV_RANDOM 按需加载

GSM8K 精度保持
Qwen3-4B Q4_K_M

引用论文
NeurIPS/ICLR/USENIX

🧠

通过 posix_madvise(MADV_RANDOM) 让内核 demand paging 与 MoE Router 2% 激活率天然匹配，仅加载被激活的专家权重。

⚡

IO-aware tiling 融合，将 attention 的 QK^T 和 softmax(P)V 合并为单 kernel，decode 吞吐 +71.4%。

💾

sink + sliding window 驱逐策略，KV 内存从 O(L) 降至 O(1)，80B decode +9.6%。

📊

首次用 GSM8K ALEM 协议发现 IQ4_XS 保持语言流畅但推理崩溃，为端侧模型选择提供指导。