Synergistic LLM Integration with Memory-Aware Runtime Co-Optimization for On-Device Agents
让 80B MoE 大模型在 8GB 内存端侧设备上流畅运行
通过 posix_madvise(MADV_RANDOM) 让内核 demand paging 与 MoE Router 2% 激活率天然匹配,仅加载被激活的专家权重。
IO-aware tiling 融合,将 attention 的 QKT 和 softmax(P)V 合并为单 kernel,decode 吞吐 +71.4%。
sink + sliding window 驱逐策略,KV 内存从 O(L) 降至 O(1),80B decode +9.6%。
首次用 GSM8K ALEM 协议发现 IQ4_XS 保持语言流畅但推理崩溃,为端侧模型选择提供指导。