利用操作系统虚拟内存机制作为 MoE 稀疏性的天然接口,零模型修改实现端侧大模型推理
利用 mmap 将 45GB GGUF 模型映射到虚拟地址空间,通过 posix_madvise 控制页面预取策略。
基于运行时阶段(Prefill/Decode)和 MoE Router 输出,动态调度权重预取与专家选择性加载。
从算法层面降低内存占用和 I/O 带宽需求,配合 FlashAttention 加速 attention 计算。
"MoE 模型的专家稀疏性与操作系统虚拟内存机制的结合,是实现端侧大模型推理的有效路径。"
通过 posix_madvise(MADV_RANDOM) 这一简单的内核接口调用,系统能够精确地只加载被激活的专家权重,将 45GB 模型的物理内存占用降至接近实际访问量(~2GB)。