系统架构 | SLIM-ARC

🔧 内核协同层（底层）

利用 mmap 将 45GB GGUF 模型映射到虚拟地址空间，通过 posix_madvise 控制页面预取策略。

mmap：45GB VSZ 虚拟映射，不占用物理内存
MADV_RANDOM：禁用内核顺序预读，仅 page fault 时加载 → RSS 从 45GB 降至 2GB
page cache：利用内核 demand paging，MoE 10/512 激活专家按需加载
NVMe SSD：3.5GB/s 顺序读写，GGUF 文件直接 mmap

⚙️ 运行时调度层（中层）

基于运行时阶段（Prefill/Decode）和 MoE Router 输出，动态调度权重预取与专家选择性加载。

prefetch_scheduler：层感知异步预取，窗口大小随阶段调整（prefill=4层, decode=1层）
MoE Router Hook：提取 ffn_moe_topk 张量，跨层预测激活专家
unified_io_scheduler：权重/KV/专家三路 I/O 带宽预算分配
StreamingLLM eviction：sink(4) + sliding window(1024) KV 驱逐

📐 量化优化层（顶层）

从算法层面降低内存占用和 I/O 带宽需求，配合 FlashAttention 加速 attention 计算。

IQ4_XS：4.25 bpw 量化，45GB → 40GB，cache 命中率提升
KV q4_0：KV Cache 内存减半，decode +14%
FlashAttention：IO-aware tiling 融合，decode +71.4%
GGML_CPU_REPACK=OFF：禁用重打包，避免 45→90GB 内存翻倍

核心 Insight

"MoE 模型的专家稀疏性与操作系统虚拟内存机制的结合，是实现端侧大模型推理的有效路径。"

通过 posix_madvise(MADV_RANDOM) 这一简单的内核接口调用，系统能够精确地只加载被激活的专家权重，将 45GB 模型的物理内存占用降至接近实际访问量（~2GB）。