mmap机制在Linux中的性能优化方法

这篇文章距离上次修改已过206天，其中的内容可能已经有所变动。

导读：mmap 在 Linux 中以其“零拷贝”与“按需加载”特性广泛用于高性能 I/O、数据库缓存、共享内存等场景。但如果不加以优化，同样会出现大量缺页（page fault）、TLB 失效率高、随机访问效率低等问题。本文将围绕 mmap 性能优化的常见手段展开，包含原理剖析、代码示例与ASCII 图解，帮助你快速掌握在不同场景下提升 mmap 效率的方法。

回顾：mmap 的基本原理
性能瓶颈与优化思路
优化技巧一：控制缺页中断——预取与预加载
- 3.1 使用 madvise 提示访问模式
- 3.2 MAP_POPULATE 选项预先填充页表
- 3.3 代码示例
优化技巧二：页大小与 TLB 利用
- 4.1 小页 vs 大页（Huge Page）
- 4.2 MAP_HUGETLB 与 Transparent Huge Pages
- 4.3 代码示例
优化技巧三：对齐与分段映射
- 5.1 确保 offset 与 length 按页对齐
- 5.2 分段映射避免超大 VMA
- 5.3 ASCII 图解
优化技巧四：异步 I/O 与 Direct I/O 结合
- 6.1 O\_DIRECT 与 mmap 的冲突与解决方案
- 6.2 使用 io\_uring/AIO 结合 mmap
- 6.3 代码示例
优化技巧五：减少写时复制开销（Copy-On-Write）
- 7.1 MAP_PRIVATE vs MAP_SHARED 选择
- 7.2 只读映射场景的优化
- 7.3 代码示例
优化技巧六：Page Cache 调优与 fsync/msync 策略
- 8.1 延迟写回与脏页回写策略
- 8.2 合理使用 msync 指令确保一致性
- 8.3 代码示例
实战案例：大文件随机读写 vs 顺序扫描性能对比
- 9.1 顺序扫描优化示例
- 9.2 随机访问优化示例
- 9.3 性能对比与测试方法
总结与最佳实践

一、回顾：mmap 的基本原理

在正式谈性能优化之前，我们先快速回顾 mmap 的关键流程：

用户态调用
```
void *addr = mmap(NULL, length, prot, flags, fd, offset);
```
- addr = NULL：让内核选地址。
- length：映射长度，内核会向上对齐到页大小（通常 4KB）。
- prot：访问权限（PROT_READ、PROT_WRITE）。
- flags：MAP_SHARED / MAP_PRIVATE / MAP_ANONYMOUS / MAP_HUGETLB 等。
- fd / offset：文件描述符与文件偏移量，同样需按页对齐。
内核插入 VMA（Virtual Memory Area）
- 内核在该进程的虚拟内存空间中创建一条 VMA 记录，并未分配实际物理页 / 建立页表。
首次访问触发缺页（Page Fault）
- CPU 检测到对应虚拟地址的 PTE 为“未映射”或“不存在”，触发缺页异常（Page Fault）。
- 内核对照 VMA 知道是匿名映射还是文件映射。
  - 匿名映射：分配空白物理页（通常通过伙伴系统），清零后映射。
  - 文件映射：从 Page Cache 读取对应文件页（若缓存未命中则从磁盘读取），再映射。
- 更新页表，重试访问。
后续访问走内存映射
- 数据直接在用户态通过指针访问，无需再走 read/write 系统调用，只要在页表中即可找到物理页。
写时复制（COW）（针对 MAP_PRIVATE）
- 首次写入时触发 Page Fault，内核复制原始页面到新物理页，更新 PTE 并标记为可写，不影响底层文件。
解除映射
```
munmap(addr, length);
```
- 内核删除对应 VMA，清除页表。
- 若为 MAP_SHARED 且页面被修改过，则会在后台逐步将脏页写回磁盘（或在 msync 时同步）。

二、性能瓶颈与优化思路

使用 mmap 虽然在很多场景下优于传统 I/O，但不加注意也会遇到以下性能瓶颈：

频繁 Page Fault
- 首次访问就会触发缺页，若映射很大区域且访问呈随机分散，Page Fault 开销会非常高。
TLB（快表）失效率高
- 虚拟地址到物理地址的映射存储在 TLB 中，若只使用小页（4KB），映射数大时容易导致 TLB miss。
Copy-On-Write 开销大
- 使用 MAP_PRIVATE 做写操作时，每写入一个尚未复制的页面都要触发复制，带来额外拷贝。
异步写回策略不当
- MAP_SHARED 模式下对已修改页面，若不合理调用 msync 或等待脏页回写，可能造成磁盘写爆发或数据不一致。
IO 与 Page Cache 竞争
- 如果文件 I/O 与 mmap 并行使用（例如一边 read 一边 mmap），可能出现 Page Cache 冲突，降低效率。

针对这些瓶颈，我们可以采取以下思路进行优化：

减少 Page Fault 次数
- 使用预取 / 预加载，使得缺页提前发生或避免缺页。
- 对于顺序访问，可使用 madvise(MADV_SEQUENTIAL)；关键页面可提前通过 mmap 时加 MAP_POPULATE 立即填充。
提高 TLB 命中率
- 使用大页（HugePage）、Transparent HugePage (THP) 以减少页数、降低 TLB miss 率。
规避不必要的 COW
- 对于可共享写场景，选择 MAP_SHARED；仅在需要保留原始文件时才用 MAP_PRIVATE。
- 若只读映射，避免 PROT_WRITE，减少对 COW 机制的触发。
合理控制内存回写
- 对需要及时同步磁盘的场景，使用 msync 强制写回并可指定 MS_SYNC / MS_ASYNC。
- 对无需立即同步的场景，可依赖操作系统后台写回，避免阻塞。
避免 Page Cache 冲突
- 避免同时对同一文件既 read 又 mmap；若必须，可考虑使用 posix_fadvise 做预读/丢弃提示。

下面我们逐一介绍具体优化技巧。

三、优化技巧一：控制缺页中断——预取与预加载

3.1 使用 `madvise` 提示访问模式

当映射一个大文件，如果没有任何提示，内核会默认按需加载（On-Demand Paging），这导致首次访问每个新页面都要触发缺页中断。对顺序扫描场景，可以通过 madvise 向内核提示访问模式，从而提前预加载或将页面放到后台读。

#include <sys/mman.h>
#include <errno.h>
#include <stdio.h>
#include <unistd.h>

// 在 mmap 后，对映射区域使用 madvise
void hint_sequential(void *addr, size_t length) {
    // MADV_SEQUENTIAL：顺序访问，下次预取有利
    if (madvise(addr, length, MADV_SEQUENTIAL) != 0) {
        perror("madvise(MADV_SEQUENTIAL)");
    }
    // MADV_WILLNEED：告诉内核稍后会访问，可提前预读
    if (madvise(addr, length, MADV_WILLNEED) != 0) {
        perror("madvise(MADV_WILLNEED)");
    }
}

MADV_SEQUENTIAL：告诉内核访问模式是顺序的，内核会在缺页时少量预读后续页面。
MADV_WILLNEED：告诉内核后续会访问该区域，内核可立即把对应的文件页拉入 Page Cache。

效果对比（ASCII 图示）

映射后未 madvise：            映射后 madvise：
Page Fault on demand          Page Fault + 预读下一页 → 减少下一次缺页

┌────────┐                     ┌──────────┐
│ Page0  │◀──访问────────       │ Page0    │◀──访问───────┐
│ Not    │   缺页中断            │ In Cache │                │
│ Present│                     └──────────┘                │
└────────┘                     ┌──────────┐                │
                               │ Page1    │◀──预读────    │
                               │ In Cache │──(无需缺页)────┘
                               └──────────┘

通过 MADV_WILLNEED，在访问 Page0 时，就已经预读了 Page1，减少下一次访问的缺页开销。

3.2 `MAP_POPULATE` 选项预先填充页表

Linux 特定版本（2.6.18+）支持 MAP_POPULATE，在调用 mmap 时就立即对整个映射区域触发预读，分配对应页面并填充页表，避免后续缺页。

void *map = mmap(NULL, length, PROT_READ, MAP_SHARED | MAP_POPULATE, fd, 0);
if (map == MAP_FAILED) {
    perror("mmap with MAP_POPULATE");
    exit(EXIT_FAILURE);
}
// 此时所有页面已被介入物理内存并填充页表

优点：首次访问时不会再触发 Page Fault。
缺点：如果映射很大，调用 mmap 时会阻塞较长时间，适合启动时就需遍历大文件的场景。

3.3 代码示例

下面示例演示对 100MB 文件进行顺序读取，分别使用普通 mmap 与加 MAP_POPULATE、madvise 的方式进行对比。

// mmap_prefetch_example.c
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>
#include <time.h>

#define FILEPATH "largefile.bin"
#define SEQUENTIAL_READ 1

// 顺序遍历映射区域并累加
void sequential_read(char *map, size_t size) {
    volatile unsigned long sum = 0;
    for (size_t i = 0; i < size; i += PAGE_SIZE) {
        sum += map[i];
    }
    // 防止编译优化
    (void)sum;
}

int main() {
    int fd = open(FILEPATH, O_RDONLY);
    if (fd < 0) {
        perror("open");
        exit(EXIT_FAILURE);
    }
    struct stat st;
    fstat(fd, &st);
    size_t size = st.st_size;

    // 方式 A：普通 mmap
    clock_t t0 = clock();
    char *mapA = mmap(NULL, size, PROT_READ, MAP_SHARED, fd, 0);
    if (mapA == MAP_FAILED) { perror("mmap A"); exit(EXIT_FAILURE); }
    sequential_read(mapA, size);
    munmap(mapA, size);
    clock_t t1 = clock();

    // 方式 B：mmap + MADV_SEQUENTIAL + MADV_WILLNEED
    clock_t t2 = clock();
    char *mapB = mmap(NULL, size, PROT_READ, MAP_SHARED, fd, 0);
    if (mapB == MAP_FAILED) { perror("mmap B"); exit(EXIT_FAILURE); }
    madvise(mapB, size, MADV_SEQUENTIAL);
    madvise(mapB, size, MADV_WILLNEED);
    sequential_read(mapB, size);
    munmap(mapB, size);
    clock_t t3 = clock();

    // 方式 C：mmap + MAP_POPULATE
    clock_t t4 = clock();
    char *mapC = mmap(NULL, size, PROT_READ, MAP_SHARED | MAP_POPULATE, fd, 0);
    if (mapC == MAP_FAILED) { perror("mmap C"); exit(EXIT_FAILURE); }
    sequential_read(mapC, size);
    munmap(mapC, size);
    clock_t t5 = clock();

    printf("普通 mmap + 顺序读耗时: %.3f 秒\n", (t1 - t0) / (double)CLOCKS_PER_SEC);
    printf("madvise 预取 + 顺序读耗时: %.3f 秒\n", (t3 - t2) / (double)CLOCKS_PER_SEC);
    printf("MAP_POPULATE + 顺序读耗时: %.3f 秒\n", (t5 - t4) / (double)CLOCKS_PER_SEC);

    close(fd);
    return 0;
}

效果示例（示意，实际视硬件而定）：

普通 mmap + 顺序读耗时: 0.85 秒
madvise 预取 + 顺序读耗时: 0.60 秒
MAP_POPULATE + 顺序读耗时: 0.55 秒

说明：使用 madvise 和 MAP_POPULATE 都能显著降低顺序读时的缺页开销。

四、优化技巧二：页大小与 TLB 利用

4.1 小页 vs 大页（Huge Page）

小页（4KB）
- 默认 Linux 系统使用 4KB 页，映射大文件时需要分配大量页表项（PTE），增加 TLB 压力。
大页（2MB / 1GB，Huge Page）
- 通过使用 hugepages，一次分配更大连续物理内存，减少页表数量，降低 TLB miss 率。
- 两种形式：
  1. Transparent Huge Pages (THP)：内核自动启用，对用户透明；
  2. Explicit HugeTLB：用户通过 MAP_HUGETLB、MAP_HUGE_2MB 等标志强制使用。

TLB 原理简要

┌───────────────────────────────┐
│  虚拟地址空间                  │
│   ┌────────┐                  │
│   │ 一条 4KB 页 │◀─ PTE 指向物理页 ─► 1 个 TLB 条目  │
│   └────────┘                  │
│   ┌────────┐                  │
│   │ 第二条 4KB 页  │◀─ PTE 指向物理页 ─► 1 个 TLB 条目  │
│   └────────┘                  │
│   ...                          │
└───────────────────────────────┘

如果使用一条 2MB 大页：
┌─────────┐ 2MB 页 │◀─ PTE 指向物理页 ─► 1 个 TLB 条目  │
└─────────┘       │
                 │ 下面包含 512 个 4KB 子页

用 2MB 大页映射，相同映射范围只需要一个 TLB 条目，显著提升 TLB 命中率。

4.2 `MAP_HUGETLB` 与 Transparent Huge Pages

使用 Transparent Huge Pages

默认大多数 Linux 发行版启用了 THP，无需用户干预即可自动使用大页。但也可在 /sys/kernel/mm/transparent_hugepage/enabled 查看或设置。

显式使用 `MAP_HUGETLB`

需要在 Linux 启动时预先分配 Huge Page 内存池（例如 .mount hugepages）。

# 查看可用 Huge Page 数量（以 2MB 为单位）
cat /proc/sys/vm/nr_hugepages
# 设置为 128 个 2MB page（约 256MB）
echo 128 | sudo tee /proc/sys/vm/nr_hugepages

C 代码示例：用 2MB Huge Page 映射文件

#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>
#include <errno.h>

#define HUGEPAGE_SIZE (2ULL * 1024 * 1024) // 2MB

int main() {
    const char *filepath = "largefile.bin";
    int fd = open(filepath, O_RDONLY);
    if (fd < 0) { perror("open"); exit(EXIT_FAILURE); }

    struct stat st;
    fstat(fd, &st);
    size_t filesize = st.st_size;
    // 向上对齐到 2MB
    size_t aligned = ((filesize + HUGEPAGE_SIZE - 1) / HUGEPAGE_SIZE) * HUGEPAGE_SIZE;

    void *map = mmap(NULL, aligned,
                     PROT_READ,
                     MAP_SHARED | MAP_HUGETLB | MAP_HUGE_2MB,
                     fd, 0);
    if (map == MAP_FAILED) {
        perror("mmap huge");
        close(fd);
        exit(EXIT_FAILURE);
    }

    // 顺序遍历示例
    volatile unsigned long sum = 0;
    for (size_t i = 0; i < filesize; i += 4096) {
        sum += ((char *)map)[i];
    }
    (void)sum;

    munmap(map, aligned);
    close(fd);
    return 0;
}

注意：若 Huge Page 池不足（nr_hugepages 不够），mmap 会失败并返回 EINVAL。

4.3 代码示例

下面示例对比在 4KB 小页与 2MB 大页下的随机访问耗时，假设已分配一定数量的 HugePages。

// compare_tlb_miss.c
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>
#include <time.h>

#define HUGEPAGE_SIZE (2ULL * 1024 * 1024) // 2MB
#define PAGE_SIZE 4096                     // 4KB

// 随机访问文件中的 10000 个 4KB 块
void random_access(char *map, size_t filesize, size_t page_size) {
    volatile unsigned long sum = 0;
    int iterations = 10000;
    for (int i = 0; i < iterations; i++) {
        size_t offset = (rand() % (filesize / page_size)) * page_size;
        sum += map[offset];
    }
    (void)sum;
}

int main() {
    srand(time(NULL));
    int fd = open("largefile.bin", O_RDONLY);
    if (fd < 0) { perror("open"); exit(EXIT_FAILURE); }
    struct stat st;
    fstat(fd, &st);
    size_t filesize = st.st_size;

    // 小页映射
    char *mapA = mmap(NULL, filesize, PROT_READ,
                      MAP_SHARED, fd, 0);
    clock_t t0 = clock();
    random_access(mapA, filesize, PAGE_SIZE);
    clock_t t1 = clock();
    munmap(mapA, filesize);

    // 大页映射
    size_t aligned = ((filesize + HUGEPAGE_SIZE - 1) / HUGEPAGE_SIZE) * HUGEPAGE_SIZE;
    char *mapB = mmap(NULL, aligned, PROT_READ,
                      MAP_SHARED | MAP_HUGETLB | MAP_HUGE_2MB, fd, 0);
    clock_t t2 = clock();
    if (mapB == MAP_FAILED) {
        perror("mmap huge");
        close(fd);
        exit(EXIT_FAILURE);
    }
    random_access(mapB, filesize, PAGE_SIZE);
    clock_t t3 = clock();
    munmap(mapB, aligned);
    close(fd);

    printf("4KB 小页随机访问耗时: %.3f 秒\n", (t1 - t0) / (double)CLOCKS_PER_SEC);
    printf("2MB 大页随机访问耗时: %.3f 秒\n", (t3 - t2) / (double)CLOCKS_PER_SEC);

    return 0;
}

示例输出（示意）：

4KB 小页随机访问耗时: 0.75 秒
2MB 大页随机访问耗时: 0.45 秒

说明：大页映射下 TLB miss 减少，随机访问性能显著提升。

五、优化技巧三：对齐与分段映射

5.1 确保 `offset` 与 `length` 按页对齐

对齐原因

mmap 的 offset 必须是 系统页面大小（getpagesize()）的整数倍，否则该偏移会被向下截断到最近页面边界，导致实际映射地址与期望不符。
length 不必显式对齐，但内核会自动向上对齐到页大小；为了避免浪费显式地申请过大区域，推荐手动对齐。

示例：对齐 `offset` 与 `length`

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <fcntl.h>

int main() {
    int fd = open("data.bin", O_RDONLY);
    size_t page = sysconf(_SC_PAGESIZE); // 4096
    off_t raw_offset = 12345; // 非对齐示例
    off_t aligned_offset = (raw_offset / page) * page;
    size_t length = 10000; // 需要映射的真实字节长度
    size_t aligned_length = ((length + (raw_offset - aligned_offset) + page - 1) / page) * page;

    char *map = mmap(NULL, aligned_length,
                     PROT_READ, MAP_SHARED, fd, aligned_offset);
    if (map == MAP_FAILED) { perror("mmap"); exit(EXIT_FAILURE); }

    // 真实可读区域从 map + (raw_offset - aligned_offset) 开始，长度为 length
    char *data = map + (raw_offset - aligned_offset);
    // 使用 data[0 .. length-1]

    munmap(map, aligned_length);
    close(fd);
    return 0;
}

aligned_offset：将 raw_offset 截断到页面边界。
aligned_length：根据截断后实际起点计算需要映射多少个完整页面，保证对齐。

5.2 分段映射避免超大 VMA

若文件非常大（数 GB），一次 mmap(NULL, filesize) 会创建一个超大 VMA，可能导致内核管理成本高、TLB 跟踪困难。
优化思路：将超大映射拆成若干固定大小的分段进行动态映射，按需释放与映射，类似滑动窗口。

ASCII 图解：分段映射示意

大文件（8GB）：                分段映射示意（每段 512MB）：
┌────────────────────────────────┐     ┌──────────┐
│       0          8GB           │     │ Segment0 │ (0–512MB)
│  ┌───────────────────────────┐ │     └──────────┘
│  │      一次性全部 mmap      │ │
│  └───────────────────────────┘ │  ┌──────────┐   ┌──────────┐  ...
└────────────────────────────────┘  │ Segment1 │   │Segment15 │
                                     └──────────┘   └──────────┘

代码示例：动态分段映射并滑动窗口访问

#define SEGMENT_SIZE (512ULL * 1024 * 1024) // 512MB

void process_large_file(const char *path) {
    int fd = open(path, O_RDONLY);
    struct stat st; fstat(fd, &st);
    size_t filesize = st.st_size;
    size_t num_segments = (filesize + SEGMENT_SIZE - 1) / SEGMENT_SIZE;

    for (size_t seg = 0; seg < num_segments; seg++) {
        off_t offset = seg * SEGMENT_SIZE;
        size_t this_size = ((offset + SEGMENT_SIZE) > filesize) ? (filesize - offset) : SEGMENT_SIZE;
        // 对齐
        size_t page = sysconf(_SC_PAGESIZE);
        off_t aligned_offset = (offset / page) * page;
        size_t aligned_len = ((this_size + (offset - aligned_offset) + page - 1) / page) * page;

        char *map = mmap(NULL, aligned_len, PROT_READ, MAP_SHARED, fd, aligned_offset);
        if (map == MAP_FAILED) { perror("mmap seg"); exit(EXIT_FAILURE); }

        char *data = map + (offset - aligned_offset);
        // 在 data[0 .. this_size-1] 上做处理
        // ...

        munmap(map, aligned_len);
    }
    close(fd);
}

这样做能：
- 限制一次性 VMA 的大小，降低内核管理开销。
- 如果只需要访问文件的前部，无需映射后续区域，节省内存。

六、优化技巧四：异步 I/O 与 Direct I/O 结合

6.1 O\_DIRECT 与 mmap 的冲突与解决方案

O_DIRECT：对文件打开时加 O_DIRECT，绕过 Page Cache，直接进行原始块设备 I/O，减少内核拷贝，但带来页对齐要求严格、效率往往不足以与 Page Cache 效率抗衡。
如果使用 O_DIRECT 打开文件，再用 mmap 映射，mmap 会忽略 O_DIRECT，因为 mmap 自身依赖 Page Cache。

解决思路

顺序读取大文件：
- 对于不需要写入且大文件顺序读取场景，用 O_DIRECT + read/write 并结合异步 I/O（io_uring / libaio）通常会更快。
- 对于需要随机访问，依然使用 mmap 更合适，因为 mmap 可结合页面缓存做随机读取。
与 AIO / io\_uring 结合：
- 可以先用 AIO / io_uring 异步将所需页面预读到 Page Cache，再对已加载区域 mmap 访问，减少缺页。

6.2 使用 io\_uring/`AIO` 结合 mmap

示例：先用 io\_uring 提前读入 Page Cache，再 mmap 访问

（仅示意，实际代码需引入 liburing）

#include <liburing.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
#include <sys/stat.h>

#define QUEUE_DEPTH  8
#define BLOCK_SIZE   4096

int main() {
    const char *path = "largefile.bin";
    int fd = open(path, O_RDWR | O_DIRECT);
    struct stat st; fstat(fd, &st);
    size_t filesize = st.st_size;

    struct io_uring ring;
    io_uring_queue_init(QUEUE_DEPTH, &ring, 0);

    // 预读前 N 页
    int num_blocks = (filesize + BLOCK_SIZE - 1) / BLOCK_SIZE;
    for (int i = 0; i < num_blocks; i++) {
        // 准备 readv 请求到 Page Cache
        struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
        io_uring_prep_read(sqe, fd, NULL, 0, i * BLOCK_SIZE);
        sqe->flags |= IOSQE_ASYNC | IOSQE_IO_LINK;
    }
    io_uring_submit(&ring);
    // 等待所有提交完成
    for (int i = 0; i < num_blocks; i++) {
        struct io_uring_cqe *cqe;
        io_uring_wait_cqe(&ring, &cqe);
        io_uring_cqe_seen(&ring, cqe);
    }

    // 现在 Page Cache 中应该已经拥有所有文件页面
    // 直接 mmap 访问，减少缺页
    char *map = mmap(NULL, filesize, PROT_READ, MAP_SHARED, fd, 0);
    if (map == MAP_FAILED) { perror("mmap"); exit(EXIT_FAILURE); }

    // 读写数据
    volatile unsigned long sum = 0;
    for (size_t i = 0; i < filesize; i += BLOCK_SIZE) {
        sum += map[i];
    }
    (void)sum;

    munmap(map, filesize);
    close(fd);
    io_uring_queue_exit(&ring);
    return 0;
}

此示例仅演示思路：通过异步 I/O 先将文件内容放入 Page Cache，再做 mmap 访问，减少缺页中断；实际项目可进一步调整提交批次与并发度。

6.3 代码示例

上例中已经展示了简单结合 io\_uring 的思路，若使用传统 POSIX AIO（aio_read）可参考：

#include <aio.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>
#include <sys/stat.h>

#define BLOCK_SIZE 4096

void pread_to_cache(int fd, off_t offset) {
    struct aiocb cb;
    memset(&cb, 0, sizeof(cb));
    cb.aio_fildes = fd;
    cb.aio_buf = aligned_alloc(BLOCK_SIZE, BLOCK_SIZE);
    cb.aio_nbytes = BLOCK_SIZE;
    cb.aio_offset = offset;

    aio_read(&cb);
    // 阻塞等待完成
    while (aio_error(&cb) == EINPROGRESS) { /* spin */ }
    aio_return(&cb);
    free((void *)cb.aio_buf);
}

int main() {
    const char *path = "largefile.bin";
    int fd = open(path, O_RDONLY);
    struct stat st; fstat(fd, &st);
    size_t filesize = st.st_size;
    int num_blocks = (filesize + BLOCK_SIZE - 1) / BLOCK_SIZE;

    for (int i = 0; i < num_blocks; i++) {
        pread_to_cache(fd, i * BLOCK_SIZE);
    }

    char *map = mmap(NULL, filesize, PROT_READ, MAP_SHARED, fd, 0);
    if (map == MAP_FAILED) { perror("mmap"); exit(EXIT_FAILURE); }

    volatile unsigned long sum = 0;
    for (size_t i = 0; i < filesize; i += BLOCK_SIZE) {
        sum += map[i];
    }
    (void)sum;

    munmap(map, filesize);
    close(fd);
    return 0;
}

此示例在 mmap 前“手工”顺序读入所有页面到 Page Cache。

七、优化技巧五：减少写时复制开销（Copy-On-Write）

7.1 `MAP_PRIVATE` vs `MAP_SHARED` 选择

MAP_PRIVATE：写时复制（COW），首次写触发额外的物理页拷贝，若写操作频繁会产生大量复制开销。
MAP_SHARED：直接写回底层文件，不触发 COW。适合需修改并持久化到文件的场景。

优化建议

只读场景：若仅需要读取文件，无需写回，优先使用 MAP_PRIVATE + PROT_READ，避免意外写入。
写回场景：若需要修改并同步到底层文件，用 MAP_SHARED | PROT_WRITE，避免触发 COW。
混合场景：对于大部分是读取、少量写入且不希望写回文件的场景，可用 MAP_PRIVATE，再对少量可信任页面做 mmap 中复制（memcpy）后写入。

7.2 只读映射场景的优化

对于大文件多线程或多进程只读访问，可用 MAP_PRIVATE | PROT_READ，共享页面缓存在 Page Cache，无 COW 开销；
在代码中确保 不带 PROT_WRITE，避免任何写入尝试引发 COW。

char *map = mmap(NULL, size, PROT_READ, MAP_PRIVATE, fd, 0);
// 后续代码中不允许写入 map，若写入会触发 SIGSEGV

7.3 代码示例

#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>

int main() {
    int fd = open("readonly.bin", O_RDONLY);
    struct stat st; fstat(fd, &st);
    size_t size = st.st_size;

    // 只读、私有映射，无 COW
    char *map = mmap(NULL, size, PROT_READ, MAP_PRIVATE, fd, 0);
    if (map == MAP_FAILED) { perror("mmap"); exit(EXIT_FAILURE); }

    // 尝试写入会导致 SIGSEGV
    // map[0] = 'A'; // 不要这样做

    // 顺序读取示例
    for (size_t i = 0; i < size; i++) {
        volatile char c = map[i];
        (void)c;
    }

    munmap(map, size);
    close(fd);
    return 0;
}

八、优化技巧六：Page Cache 调优与 `fsync`/`msync` 策略

8.1 延迟写回与脏页回写策略

在 MAP_SHARED | PROT_WRITE 情况下，对映射区做写入时会标记为“脏页（Dirty Page）”，并异步写回 Page Cache。
内核通过后台 flush 线程周期性将脏页写回磁盘，写回延迟可能导致数据不一致或突然的 I/O 密集。

调优手段

控制脏页阈值
- /proc/sys/vm/dirty_ratio、dirty_background_ratio：决定系统脏页比例阈值。
- 调小 dirty_ratio 可在页缓存占用过高前触发更频繁写回，减少一次大规模写回。
使用 msync 强制同步
- msync(addr, length, MS_SYNC)：阻塞式写回映射区所有脏页，保证调用返回后磁盘已完成写入。
- msync(addr, length, MS_ASYNC)：异步写回，提交后立即返回。

8.2 合理使用 `msync` 指令确保一致性

void write_and_sync(char *map, size_t offset, const char *buf, size_t len) {
    memcpy(map + offset, buf, len);
    // 同步写回磁盘（阻塞）
    if (msync(map, len, MS_SYNC) != 0) {
        perror("msync");
    }
}

优化建议：
- 若对小块数据频繁写入且需即时持久化，使用小范围 msync；
- 若大块数据一次性批量写入，推荐在最后做一次全局 msync，减少多次阻塞开销。

8.3 代码示例

#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <string.h>
#include <unistd.h>

int main() {
    const char *path = "data_sync.bin";
    int fd = open(path, O_RDWR | O_CREAT, 0666);
    ftruncate(fd, 4096); // 1页
    char *map = mmap(NULL, 4096, PROT_READ | PROT_WRITE,
                     MAP_SHARED, fd, 0);
    if (map == MAP_FAILED) { perror("mmap"); exit(EXIT_FAILURE); }

    // 写入一段数据
    const char *msg = "Persistent Data";
    memcpy(map + 100, msg, strlen(msg) + 1);
    // 强制写回前 512 字节
    if (msync(map, 512, MS_SYNC) != 0) {
        perror("msync");
    }
    printf("已写入并同步前 512 字节。\n");

    munmap(map, 4096);
    close(fd);
    return 0;
}

九、实战案例：大文件随机读写 vs 顺序扫描性能对比

下面通过一个综合示例，对比在不同访问模式下，应用上述多种优化手段后的性能差异。

9.1 顺序扫描优化示例

// seq_scan_opt.c
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>
#include <time.h>

#define PAGE_SIZE 4096

double time_seq_read(char *map, size_t size) {
    clock_t t0 = clock();
    volatile unsigned long sum = 0;
    for (size_t i = 0; i < size; i += PAGE_SIZE) {
        sum += map[i];
    }
    (void)sum;
    return (clock() - t0) / (double)CLOCKS_PER_SEC;
}

int main() {
    int fd = open("largefile.bin", O_RDONLY);
    struct stat st; fstat(fd, &st);
    size_t size = st.st_size;

    // A: 普通 mmap
    char *mapA = mmap(NULL, size, PROT_READ, MAP_SHARED, fd, 0);
    madvise(mapA, size, MADV_SEQUENTIAL);
    double tA = time_seq_read(mapA, size);
    munmap(mapA, size);

    // B: mmap + MAP_POPULATE
    char *mapB = mmap(NULL, size, PROT_READ, MAP_SHARED | MAP_POPULATE, fd, 0);
    double tB = time_seq_read(mapB, size);
    munmap(mapB, size);

    // C: mmap + 大页 (假设已分配 HugePages)
    size_t aligned = ((size + (2UL<<20) - 1) / (2UL<<20)) * (2UL<<20);
    char *mapC = mmap(NULL, aligned, PROT_READ, MAP_SHARED | MAP_HUGETLB | MAP_HUGE_2MB, fd, 0);
    double tC = time_seq_read(mapC, size);
    munmap(mapC, aligned);

    close(fd);
    printf("普通 mmap 顺序读: %.3f 秒\n", tA);
    printf("mmap + MADV_SEQUENTIAL: %.3f 秒\n", tA); // 示例视具体实验而定
    printf("MAP_POPULATE 顺序读: %.3f 秒\n", tB);
    printf("HugePage 顺序读: %.3f 秒\n", tC);
    return 0;
}

9.2 随机访问优化示例

// rnd_access_opt.c
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/stat.h>
#include <unistd.h>
#include <time.h>

#define PAGE_SIZE 4096

double time_rand_read(char *map, size_t size) {
    clock_t t0 = clock();
    volatile unsigned long sum = 0;
    int iters = 10000;
    for (int i = 0; i < iters; i++) {
        size_t offset = (rand() % (size / PAGE_SIZE)) * PAGE_SIZE;
        sum += map[offset];
    }
    (void)sum;
    return (clock() - t0) / (double)CLOCKS_PER_SEC;
}

int main() {
    srand(time(NULL));
    int fd = open("largefile.bin", O_RDONLY);
    struct stat st; fstat(fd, &st);
    size_t size = st.st_size;

    // A: 普通 mmap
    char *mapA = mmap(NULL, size, PROT_READ, MAP_SHARED, fd, 0);
    double tA = time_rand_read(mapA, size);
    munmap(mapA, size);

    // B: mmap + madvise(MADV_RANDOM)
    char *mapB = mmap(NULL, size, PROT_READ, MAP_SHARED, fd, 0);
    madvise(mapB, size, MADV_RANDOM);
    double tB = time_rand_read(mapB, size);
    munmap(mapB, size);

    // C: 大页映射
    size_t aligned = ((size + (2UL<<20) - 1) / (2UL<<20)) * (2UL<<20);
    char *mapC = mmap(NULL, aligned, PROT_READ, MAP_SHARED | MAP_HUGETLB | MAP_HUGE_2MB, fd, 0);
    double tC = time_rand_read(mapC, size);
    munmap(mapC, aligned);

    close(fd);
    printf("普通 mmap 随机读: %.3f 秒\n", tA);
    printf("MADV_RANDOM 随机读: %.3f 秒\n", tB);
    printf("HugePage 随机读: %.3f 秒\n", tC);
    return 0;
}