k8s集群下MySQL容器PVC存储迁移数据报错 InnoDB: Your database may be corrupt,解决方案‌

这篇文章距离上次修改已过413天，其中的内容可能已经有所变动。

以下内容将围绕在 Kubernetes 集群中，如何将 MySQL 容器所使用的 PVC（PersistentVolumeClaim）存储迁移到新卷时，遇到 InnoDB: Your database may be corrupt 错误的根本原因及详细解决方案展开讲解。文中包含完整的操作示例、必要的 ASCII 图解和详细说明，帮助你在实际场景中快速定位并解决该问题。

1. 背景与问题场景

在 k8s（Kubernetes）集群中，为了保证 MySQL 数据可以持久化，通常会为 MySQL Pod 绑定一个 PVC，背后对应一个 PV（通常是 NFS、Ceph、HostPath、云盘等存储）。当集群存储策略变更或需要扩展磁盘容量时，常见操作是：

停止原有 MySQL Pod
新建一个更大容量或不同类的 PVC
将旧 PVC 中的 MySQL 数据复制到新 PVC
使用新 PVC 启动一个新的 MySQL Pod

在执行第 3 步时，如果直接在宿主机或临时 Pod 中拷贝文件，有时会在启动新的 MySQL Pod 后看到错误日志：

InnoDB: Your database may be corrupt.
InnoDB: Cannot continue operation.
...

导致 MySQL 实例无法正常启动。究其原因，往往是由于 InnoDB 数据文件与 redo log 文件、或者文件权限/所属关系不一致，导致 InnoDB 检测到数据页校验失败（checksum mismatch）或日志文件与数据文件不匹配。

下面我们先通过 ASCII 图简单描述一遍正常 PVC 迁移过程，以及可能出现的流程疏漏。

+-----------------------+                   +-----------------------+
|   原 MySQL Pod A      |                   |  新 MySQL Pod B       |
|                       |                   |                       |
|  PVC_old (挂载 /var/lib/mysql)   |        |  PVC_new (挂载 /var/lib/mysql)   |
|                       |                   |                       |
+----------+------------+                   +-----------+-----------+
           |                                            ^
           |                                            |
           |  1. 停止 Pod A                              |
           v                                            |
+----------+-------------+                               |
| 临时搬迁 Pod C         |  2. 将 PVC_old 重新挂载到 Pod C | 
| (busybox 或 cp 镜像)   |------------------------------>| 
|    └── /mnt/old 数据   |                3. 复制数据     | 
+----------+-------------+                 (cp -a)       |
           |                                            |
           |                                            |
           |                                            |
           |  4. 扩容/新建 PVC_new                        |
           |                                            |
           |                                            |
           |  5. 将 PVC_new 挂载到 Pod C                  |
           |                                            |
           +--------------------------------------------+
                                 6. 拷贝完成

(注: 实际操作中可能先创建 PVC_new 再停止 Pod A，但原理一致)

在第 3 步“复制数据”时，如果未按 MySQL 要求正确关闭实例、移除 InnoDB 日志、保持文件权限一致等，就可能导致 InnoDB 文件头或校验和异常。

2. 问题原因分析

下面列举几种常见的 PVC 迁移后导致 InnoDB 报错的原因。

2.1 MySQL 未正常关闭导致数据页不一致

场景：如果在迁移前没有先优雅地关闭原 MySQL 实例（mysqladmin shutdown 或 kubectl scale --replicas=0 等），而是直接强制删除 Pod，可能会丢失 InnoDB Buffer Pool 中尚未写回磁盘的脏页。
后果：迁移后的数据目录（/var/lib/mysql）中，.ibd、ib_logfile0、ib_logfile1 等文件之间的 LSN（Log Sequence Number）不一致，导致 InnoDB 启动时检测到“数据未得到完整提交”，从而报出“Your database may be corrupt”。

2.2 拷贝方式不当导致权限或文件损坏

场景：使用 cp 或 rsync 时，若忽略了保留文件的所属用户/权限/SELinux 标识，则新 PVC 上的文件可能被 root\:root 所有，但 MySQL Docker 容器内一般以 mysql:mysql 用户身份运行。
后果：启动时 InnoDB 无法正确读取或写入某些文件，导致错误，或者虽然能读取，但读到的元数据与文件系统权限不一致，InnoDB 校验失败。

2.3 新旧 InnoDB 配置不一致

场景：原 MySQL 实例可能使用了自定义的 innodb_log_file_size、innodb_page_size、innodb_flush_method 等配置。如果在新 Pod 对应的 my.cnf 中，这些参数与旧 Pod 不一致，InnoDB 会尝试重新创建 redo log 或按新参数读取，而旧数据文件不匹配新配置。
后果：启动时 InnoDB 检测到文件 HEADER 校验出错，提示数据库可能损坏。

2.4 直接拷贝 InnoDB redo log 文件引发冲突

场景：在某些文档里，为了加速迁移，会直接把 ib_logfile0、ib_logfile1 一并复制。但如果复制的时机不对（如 MySQL 正在写日志），则新实例启动时会检测到 redo log 里有“脏”入队，而数据文件页还未与之对应，触发错误。
后果：InnoDB 会在启动时尝试 crash recovery，若日志与数据页仍然不一致，最终无法恢复，报“Your database may be corrupt”。

3. 迁移前准备：优雅退出与配置快照

为了最大程度减少 InnoDB 数据损坏风险，建议在迁移操作前做好以下两步：

优雅关闭原 MySQL 实例
备份并记录 InnoDB 相关配置

3.1 优雅关闭原 MySQL 实例

在 k8s 中，如果 MySQL 是通过 Deployment/StatefulSet 管理的，先 scale replicas 至 0，或者直接执行 kubectl delete pod 时携带 --grace-period，保证容器里执行 mysqld 收到 TERM 信号后能正常关闭。

以 Deployment 为例，假设 MySQL Deployment 名称为 mysql-deploy：

# 先 scale 到 0，触发 Pod 优雅退出
kubectl scale deployment mysql-deploy --replicas=0

# 等待 Pod Terminate 完成，确认 mysql 进程已正常退出
kubectl get pods -l app=mysql

也可直接拿 Pod 名称优雅删除：

kubectl delete pod mysql-deploy-0 --grace-period=30 --timeout=60s

注意：如果使用 StatefulSet，Pod 名称一般带序号，比如 mysql-0。等 Pod 终止后，确认旧 PVC 仍然保留。

3.2 记录 InnoDB 相关配置

登录到旧 MySQL Pod 中，查看 my.cnf（通常在 /etc/mysql/conf.d/ 或 /etc/my.cnf）的 InnoDB 配置，比如：

[mysqld]
innodb_buffer_pool_size = 2G
innodb_log_file_size   = 512M
innodb_log_files_in_group = 2
innodb_flush_method    = O_DIRECT
innodb_page_size       = 16K
innodb_file_per_table  = ON

将这些配置参数保存在本地，以便在新 Pod 使用同样的配置，确保 InnoDB 启动时的预期与旧实例一致。若直接使用官方镜像的默认参数，也要注意两者是否匹配。

4. 数据迁移示例步骤

下面示例以以下环境为例：

k8s 集群
原 PVC 名为 mysql-pvc-old，挂载到旧 MySQL Pod 的 /var/lib/mysql
新 PVC 名为 mysql-pvc-new，通过 StorageClass 动态申请，大小大于旧 PVC
数据目录为 /var/lib/mysql
我们使用临时搬迁 Pod（基于 BusyBox 或者带 rsync 的轻量镜像）来完成复制

4.1 创建新 PVC（示例：扩容从 10Gi 到 20Gi）

根据实际 StorageClass 支持情况，可以使用以下 YAML 新建一个 20Gi 的 PVC：

# mysql-pvc-new.yaml
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: mysql-pvc-new
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 20Gi
  storageClassName: standard  # 根据集群实际情况填写

kubectl apply -f mysql-pvc-new.yaml

等待新 PVC 被动态绑定到 PV：

kubectl get pvc mysql-pvc-new
# 确认 STATUS 为 Bound

4.2 将原 PVC 与新 PVC 同时挂载到临时搬迁 Pod

下面示例使用带 rsync 的镜像（如 alpine + rsync 工具），因为 rsync 可以保留权限并增量复制。也可使用 busybox 的 cp -a，但注意严格保留所有属性。

# pvc-migration-pod.yaml
apiVersion: v1
kind: Pod
metadata:
  name: mysql-pvc-migration
spec:
  restartPolicy: Never
  containers:
    - name: migrator
      image: alpine:3.16
      command: ["/bin/sh", "-c", "sleep 3600"]  # 睡 1 小时，手动进入执行复制
      volumeMounts:
        - name: pvc-old
          mountPath: /mnt/old
        - name: pvc-new
          mountPath: /mnt/new
  volumes:
    - name: pvc-old
      persistentVolumeClaim:
        claimName: mysql-pvc-old
    - name: pvc-new
      persistentVolumeClaim:
        claimName: mysql-pvc-new

kubectl apply -f pvc-migration-pod.yaml
kubectl wait --for=condition=Ready pod/mysql-pvc-migration --timeout=60s

此时临时 Pod 已经启动，可以通过 kubectl exec 进入 Pod 进行数据复制。

4.3 在迁移 Pod 中执行数据复制

4.3.1 安装 rsync（如果镜像不自带）

进入 Pod：

kubectl exec -it mysql-pvc-migration -- /bin/sh
# 安装 rsync
apk update
apk add rsync

4.3.2 停止旧 PVC 上的 MySQL（这里已在第 3.1 步完成）

确认旧 PVC 上没有任何 MySQL 进程在运行：

ls /mnt/old
# 应该可以看到 MySQL 文件，例如 ibdata1、ib_logfile0、ib_logfile1、文件夹 mysql、db 数据目录等

4.3.3 执行 rsync 完整复制（保留属性）

# 复制所有文件并保留权限、所有者、时间戳
rsync -aHAX --numeric-ids /mnt/old/ /mnt/new/
# 参数说明：
#  -a : archive 模式（等价于 -rlptgoD，保留软链、权限、所有者、组、时间、设备、特殊文件）
#  -H : 保留硬链接
#  -A : 保留 ACL
#  -X : 保留扩展属性（xattr）
#  --numeric-ids : 保持 UID/GID 数字值，而不做名字解析

如果不需要保留 ACL、xattr，也可以使用：

rsync -a --numeric-ids /mnt/old/ /mnt/new/

或者如果只打算使用 cp：

cp -a /mnt/old/. /mnt/new/

注意：拷贝时路径最后带斜杠 old/ 表示“复制旧目录下的所有文件到 new”，确保不会让多一层目录。

4.3.4 校验新 PVC 的文件列表

ls -l /mnt/new
# 应能看到与 /mnt/old 一模一样的文件权限与所有者
# 推荐：ls -laR /mnt/new | md5sum 与 /mnt/old 做比对，确保复制无误

检查 InnoDB 相关文件：

ls -lh /mnt/new/ibdata1 /mnt/new/ib_logfile0 /mnt/new/ib_logfile1

确保大小与旧数据目录一致，且所有者 UID\:GID 应保持与旧目录相同（默认情况下 MySQL 容器内运行用户一般是 mysql\:mysql，数字可能是 999:999 或 27:27，具体取决于镜像）。

复制完成后，退出 Pod：

exit

4.4 删除旧 MySQL Deployment，使用新 PVC 启动 MySQL

先删除旧的 MySQL Deployment/StatefulSet，但不删除 PVC\_old：

kubectl delete deployment mysql-deploy
# 或者 kubectl delete statefulset mysql

确保新 PVC 已经有完整的数据。接下来修改 MySQL Deployment 的 YAML，将原来指向 mysql-pvc-old 的 persistentVolumeClaim.claimName 更换为 mysql-pvc-new，例如：

# mysql-deploy-new.yaml（简化示例）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: mysql-deploy
spec:
  replicas: 1
  selector:
    matchLabels:
      app: mysql
  template:
    metadata:
      labels:
        app: mysql
    spec:
      containers:
        - name: mysql
          image: mysql:8.0
          env:
            - name: MYSQL_ROOT_PASSWORD
              valueFrom:
                secretKeyRef:
                  name: mysql-secret
                  key: root-password
          ports:
            - containerPort: 3306
          volumeMounts:
            - name: mysql-data
              mountPath: /var/lib/mysql
      volumes:
        - name: mysql-data
          persistentVolumeClaim:
            claimName: mysql-pvc-new    # 这里指向新的 PVC

kubectl apply -f mysql-deploy-new.yaml
kubectl rollout status deployment/mysql-deploy --timeout=120s

此时如果一切顺利，新的 MySQL Pod 会因为数据目录已经包含合法的数据文件而直接启动；但如果出现类似下面的报错，则说明 InnoDB 文件之间存在不一致：

2023-10-10T08:30:21.123456Z 0 [ERROR] InnoDB: Files are hidden due to a crash recovery error.
2023-10-10T08:30:21.123456Z 0 [ERROR] InnoDB: Your database may be corrupt.
InnoDB: Cannot continue operation.

下面集中讲解如何针对该报错进行排查与解决。

5. 常见报错汇总及含义

在启动 MySQL Pod 时，经常会看到以下几类 InnoDB 报错。这里先列举常见错误信息，并做简要说明：

InnoDB: The database may be corrupt or 
InnoDB: ibdata files might be missing.

含义： InnoDB 在打开数据字典或表空间时，发现某些文件与预期不符，可能是丢失或损坏。

InnoDB: Operating system error number 13 in a file operation.
InnoDB: The error means mysqld does not have the access privileges to

含义：文件权限问题，MySQL 进程没有足够权限读写 ibdata/ib\_logfile 或某个 .ibd 文件。

InnoDB: Unable to lock ./ib_logfile0, error: 11

含义：已有另一个 MySQL 进程正在占用该 redo log 文件，或者文件权限/属主不正确，导致 InnoDB 无法获取文件锁。

InnoDB: Invalid page size 16384; Page size must be between 512 and 16384, and a power of 2

含义：InnoDB 数据文件的 page size 与当前配置（innodb_page_size）不一致。若原实例是 16K，而新配置写成 8K，就会提示无效。

InnoDB: Error: log file ./ib_logfile0 is of different size 536870912 bytes.
InnoDB: Wanted 134217728 bytes!

含义：InnoDB redo log 文件大小与当前配置 innodb_log_file_size 不匹配。旧文件为 512M，而新容器配置中 innodb_log_file_size 是 128M。

针对这些不同错误，需要有针对性地进行处理。以下是几种典型的解决思路。

6. 解决方案详解

6.1 确认文件权限与所属关系

6.1.1 问题描述

在临时搬迁 Pod 中，如果使用 cp 或 rsync 时，没有加 --numeric-ids 或未保留原有文件属主，导致 /var/lib/mysql 下的所有文件都变成 root:root。而 MySQL 容器内默认运行用户是 mysql:mysql（UID、GID 可能为 999:999 或 27:27），无法读写这些文件。

6.1.2 排查步骤

进入新 MySQL Pod：

kubectl exec -it mysql-deploy-xxxxx -- /bin/sh
# 检查文件权限
ls -l /var/lib/mysql

若看到类似：

-rw-r--r-- 1 root root    56 Oct 10 00:00 auto.cnf
-rw-r--r-- 1 root root  524288 Oct 10 00:00 ib_logfile0
-rw-r--r-- 1 root root  524288 Oct 10 00:00 ib_logfile1
drwxr-xr-x 2 root root    28 Oct 10 00:00 mysql
...

说明文件属主是 root:root。此时 InnoDB 启动时会报错，如：

InnoDB: Operating system error number 13 in a file operation.
InnoDB: The error means mysqld does not have the access privileges to

6.1.3 解决方式

修改文件属主为 mysql\:mysql
退出 MySQL Pod，如果无法进入 MySQL Pod（因为未启动），可以重用临时搬迁 Pod，手动修改新 PVC 中的权限。也可以创建一个新的临时 Pod 仅挂载新 PVC，然后修改权限：

kubectl run -i -t fix-perms --image=alpine --restart=Never -- /bin/sh
# 在 Pod 内安装工具
apk update && apk add bash
# 挂载 pvc-new 到 /mnt/new
# 这里假设我们用下面方式在 Pod spec 中临时挂载：
#
# kubectl run fix-perms --image=alpine --restart=Never --overrides='
# {
#   "apiVersion": "v1",
#   "kind": "Pod",
#   "metadata": { "name": "fix-perms" },
#   "spec": {
#     "containers": [
#       {
#         "name": "fix",
#         "image": "alpine",
#         "command": ["sh", "-c", "sleep 3600"],
#         "volumeMounts": [
#           { "name": "mysql-data", "mountPath": "/mnt/new" }
#         ]
#       }
#     ],
#     "volumes": [
#       {
#         "name": "mysql-data",
#         "persistentVolumeClaim": { "claimName": "mysql-pvc-new" }
#       }
#     ]
#   }
# }' -- /bin/sh

# 然后在 Pod 中：
ls -l /mnt/new
chown -R 999:999 /mnt/new
# 或者显式 chown mysql:mysql
# exit 完成后删除 fix pod

提示：可以先 ls -n /mnt/new 查看 UID\:GID，再决定 chown 对象；MySQL Docker 镜像内 mysql 用户的 UID\:GID 可通过查看 /etc/passwd 得到。

确认 SELinux/AppArmor（若启用）
如果集群节点开启了 SELinux 或者 Pod 使用了 AppArmor 约束，需要确认 /var/lib/mysql 的上下文或 AppArmor Profile 允许 MySQL 读写：
```
# 查看 SELinux 上下文（仅在节点上操作）
ls -Z /path/to/pv-mount
# 确保类型是 mysqld_db_t 或类似
```
若不一致，可以在 Node 上用 chcon -R -t mysqld_db_t /path/to/pv-mount 纠正；或在 Pod spec 中关闭 AppArmor。

完成权限修复后，重新启动 MySQL Pod，若没有其他问题，可正常启动。

6.2 删除旧 InnoDB redo log 并让 MySQL 重建

适用场景：确认数据文件没有损坏，只是 redo log 文件与数据页 LSN 不匹配导致 InnoDB 拒绝启动。

6.2.1 问题定位

在 MySQL Pod 日志中，若看到类似：

2023-10-10T08:30:21.123456Z 0 [ERROR] InnoDB: Error: log file ./ib_logfile0 is of different size 536870912 bytes. Wanted 134217728 bytes!

或者

InnoDB: Waiting for the background threads to start
InnoDB: 1 log i/o threads started
InnoDB: Error: Old database or redo log files are present:
InnoDB: ./ibdata1 file is from version 4.0,
InnoDB: but ininnodb_sys_tablespaces is from version 5.7

这类错误表明，旧的 ib_logfile0/ib_logfile1 与当前 MySQL 配置中定义的 innodb_log_file_size 或 InnoDB 版本不符。

6.2.2 解决步骤

停止 MySQL（Pod）
在新 PVC 上删除 InnoDB redo log 文件
如果确认数据文件完好，只需要让 MySQL 在下次启动时重建 redo log 文件。本质上是删除 /var/lib/mysql/ib_logfile*：
```
kubectl exec -it mysql-pod -- /bin/sh
cd /var/lib/mysql
ls -lh ib_logfile0 ib_logfile1
rm -f ib_logfile0 ib_logfile1
exit
```
注意：如果只删除 redo log，而保留 ibdata1 和 *.ibd，MySQL 会在启动时参照当前 innodb_log_file_size 重新创建新的日志文件，并在恢复流程中将脏页刷回。不过，这一步务必在确认没有数据页未写入的情况下操作（即旧实例已优雅关闭）。
检查并确保 innodb_log_file_size 与旧值一致
如果你想避免重新创建日志，可以先从旧实例的 my.cnf 中读取 innodb_log_file_size，在新 Pod my.cnf 中设置相同的值，这样即使拷贝了旧日志文件，也不会报“不同大小”的错误。

启动 MySQL Pod

kubectl rollout restart deployment/mysql-deploy
kubectl logs -f pod/mysql-deploy-xxxxx

如果日志中出现：

2023-10-10T08:35:00.123456Z 0 [Note] InnoDB: New log files created, LSN=4570

表示已成功重建 redo log，数据目录完整，MySQL 启动正常。

6.2.3 ASCII 图解：redo log 重建流程

+-----------------------------+
| 迁移前 MySQL 目录 (ibdata1, |
| ib_logfile0 (512M),         |
| ib_logfile1 (512M), *.ibd)  |
+-------------+---------------+
              |
              | 1. 复制到新 PVC
              v
+-----------------------------+
| 新 PVC 数据目录             |
| (ibdata1, ib_logfile0,      |
|  ib_logfile1, *.ibd)        |
+-------------+---------------+
              |
              | 2. 在新 Pod 中删除 ib_logfile*
              v
+-----------------------------+
| 新 PVC 数据目录             |
| (ibdata1, *.ibd)            |
+-------------+---------------+
              |
              | 3. 启动 MySQL，因 ib_logfile* 不存在
              |    MySQL 按 innodb_log_file_size 重建 redo log
              v
+-----------------------------+
| MySQL 完整数据目录          |
| (ibdata1, ib_logfile0 (128M), |
|  ib_logfile1 (128M), *.ibd)  |
+-----------------------------+

关键：第二步删除 redo log 后，MySQL 根据当前配置（innodb_log_file_size）重新创建新的日志文件，从而避免了大小不匹配导致的“database may be corrupt”。

6.3 对比并统一 InnoDB 配置

6.3.1 典型错误

InnoDB: Invalid page size 16384; Page size must be between 512 and 32768, and a power of 2

或

InnoDB: Trying to access pageNo 0 data at offset 0, but offset is outside of the tablespace!

这类错误多半是数据文件使用了不同的 innodb_page_size。例如：旧实例在编译时使用的是 16KB 页面（MySQL 默认），而新镜像定制为 8KB 页面。

6.3.2 解决方法

检查旧实例的 page size
在旧实例中执行：
```
SHOW VARIABLES LIKE 'innodb_page_size';
```
记下其值（一般是 16384）。
在新 Pod 配置相同的值
在新 MySQL Deployment 的 ConfigMap 或 my.cnf 中加入：
```
[mysqld]
innodb_page_size = 16384
```
这确保启动时 InnoDB 以相同页大小读取 .ibd 和 ibdata1。
删除 redo log 并重建（可选）
如前述，如果日志文件与新配置有冲突，先删除 ib_logfile*，让 MySQL 重新生成。
如果上一步只是修改了 page size，那么通常需删除 redo log 强制重启，因为 InnoDB 会在打开数据文件时检查 page header 信息，一旦与配置不符就会拒绝启动。

6.4 Backup & Restore 方案：物理复制 vs 逻辑导出

如果上述“直接拷贝数据目录后重建 redo log”仍然失败，最保险的做法是 使用备份和恢复，将数据从旧 PVC 导出，再在新 PVC 上导入，避免费时排查 InnoDB 直接文件拷贝的复杂性。

6.4.1 物理备份（XtraBackup）示例

在旧 MySQL Pod 中使用 Percona XtraBackup

# 进入旧 Pod
kubectl exec -it mysql-old-pod -- /bin/sh
# 安装 xtrabackup（如果镜像支持），或使用独立备份容器挂载 PVC_old
xtrabackup --backup --target-dir=/backup/$(date +%Y%m%d_%H%M%S)
xtrabackup --prepare --target-dir=/backup/备份目录

将准备好的物理备份目录复制到新 PVC
同样使用 rsync 或 cp -a，保证文件属性一致。
在新 PVC 上启动 MySQL
复制完成后，新 Pod 直接挂载，MySQL 会识别 InnoDB 数据文件及 redo log，一般能够顺利启动。

6.4.2 逻辑备份（mysqldump）示例

在旧 MySQL Pod 中导出所有数据库

kubectl exec -it mysql-old-pod -- /bin/sh
mysqldump -u root -p --all-databases --single-transaction > /backup/all.sql

将 SQL 文件复制到本地/新 PVC

kubectl cp mysql-old-pod:/backup/all.sql ./all.sql
kubectl cp ./all.sql mysql-new-pod:/backup/all.sql

在新 MySQL Pod 中导入

kubectl exec -it mysql-new-pod -- /bin/sh
mysql -u root -p < /backup/all.sql

逻辑备份优点是避开了 InnoDB 物理页的一切兼容性问题，但缺点是导出与导入耗时较长，适用于数据量中小或可接受停机的场景。

7. 核心流程与最佳实践小结

经过上述详解，推荐在 k8s 下进行 MySQL PVC 迁移时，遵循以下核心流程与注意事项，以最大限度避免 InnoDB 报错。

预先记录并保持 InnoDB 配置一致
- 读出旧实例 innodb_page_size、innodb_log_file_size、innodb_flush_method 等，记录至本地。
优雅关闭旧 MySQL 实例
- 使用 kubectl scale 或 delete --grace-period 等方式，确保 InnoDB 完成所有脏页落盘。
创建新 PVC 并挂载旧 PVC 到临时 Pod
- 确保在迁移前，旧 PVC 数据目录已不被任何 MySQL 进程占用。
- 使用 rsync -aHAX —numeric-ids 或 cp -a，保留文件属主与元数据信息，避免权限问题。
根据需要删除旧 redo log 或统一配置
- 如果旧实例和新实例的 innodb_log_file_size 不一致，建议在新 PVC 上删除 ib_logfile*，让 MySQL 重新创建。
- 如果页面大小不一致，则需在新 Pod 中修改 my.cnf 以匹配旧值，或者使用备份/恢复。
检查新 PVC 文件属主与权限
- 确保 /var/lib/mysql 下所有文件读写属主均为 MySQL 运行用户（如 mysql:mysql，UID\:GID 一致），无额外 root\:root。
- 在 k8s 中可手动创建临时 Pod 进行 chown -R 操作。
启动新 MySQL Pod 并观察日志
- 如果出现 InnoDB 校验或 crash recovery 错误，先按日志提示逐项排查：
  - 如果提示文件大小不匹配，回到步骤 4 重新调整。
  - 如果提示权限问题，回到步骤 5。
  - 如果提示“Your database may be corrupt”但你已经确保所有文件正确，一般是 redo log 与数据不一致，删除 redo log 重新启动。
验证数据完整性
- 登录新实例后，执行 CHECK TABLE 或对关键表进行简单的 SELECT COUNT(*) 等操作，确保数据无误。
清理临时资源
- 删除临时搬迁 Pod、备份目录、无用 PVC（如已无需回滚可以删除 mysql-pvc-old）等。

8. 附：完整示例脚本汇总

为了方便快速复现与修改，下面提供一个基于 Bash 的流程脚本示例，仅作参考。请根据自身 k8s 环境、命名空间、StorageClass 等实际情况做相应调整。

#!/bin/bash
# filename: mysql_pvc_migration.sh
# 说明：将 mysql-pvc-old 数据迁移到 mysql-pvc-new，并处理 InnoDB 相关问题

set -e

NAMESPACE="default"
OLD_PVC="mysql-pvc-old"
NEW_PVC="mysql-pvc-new"
STORAGE_CLASS="standard"
NEW_SIZE="20Gi"
TEMP_POD="mysql-pvc-migration"
MYSQL_DEPLOY="mysql-deploy"
MYSQL_IMAGE="mysql:8.0"
MYSQL_ROOT_PASSWORD="your_root_pwd"   # 也可以从 Secret 中读取
MYCNF_CONFIGMAP="mysql-config"       # 假设已包含正确的 InnoDB 配置

echo "1. 创建新 PVC"
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: ${NEW_PVC}
  namespace: ${NAMESPACE}
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: ${NEW_SIZE}
  storageClassName: ${STORAGE_CLASS}
EOF

kubectl -n ${NAMESPACE} wait --for=condition=Bound pvc/${NEW_PVC} --timeout=60s

echo "2. 启动临时 Pod 同时挂载 OLD 与 NEW PVC"
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: Pod
metadata:
  name: ${TEMP_POD}
  namespace: ${NAMESPACE}
spec:
  restartPolicy: Never
  containers:
    - name: migrator
      image: alpine:3.16
      command: ["/bin/sh", "-c", "sleep 3600"]
      volumeMounts:
        - name: pvc-old
          mountPath: /mnt/old
        - name: pvc-new
          mountPath: /mnt/new
  volumes:
    - name: pvc-old
      persistentVolumeClaim:
        claimName: ${OLD_PVC}
    - name: pvc-new
      persistentVolumeClaim:
        claimName: ${NEW_PVC}
EOF

kubectl -n ${NAMESPACE} wait --for=condition=Ready pod/${TEMP_POD} --timeout=60s

echo "3. 进入临时 Pod，安装 rsync 并复制数据"
kubectl -n ${NAMESPACE} exec -it ${TEMP_POD} -- /bin/sh <<'EOF'
apk update && apk add rsync
echo "开始复制数据..."
rsync -aHAX --numeric-ids /mnt/old/ /mnt/new/
echo "复制完成，校验文件权限并修改所属..."
# 假设 mysql 用户 UID:GID 为 999:999，实际情况可先 ls -n 查看
chown -R 999:999 /mnt/new
exit
EOF

echo "4. 删除临时 Pod"
kubectl -n ${NAMESPACE} delete pod ${TEMP_POD}

echo "5. 删除旧 MySQL Deployment/StatefulSet（谨慎）"
kubectl -n ${NAMESPACE} delete deployment ${MYSQL_DEPLOY} || true
# 或者 kubectl delete statefulset mysql

echo "6. 部署新 MySQL，挂载 NEW PVC"
cat <<EOF | kubectl apply -f -
apiVersion: apps/v1
kind: Deployment
metadata:
  name: ${MYSQL_DEPLOY}
  namespace: ${NAMESPACE}
spec:
  replicas: 1
  selector:
    matchLabels:
      app: mysql
  template:
    metadata:
      labels:
        app: mysql
    spec:
      containers:
        - name: mysql
          image: ${MYSQL_IMAGE}
          env:
            - name: MYSQL_ROOT_PASSWORD
              value: ${MYSQL_ROOT_PASSWORD}
          volumeMounts:
            - name: mysql-data
              mountPath: /var/lib/mysql
          ports:
            - containerPort: 3306
          envFrom:
            - configMapRef:
                name: ${MYCNF_CONFIGMAP}
      volumes:
        - name: mysql-data
          persistentVolumeClaim:
            claimName: ${NEW_PVC}
EOF

echo "等待 MySQL Pod 就绪并检查日志，如遇 InnoDB 错误可参考后续手动修复"
kubectl -n ${NAMESPACE} rollout status deployment/${MYSQL_DEPLOY} --timeout=120s

如果在最后一步看到 InnoDB 报错，可进入 Pod 查看日志：

kubectl -n ${NAMESPACE} logs -f pod/$(kubectl -n ${NAMESPACE} get pod -l app=mysql -o jsonpath="{.items[0].metadata.name}")

如出现与 redo log 或 page size 相关的错误，可按上文第 6.2 或 6.3 节中描述进行手动修复。

9. 总结与思考

通过本文，你学习了在 Kubernetes 集群下将 MySQL 容器的 PVC 存储迁移到新 PVC 时，可能遇到的 InnoDB “Your database may be corrupt” 错误的根本原因与逐步排查方法，主要包括：

MySQL 未优雅关闭导致脏页丢失
文件权限或属主不一致
Redo log 大小与配置不匹配
InnoDB page size 或版本不一致
直接复制数据时忽略了 xattr/ACL，导致 InnoDB 校验失败

针对不同原因，分别介绍了保留文件属性的 rsync -aHAX --numeric-ids 复制、删除旧 redo log 让 InnoDB 重生、以及调整 my.cnf 中 InnoDB 参数等解决方案。同时也提供了物理/逻辑备份恢复的思路，以备在文件复制不可行时使用。

最佳实践小结

优雅停服：迁移前，务必确保旧 MySQL 实例已经完整关闭，减少脏页遗留。
保留文件属性：使用 rsync 或 cp -a 时，需保留文件的属主、权限、ACL、xattr，避免 InnoDB 报错。
一致性配置：新实例的 my.cnf 中应与旧实例保持 InnoDB 相关参数一致，否则可能触发文件不兼容。
删除 redo log：如果日志与数据不匹配，可删除重建；但要确保所有数据页已写回磁盘。
备份恢复：在复杂或数据量较大场景，可优先考虑 XtraBackup 或 mysqldump 进行备份+还原，绕开物理复制的风险。
权限校验：在 k8s 环境下，PVC 对应的挂载目录需要调整属主 UID\:GID，否则 MySQL 容器无法正确访问。

只要遵循以上流程与要点，就能在 k8s 集群中平滑地将 MySQL 容器 PVC 迁移到新卷，并有效避免 InnoDB 报错导致的服务宕机。