前一阵子因为异常断电导致 FS 集群服务异常,最后也没能恢复,特此做下测试避免问题再次发生。
突然断电或者未保存状态关闭服务直接关机,都可能会导致一系列不一样的问题,这些问题一般都是因为当前机器在内存中缓存的数据没有及时同步或保存导致重启后数据恢复异常。对于 FS 服务而言,最明显的就是元数据和日志这两部分数据。这里先以元数据为主来进行下测试,后面有时间再总结和思考下其他的。
下面测试主要参考链接 1 和链接 2,有些命令实际测试是错误的,这里也做了改正,确保是可执行的。

Main

在执行以下测试下确保当前集群状态是正常的,data 中 pgs 处于 active+clean 状态,并且文件系统运行运行正常,挂载的文件系统内文件写入读取正常。由于是测试,里面只存放了一些无用的文件来占用空间。

1. 模拟故障

首先运行命令删除所有元数据,这里纠正参考链接 1 中的错误,正确命令如下

1
for i in `rados -p cephfs_metadata ls`;do rados -p cephfs_metadata rm $i; done

执行结束后再运行rados -p cephfs_metadata ls 应该没有打印信息。
运行命令查看 fs 当前状态如下

1
2
3
4
5
6
7
8
9
root@storage0:/# ceph fs status
cephfs - 0 clients
======
RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS
0 failed
POOL TYPE USED AVAIL
cephfs_metadata metadata 0 12.2T
cephfs_data data 8299M 12.2T
cephfs_recovery - 0 clients

看到 metadata 部分 USED 大小为 0,说明元数据已经全部丢失了。
此时运行 ceph -s 发现集群状态并没有马上发生改变,只用当 mds service 停止一个或者 fs fail 时,状态才会发生改变。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
root@storage0:/# ceph fs fail cephfs
cephfs marked not joinable; MDS cannot join the cluster. All MDS ranks marked failed.
root@storage0:/# ceph -s
cluster:
id: a8acabb2-9026-11ee-89dc-31e191538d59
health: HEALTH_ERR
1 filesystem is degraded
1 filesystem is offline
Degraded data redundancy: 12/2119 objects degraded (0.566%), 12 pgs degraded, 245 pgs undersized
12 mgr modules have recently crashed

services:
mon: 2 daemons, quorum storage0,storage1 (age 4d)
mgr: storage0.dnytub(active, since 3d), standbys: storage1.xbibel
mds: 1/2 daemons up (1 failed), 1 standby
osd: 10 osds: 10 up (since 4d), 10 in (since 4d); 11 remapped pgs

data:
volumes: 1/2 healthy, 1 failed
pools: 4 pools, 305 pgs
objects: 1.05k objects, 4.1 GiB
usage: 8.5 GiB used, 26 TiB / 26 TiB avail
pgs: 12/2119 objects degraded (0.566%)
1/2119 objects misplaced (0.047%)
233 active+undersized
49 active+clean
12 active+undersized+degraded
11 active+clean+remapped

progress:
Global Recovery Event (14m)
[=====.......................] (remaining: 60m)

运行命令查看 mds 当前状态也发生了变化(这里和之前不一样,之前异常 mds 一直处于 replaying 状态,而这里并没有,说明这里 journal 并没有发生异常)

1
2
root@storage0:/home/admin# ceph mds stat
cephfs:0/1 2 up:standby, 1 damaged

下一步将尝试进行恢复,在已有数据池没有问题的情况下。

2. 创建备份文件系统

这里的目的是从 data pool 中恢复一个可用的备份文件系统,两个 FS 只有 Metadata pool 是不相同的。

首先将现有的文件系统停止,避免过程中对数据池发生进一步改写。

1
2
3
4
root@storage0:/home/admin# ceph fs ls
name: cephfs, metadata pool: cephfs_metadata, data pools: [cephfs_data ]
root@storage0:/home/admin# ceph fs fail cephfs
cephfs marked not joinable; MDS cannot join the cluster. All MDS ranks marked failed.

接下来创建一个恢复文件系统,其中元数据是新建的用来存储恢复的元数据,数据池仍然是原有的数据池。

1
2
3
4
5
6
7
root@storage0:/home/admin# ceph osd pool create cephfs_recovery_meta 256
pool 'cephfs_recovery_meta' created
root@storage0:/home/admin# ceph fs new cephfs_recovery cephfs_recovery_meta cephfs_data --recover --allow-dangerous-metadata-overlay
Pool 'cephfs_data' (id '1') has pg autoscale mode 'on' but is not marked as bulk.
Consider setting the flag by running
# ceph osd pool set cephfs_data bulk true
new fs with metadata pool 3 and data pool 1

此时运行命令可以看到两个 fs 的状态

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
root@storage0:/# ceph fs status
cephfs - 0 clients
======
RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS
0 failed
POOL TYPE USED AVAIL
cephfs_metadata metadata 0 12.2T
cephfs_data data 8299M 12.2T
cephfs_recovery - 0 clients
===============
RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS
0 active cephfs.storage0.dkvwoh Reqs: 0 /s 11 14 12 0
POOL TYPE USED AVAIL
cephfs_recovery_meta metadata 96.0k 11.8T
cephfs_data data 8299M 12.2T
STANDBY MDS
cephfs.storage1.qcyalm
MDS version: ceph version 18.2.0 (5dd24139a1eada541a3bc16b6941c5dde975e26d) reef (stable)

3. 恢复原 FS

首先确保整个过程文件系统处于关闭状态

1
2
3
4
root@storage0:/# ceph fs fail cephfs
cephfs marked not joinable; MDS cannot join the cluster. All MDS ranks marked failed.
root@storage0:/# ceph fs set cephfs joinable false
cephfs marked not joinable; MDS cannot join as newly active.

接下来对 MDS 创建的初始元数据进行重置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
root@storage0:/# cephfs-table-tool cephfs:0 reset session
{
"0": {
"data": {},
"result": 0
}
}

root@storage0:/# cephfs-table-tool cephfs:0 reset snap
{
"result": 0
}

root@storage0:/# cephfs-table-tool cephfs:0 reset inode
{
"0": {
"data": {},
"result": 0
}
}
root@storage0:/# cephfs-journal-tool --rank cephfs:0 journal reset --force
writing EResetJournal entry

利用数据池和已经创建好的 recovery fs 来恢复元数据池

1
2
3
4
root@storage0:/# cephfs-data-scan init --force-init --filesystem cephfs --alternate-pool cephfs_metadata
root@storage0:/# cephfs-data-scan scan_extents --alternate-pool cephfs_metadata --filesystem cephfs_recovery cephfs_data
root@storage0:/# cephfs-data-scan scan_inodes --alternate-pool cephfs_metadata --filesystem cephfs_recovery --force-corrupt cephfs_data
root@storage0:/# cephfs-data-scan scan_links --filesystem cephfs

现在允许 MDS 加入 recovery_fs 集群,并运行前向清除以修复统计信息,确保有一个 MDS 正在运行

1
2
3
4
5
6
7
8
9
10
root@storage0:/# ceph fs set cephfs joinable true
cephfs marked joinable; MDS may join as newly active.
root@storage0:/# ceph tell mds.0 scrub start / recursive repair
2023-12-07T01:14:44.711+0000 7f9631ffb700 0 client.17146 ms_handle_reset on v2:10.0.1.3:6848/641236932
2023-12-07T01:14:44.751+0000 7f9631ffb700 0 client.17150 ms_handle_reset on v2:10.0.1.3:6848/641236932
{
"return_code": 0,
"scrub_tag": "ae8e7687-5bb6-40a6-b999-dbf1b6d88f84",
"mode": "asynchronous"
}

此时再看集群状态发现原集群状态已经恢复

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
root@storage0:/# ceph fs status
cephfs - 1 clients
======
RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS
0 active cephfs.flexbj-storage1.qcyalm Reqs: 0 /s 12 15 13 1
POOL TYPE USED AVAIL
cephfs_metadata metadata 112k 12.2T
cephfs_data data 8299M 12.2T
STANDBY MDS
===============
RANK STATE MDS ACTIVITY DNS INOS DIRS CAPS
0 active cephfs.storage0.dkvwoh Reqs: 0 /s 11 14 12 0
POOL TYPE USED AVAIL
cephfs_recovery_meta metadata 96.0k 11.8T
cephfs_data data 8299M 12.2T
MDS version: ceph version 18.2.0 (5dd24139a1eada541a3bc16b6941c5dde975e26d) reef (stable)

4. 删除备份 FS

运行如下命令进行删除即可

1
2
3
4
5
root@storage0:/# ceph fs fail cephfs_recovery
cephfs_recovery marked not joinable; MDS cannot join the cluster. All MDS ranks marked failed.
root@storage0:/# ceph fs rm cephfs_recovery --yes-i-really-mean-it
root@storage0:/# ceph osd pool rm cephfs_recovery_meta cephfs_recovery_meta --yes-i-really-really-mean-it
pool 'cephfs_recovery_meta' removed

此时查看集群状态发现仍然有 Recovery Process 在执行,这里不是很理解。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
root@storage0:/# ceph -s
cluster:
id: a8acabb2-9026-11ee-89dc-31e191538d59
health: HEALTH_WARN
12 mgr modules have recently crashed

services:
mon: 2 daemons, quorum storage0,storage1 (age 4d)
mgr: storage0.dnytub(active, since 3d), standbys: storage1.xbibel
mds: 1/1 daemons up, 1 standby
osd: 10 osds: 10 up (since 4d), 10 in (since 4d)

data:
volumes: 1/1 healthy
pools: 3 pools, 49 pgs
objects: 1.05k objects, 4.1 GiB
usage: 8.5 GiB used, 26 TiB / 26 TiB avail
pgs: 49 active+clean

progress:
Global Recovery Event (10h)
[=====.......................] (remaining: 44h)

Bugs fix

Reference

  1. 后端 - CephFS 如何恢复损毁的Metadata Pool - 个人文章 - SegmentFault 思否
  2. Advanced: Metadata repair tools — Ceph Documentation
  3. Progress Module — Ceph Documentation