Notes

Cephadm 初步理解

Cephadm 本质很简单,就是类似 k8s 一样的容器管理应用。当整个集群使用 Cephadm bootstrap 之后,每个组件的服务都通过容器方式来运行,并且各个 host 彼此之间通过 ssh 来进行通信。大致如下图所示
|675
其中 Bootstrap host 是整个集群的起始 host,之后在此基础之上进行 host node 的扩展。如下图所示可以看到起始 host 上运行的 docker 服务大致有如下几个

并且运行命令 systemctl -l | grep ceph 可以看到如下运行的服务

这里容器运行的服务在 systemctl 中可见的原因是容器技术的一种集成与透明性。当在主机上运行一个容器时,容器内的服务实际上也在主机的进程空间中运行,所以对主机操作系统而言也是可见的。注意尽管容器内的服务可在主机上查看,但对容器内的服务进行管理时应该使用容器编排工具(这里就是 cephadm)。
而在扩展的 host 上也是同样有容器服务在运行的,只是我这边不清楚为什么使用了 podman 来进行管理。运行 podman ps 可以看到扩展的 storage1 上正运行的服务

然后运行 systemctl -l | grep ceph 可以看到目前正运行的 services。

Debug

Cephadm mgr dashboard – mgr modules have recently crashed

报错信息如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
root@storage0:/# ceph -s
cluster:
id: a8acabb2-9026-11ee-89dc-31e191538d59
health: HEALTH_WARN
16 mgr modules have recently crashed

services:
mon: 2 daemons, quorum storage0,storage1 (age 21h)
mgr: storage0.dnytub(active, since 3h), standbys: storage1.xbibel
mds: 1/1 daemons up, 1 standby
osd: 10 osds: 10 up (since 21h), 10 in (since 21h)

data:
volumes: 1/1 healthy
pools: 3 pools, 49 pgs
objects: 1.06k objects, 4.1 GiB
usage: 8.4 GiB used, 26 TiB / 26 TiB avail
pgs: 49 active+clean

Cephadm 添加新的 Mon 时报错

报错信息如下:Error: container-init binary not found on the host: stat /usr/libexec/podman/catatonit: no such file or directory
在 Cephadm shell 中运行命令添加新的 Mon 时报错

1
2
3
4
5
6
7
8
9
root@storage0:/# ceph orch daemon add mon storage1:10.0.1.3
Error EINVAL: cephadm exited with an error code: 1, stderr: Non-zero exit code 125 from /usr/bin/podman container inspect --format {{.State.Status}} ceph-a8acabb2-9026-11ee-89dc-31e191538d59-mon-flexbj-storage1
/usr/bin/podman: stderr Error: error inspecting object: no such container ceph-a8acabb2-9026-11ee-89dc-31e191538d59-mon-flexbj-storage1
Non-zero exit code 125 from /usr/bin/podman container inspect --format {{.State.Status}} ceph-a8acabb2-9026-11ee-89dc-31e191538d59-mon.flexbj-storage1
/usr/bin/podman: stderr Error: error inspecting object: no such container ceph-a8acabb2-9026-11ee-89dc-31e191538d59-mon.flexbj-storage1
Deploy daemon mon.flexbj-storage1 ...
Non-zero exit code 125 from /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint stat --init -e CONTAINER_IMAGE=quay.io/ceph/ceph@sha256:8e1c0c287ee035aa36699c1340da870ebf6d2b1effb327c012d917628367d9df -e NODE_NAME=flexbj-storage1 -e CEPH_USE_RANDOM_NONCE=1 quay.io/ceph/ceph@sha256:8e1c0c287ee035aa36699c1340da870ebf6d2b1effb327c012d917628367d9df -c %u %g /var/lib/ceph
stat: stderr Error: container-init binary not found on the host: stat /usr/libexec/podman/catatonit: no such file or directory
ERROR: Failed to extract uid/gid for path /var/lib/ceph: Failed command: /usr/bin/podman run --rm --ipc=host --stop-signal=SIGTERM --net=host --entrypoint stat --init -e CONTAINER_IMAGE=quay.io/ceph/ceph@sha256:8e1c0c287ee035aa36699c1340da870ebf6d2b1effb327c012d917628367d9df -e NODE_NAME=flexbj-storage1 -e CEPH_USE_RANDOM_NONCE=1 quay.io/ceph/ceph@sha256:8e1c0c287ee035aa36699c1340da870ebf6d2b1effb327c012d917628367d9df -c %u %g /var/lib/ceph: Error: container-init binary not found on the host: stat /usr/libexec/podman/catatonit: no such file or directory

此时可以看到在新的机器 storage1 上 node-exporter service 并没有启动成功,参考链接 4 在新的机器上运行如下命令之后成功

1
root@flexbj-storage1:/# sudo ln -sf /usr/bin/docker-init /usr/libexec/podman/catatonit

Reference

  1. podman run with --init gives me: Error: container-init binary not found on the host: stat /usr/libexec/podman/catatonit: no such file or directory