将设为首页浏览此站
开启辅助访问 天气与日历 收藏本站联系我们切换到窄版

易陆发现论坛

 找回密码
 开始注册
查看: 355|回复: 2
收起左侧

health: HEALTH_WARN Reduced data availability 100.000% pgs unknown

[复制链接]
发表于 2021-7-20 17:00:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?开始注册

x
cluster:# I3 ], ^. Z* N! x, N
[root@compute01 src]# ceph -s6 u$ H% v9 l: R* }3 L& _
  cluster:$ Q1 `2 f7 j* N, {* `
    id:     31403b11-8a1e-432f-876e-5a2c852f9dcc
" M' Y. E4 d6 f" I+ B    health: HEALTH_WARN
( l& ]/ |( O! h6 x9 o2 ^            Reduced data availability: 640 pgs inactive
% ?2 h$ b; x6 |
+ o+ E, F$ r) @& l9 w) G3 |! Z  services:3 B; s, f7 e7 V/ r% L
    mon: 3 daemons, quorum compute01,compute02,compute03 (age 42m)6 J* Z, `$ L/ s( N8 [7 K" k) Z" B
    mgr: compute01(active, since 42m), standbys: compute02, compute03* z3 E: y% b: \) o: \
    osd: 3 osds: 3 up (since 26m), 3 in (since 26m)/ e0 Q! q7 o: C" r2 D, \
* w; Y# o+ ?4 s" e7 u- w7 O
  data:
$ ]: z  @- {* U    pools:   6 pools, 640 pgs( r2 f4 A& D$ h( o) l3 M' b
    objects: 0 objects, 0 B5 ^6 _0 s: d) x- y3 g) b8 L3 C
    usage:   3.1 GiB used, 3.3 TiB / 3.3 TiB avail: C" [' u0 v( w; C3 H/ M  O
    pgs:     100.000% pgs unknown
+ k) q5 o7 {* [! i) X9 h3 h             640 unknown+ A" f. s, k0 n

. O7 j8 e0 }, V) h遇到问题,一直处于这种状态:
5 `% }2 @/ q) r9 o3 _$ V9 l7 R! e' v2 P0 U: _  p' Q  {" V. i, G
导出文件:
3 U, {0 m9 N8 Z% K! q$ b: o+ U* o7 L- X1 @
[root@compute01 ~]# ceph osd crush tree" t( F( L! |3 t! M* a
ID CLASS WEIGHT TYPE NAME   
+ O& h6 P8 U0 g, T# G-1            0 root default ' ]  C. f$ {& s$ F6 g/ \$ ^) r

+ `$ }! n! `& h3 R: e0 B; L+ a2 v" }8 c
发现什么都没有,缺少东西( E# u0 e: {$ _# ]- ~% ~

# |9 L) S& T0 }1 Z" u) m' i[root@compute01 ~]# ceph osd getcrushmap -o /tmp/mycrushmap
: _4 T5 c. J% y( L5 v12, d) U/ B' h4 C0 r8 L. G/ \2 p
导出的数据只有12行,少了很多。7 e! k, a( f8 M% V* X6 |

8 C# e6 }) S$ `) i1 e& I
3 @' l( F; @$ V1 a转换成可以读的文件:3 U; D8 `' G9 D$ d' O
0 }9 C7 M0 ^0 P3 j; D) D
[root@compute01 tmp]# crushtool -d /tmp/mycrushmap > /tmp/mycrushmap.txt% i, E# h; j  u0 e

7 {. X2 n2 i& q& B: W[root@compute01 tmp]# crushtool -c mycrushmap.txt -o mycrushmap2) ?' L% f8 d. d% f8 V) A
item 'compute01' in bucket 'default' is not defined" x) ?* V. v  c8 b7 d
[root@compute01 tmp]# vim mycrushmap.txt + G+ \( e( C5 d% x) ?
[root@compute01 tmp]# crushtool -c mycrushmap.txt -o mycrushmap2
4 W& W( n5 i  I3 v( ]转换的时候发现缺少东西;
* A+ F4 W, o; U2 h2 d1 e再次编辑:
0 W0 r4 H( P* s/ L$ q  i+ Z9 G[root@compute01 tmp]# vim mycrushmap.txt , M& F3 x" t: U

. t* \- Q; b# p; c6 I& k2 u) _' ?# J; N9 M. M8 X
# begin crush map" T6 s4 b! D5 q; q
tunable choose_local_tries 0
" C+ q3 P' n- s& _$ B! _% P2 Mtunable choose_local_fallback_tries 0
1 N3 `  ^" e* k: }. ~6 u# ltunable choose_total_tries 50
- j6 o% G' {% P4 H3 C9 C- Stunable chooseleaf_descend_once 1
7 {  h8 H! t- M5 W& W0 \tunable chooseleaf_vary_r 18 O& y! [/ ^. ?' K% Z, |* L
tunable chooseleaf_stable 15 L" _# W& X9 C9 S$ `3 P" {
tunable straw_calc_version 1% e2 j: G( m3 d. B% I, S
tunable allowed_bucket_algs 541 Y: _: T- [- Y' S: r- K
# devices
8 r5 `: r; a$ D( Sdevice 0 osd.0 class hdd7 {" p% N) F7 m+ V1 H  |
device 1 osd.1 class hdd
9 Y0 r, g% n2 d7 J/ x( ^5 l& Ldevice 2 osd.2 class hdd
; Y- y) L: W% S" c  B" |# types: l' m9 i; f" x
type 0 osd9 c7 i0 J4 V/ [$ U5 b
type 1 host" N* K" q: g8 P/ `$ e2 [4 T
type 2 chassis% G6 v! |1 `$ v, p% v, _
type 3 rack
* f9 L+ F: d1 w- Htype 4 row; ~; Z8 W8 t8 C% v* ?0 g6 o
type 5 pdu: l& U+ V$ }. k! H# I
type 6 pod5 {/ z  c0 c# Z  m; K$ Y
type 7 room
! ^3 ?5 \, R- a" Ctype 8 datacenter
3 |! S+ G$ w. [' ~type 9 zone$ F, Y1 {( {7 T- m
type 10 region
3 I1 D: i% |1 ]$ ktype 11 root
; s) T$ u) h9 `4 T: @& {5 h
3 n- s# f* n6 \" b# r. B# buckets" q0 c% Z' J" p4 }' T0 W
root default {0 J5 S, @' o# g; h2 g. z/ A" j
id -1  # do not change unnecessarily
( a- M0 v7 p$ T  ? id -2 class hdd  # do not change unnecessarily8 S! ?8 R! W& b
# weight 0.000+ C  p/ I9 s% w8 o1 R7 @' [
alg straw2
( Y* ~# q2 Q0 u, t% l9 j- e hash 0 # rjenkins1
. c/ F" {9 y9 k2 ~; o# @( P
$ k; b. j9 O% J, S8 x5 _}
3 a! Y) ~: v6 d: f( }# rules
% Y' B8 U2 l* t) V4 Vrule replicated_rule {. E* E9 n( B% z* n' j
id 0
/ ?9 {& S% X" c- @ type replicated+ N" T/ I. V- j5 M" D
min_size 1
) f2 u* P0 ?9 Q9 }3 L" j* B7 W max_size 10; o& E: N# i  ?$ K  U6 h( Q( e8 {
step take default* X  Z# E2 ~& h, i5 I$ l3 h
step chooseleaf firstn 0 type host. }; M* Z; |3 b" Z( Q
step emit
( v+ A9 E2 ], M5 ^}' s& t8 ~$ l0 N) j4 c, `8 x( L9 @
# end crush map9 v! a+ H8 G7 ^- Y5 B' U& \
7 d! E, [: d, @$ }4 a; g! N* s' i% s
+ K9 ]- T5 D8 O' s: i
发现少了很多东西,添加上吧:
/ J- }- ?9 e: h' ]0 E" p1 Q% x9 Q) x; }, h) O2 ?- P
# begin crush map
& x& @/ B/ j) `0 {9 n' r  d4 ]tunable choose_local_tries 0% B! e1 X4 L- u+ O
tunable choose_local_fallback_tries 0
$ _: h" o; i. K" Mtunable choose_total_tries 505 P! {$ @- D6 {* H& e
tunable chooseleaf_descend_once 1* C( ^! k, @$ n4 l5 Z7 ?+ X% L
tunable chooseleaf_vary_r 1
) O0 X# C' q  K- y1 X, X  _2 atunable chooseleaf_stable 1
% _: i  A7 ~; b+ H8 }8 z/ itunable straw_calc_version 1
" ?: w4 b4 b- D* ~' u; E/ [tunable allowed_bucket_algs 54
$ ]# f  X; W$ K) l/ V, Q# devices
* H3 V, i0 o+ U+ [$ o' Mdevice 0 osd.0 class hdd, d& k/ v9 q8 W$ n
device 1 osd.1 class hdd: C3 u2 I) O9 D* K/ E& T7 O* Y0 p
device 2 osd.2 class hdd
" |0 y3 |* Q, Y# types! Q1 W6 {1 p" r9 w0 M: L1 d( y
type 0 osd
4 U" y( q: z" _; d5 \" Atype 1 host& G" f6 v% p: f# {7 a0 Q8 ^
type 2 chassis
% _* a1 m9 M' v7 stype 3 rack$ W: ~, I' A9 X% e/ T
type 4 row
9 p/ _4 j) `" B5 W2 j* ctype 5 pdu* T6 `& ^2 D, `$ o
type 6 pod
/ q& n% v9 z) itype 7 room8 l8 M) O* F/ n( ?; s$ H9 `7 `
type 8 datacenter
8 f% \3 z; C# M* Z5 a7 q, Ytype 9 zone0 A$ o: @! u4 v' }; }0 l" Z9 o, g
type 10 region( J2 M& G* f2 [8 X
type 11 root. w8 S8 o1 u) Y8 J3 ^
host compute02 {( n2 R6 e2 p6 h, [& V9 h
        id -3           # do not change unnecessarily1 z: `* b2 z) ~' w$ o$ L- A
        id -4 class hdd         # do not change unnecessarily
$ V2 |2 @3 ]( ?' j" A$ H3 a+ d& s        # weight 1.000
) ^1 Z1 P$ L. {9 g& T" j0 v0 T- L        alg straw21 B( v) r3 b8 |* D* \/ G* q; C
        hash 0  # rjenkins1& \* t4 ^' E# H9 Y9 j' b5 w- W  `
        item osd.0 weight 1.000" n" `+ ]8 x2 N
}
0 ]: r8 ]% }* i& P: Bhost compute01 {
2 N4 B  Y' ?9 A" O% [7 }8 w4 g        id -5           # do not change unnecessarily5 O+ u6 R" \; l2 S3 m
        id -6 class hdd         # do not change unnecessarily
) c9 L; s5 ]9 b2 V3 S        # weight 1.0000 n2 r5 a% |& ^: |: m' i; O+ Y
        alg straw25 A  F! J6 \5 x! A6 Q1 [
        hash 0  # rjenkins1
, S6 ]7 B9 w7 D5 Q' A0 N; R        item osd.1 weight 1.000- t  k+ q' |, ]* ~6 I" K9 c
}
1 O! J0 S1 Q% n8 O' @% m$ ?host compute03 {
# x# @$ c$ ~. R        id -7           # do not change unnecessarily
1 O  k! f  f3 e        id -8 class hdd         # do not change unnecessarily" T: N* ?2 K" W- ?, k' }
        # weight 1.000% |4 Y! k, P5 L# E
        alg straw28 ~; E7 i# n( P* i
        hash 0  # rjenkins1) @" n' g( z% s5 R  ^! I% L# N
        item osd.2 weight 1.000
! P5 J# p3 |: u6 M. [}

% c1 X1 _; s8 Q3 u1 U  S" t, |# buckets+ D% t# F& g: Y$ b' U
root default {
  ^. U( G5 C  ]) X- C0 [ id -1  # do not change unnecessarily6 J& D& q; Z# Z& U: A5 d
id -2 class hdd  # do not change unnecessarily
3 w7 y" V/ T' v5 n" i% n+ q # weight 0.0007 n  g& @& y+ u) w% }8 `, ]
alg straw29 A2 {, N' b: {# o4 D& P& I5 S
hash 0 # rjenkins1
' ~" X  y) g( e- F# }+ v+ |' d        item compute02 weight 1.000* U. a& F& s! A8 }* z! f
        item compute01 weight 1.000: ~; R9 R) m' _
        item compute03 weight 1.0005 G0 @, t/ m8 U; D- Y
}

* J' B* ~! d8 [, d2 _# rules
/ C( D/ B' @4 N" z, A) rrule replicated_rule {# _! k" \, c% y# F5 d% U) @0 U1 _/ c
id 0
1 E7 e" B( P! e. |+ L4 L: s type replicated* L6 U& j( h' V( ^: @) L& {
min_size 1/ A/ _6 x5 n! B
max_size 10
$ R3 b3 C4 f- z4 }( A. i" Y; \. v step take default. f) C( z# x0 h6 ^! v
step chooseleaf firstn 0 type host
+ V) l6 l4 a7 o step emit' K$ @5 H. P/ r! z# }
}
( g" O/ U9 o) V# l# end crush map( Q0 q8 f- T4 D" E" F$ L6 q) K- ~

4 \3 [8 B0 Y. r; J4 i# @6 P1 v  i9 O- S' q/ B' ^/ O0 u
添加好之后,检查下对应关系,因为ceph节点和osd添加顺序的问题,导致1节点和2节点颠倒了,要注意这个地方,其他忽略;
; [+ [2 n( ?9 s! E/ C; L# T转换成ceph认识的文件:6 H4 p# K6 ?; c% r
[root@compute01 tmp]# crushtool -c mycrushmap.txt -o mycrushmap2. ]8 h  }& A# x% v) W& V$ c
+ t6 N. x: K3 O* M$ _  U
[root@compute01 tmp]# ceph osd setcrushmap -i /tmp/mycrushmap2 3 s7 m" N2 e% P% @( G4 U& C( u" X7 {
13
4 M" \: ^( j; p8 R[root@compute01 tmp]# ceph -s
* p5 `4 D1 A# ^4 y1 F  cluster:
! t7 j+ b0 h3 o  R! b    id:     31403b11-8a1e-432f-876e-5a2c852f9dcc
9 E+ Z5 T) c" s, u    health: HEALTH_WARN5 U( c& S, W+ k
            Reduced data availability: 212 pgs inactive' t+ m, e" y0 G6 F7 `3 C

6 k+ P# _3 ?2 P+ ]+ A& N  services:
1 L0 K( y3 d3 T1 y, e1 `: }; J    mon: 3 daemons, quorum compute01,compute02,compute03 (age 56m)2 j: X# k+ J$ e; R* D4 l
    mgr: compute01(active, since 56m), standbys: compute02, compute03
" Y0 y) _3 T' _    osd: 3 osds: 3 up (since 40m), 3 in (since 40m)
# ^! N/ i( b, p, s; B ( i* j8 K2 W" P  @% u7 I
  data:
) [. g; W. _8 |  C) i2 W    pools:   6 pools, 640 pgs
/ R# T" V) H0 x: a! v0 |- j    objects: 0 objects, 0 B
" ^3 I  L( `4 ~/ \  _    usage:   3.1 GiB used, 3.3 TiB / 3.3 TiB avail
" p3 w3 x3 F& X3 j    pgs:     33.125% pgs unknown
# A+ y* c' B9 r- o0 Y             428 active+clean6 A# h: e9 h: q& O
             212 unknown3 Z5 m# l6 N  X8 h: \

' _9 T  _$ g. I. `8 R[root@compute01 tmp]# ceph -s' A$ b! P" {6 j
  cluster:0 M7 \6 w3 o& K) F: Y) j1 N- G
    id:     31403b11-8a1e-432f-876e-5a2c852f9dcc
+ O: h& H+ Z: x& T    health: HEALTH_OK
- s0 |3 c+ P- j4 O5 l , @4 w  w# l! d
  services:3 S" E, _; k) m0 m8 }: V% G
    mon: 3 daemons, quorum compute01,compute02,compute03 (age 56m)6 D* `5 n# A; G- ^' w6 K
    mgr: compute01(active, since 56m), standbys: compute02, compute03; P2 V# u! T. w0 t; G- H
    osd: 3 osds: 3 up (since 40m), 3 in (since 40m)
/ y4 @/ n, I) }" K- `6 d) H2 H/ y 9 C1 @" t" v" B2 q  J. p
  data:
/ q) c+ b. Z4 ~# h" ^* Y    pools:   6 pools, 640 pgs
) _$ ^  \# v) O* \. ^2 S    objects: 0 objects, 0 B) ]. U( j3 ~* K2 i7 j3 ]# v
    usage:   3.1 GiB used, 3.3 TiB / 3.3 TiB avail0 v1 ]! W0 K$ r0 Q
    pgs:     640 active+clean
/ Y  Q( `) X( v9 Y( l/ n6 n$ F ' L# H6 P- c: z
[root@compute01 tmp]# ceph -s' X, [% N9 g7 N
  cluster:6 C: F) \3 ^, y/ t
    id:     31403b11-8a1e-432f-876e-5a2c852f9dcc
% z/ c/ M" a$ {, U- U$ g    health: HEALTH_OK# u. K. v3 o* ~$ ~$ n

+ }: T! G7 b+ ]$ B: c  services:
6 I) h4 R. t3 g    mon: 3 daemons, quorum compute01,compute02,compute03 (age 56m)
- }4 i  ^" @+ T: A+ k    mgr: compute01(active, since 56m), standbys: compute02, compute03  L  t0 S  @  d: P; G
    osd: 3 osds: 3 up (since 40m), 3 in (since 40m)
& Y3 n/ g0 M. z  _$ R6 b8 z+ q: W
" `7 N: k: W( r2 q( T$ A  data:( m- s$ L" @3 ~1 m1 h" P
    pools:   6 pools, 640 pgs
5 T  U8 }3 z& I: n7 }# X" B) ?    objects: 0 objects, 0 B
. h' ~' \- S8 ^9 g" x/ M" U    usage:   3.1 GiB used, 3.3 TiB / 3.3 TiB avail" c3 I" ]; V" j' }, u0 h
    pgs:     640 active+clean
; ~  i* }3 u2 ]4 b! ^
5 @/ n4 c# k8 \. k* x+ l恢复正常了,问题解决。% ?3 K. V9 G& z

8 r( w7 ?6 `; h总结下:遇到这种问题,重做依然问题存在,很头疼。只能检查到底什么原因导致的问题。
# A, D* L$ E9 _
 楼主| 发表于 2021-7-20 17:00:04 | 显示全部楼层
[root@compute03 ~]# ceph osd tree
9 v: q5 h% r+ ?: k1 I2 d% w# e# |ID CLASS WEIGHT TYPE NAME    STATUS REWEIGHT PRI-AFF
7 Y% _5 E- N& L0 `& u; S7 ?, @-1            0 root default                        
; X0 |) \! _1 _+ [; ^ 0   hdd      0 osd.0            up  1.00000 1.00000
' C/ a9 M# Z, h  P1 \/ v! }: u" R 1   hdd      0 osd.1            up  1.00000 1.00000 & J' [- o: z$ T, |$ ?( Y5 z2 b
2   hdd      0 osd.2            up  1.00000 1.00000 8 k& e5 H, d% f. c6 |5 A
[root@compute03 ~]# ceph osd tree
5 m. `- w2 |: T0 R. J$ {2 WID CLASS WEIGHT TYPE NAME    STATUS REWEIGHT PRI-AFF 2 x, j- o1 @) b% u' }: ~
-1            0 root default                         $ m3 X5 z  J; ?5 X5 ?$ B
0   hdd      0 osd.0            up  1.00000 1.00000
' _* B) _! {$ Y8 T7 Z6 B$ p 1   hdd      0 osd.1            up  1.00000 1.00000 ' ]' x5 g! P  @9 p' L
2   hdd      0 osd.2            up  1.00000 1.00000 5 Z) w5 v0 G2 N5 o6 O) |6 }3 ?
8 H! ~0 e0 B$ f

9 \/ E& j8 u  q  R" j* k0 h' o刚开始并没有发现什么问题,但总觉得有点奇怪,哪里怪呢?就是有点别扭,反正没有找到。
+ E+ @. C/ j- }) e; L6 r
  a' c' ]: ^3 W8 ?+ b  {4 f后来正常了,才发现有些东西发生边了。少了一些描述:
3 ^- G7 }, B' D7 J$ |2 v6 i6 m) F  Z& w2 R- l( d( `5 s
[root@compute01 tmp]# ceph osd tree
1 G7 N3 X6 H! S$ YID CLASS WEIGHT  TYPE NAME          STATUS REWEIGHT PRI-AFF 6 ?, r4 U# \9 ~$ n3 C# J/ r& J/ w
-1       3.00000 root default                               7 x% O% O' T  T; z4 p
-5       1.00000     host compute01                        
3 T  _" `! K; j 1   hdd 1.00000         osd.1          up  1.00000 1.00000
- L+ j& K" ~1 I7 ]' S-3       1.00000     host compute02                         5 d$ Y) i9 u. A% T% ?) U
0   hdd 1.00000         osd.0          up  1.00000 1.00000
  o; @* X. ^2 ?; x8 `-7       1.00000     host compute03                         " `+ X/ s2 p5 P- t3 T* y3 b8 F
2   hdd 1.00000         osd.2          up  1.00000 1.00000
" m/ f2 q: u( ^% y7 T
 楼主| 发表于 2021-7-20 17:46:05 | 显示全部楼层
完成修复过程。
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

如有购买积分卡请联系497906712

QQ|返回首页|Archiver|手机版|小黑屋|易陆发现 点击这里给我发消息

GMT+8, 2021-9-27 02:14 , Processed in 0.049483 second(s), 21 queries .

Powered by LR.LINUX.cloud bbs168x X3.2 Licensed

© 2012-2022 Comsenz Inc.

快速回复 返回顶部 返回列表