2020年12月8日火曜日

NAS(QNAP TS-431P)でRAID6で運用していたHDDの交換

3年前に導入したNASのHDDが壊れたので交換してみた。
NASの導入は、こちらの「自宅にNAS(QNAP TS-431P)を導入」を参照。

RAID6でHDDの1番から4番のうち2番が不良になった。不良になったのはログによると12月1日(火)午前2時のようで、次のメッセージは3日(木)に出ていた。






気が付いたのは4日(金)で子供がNASのランプが赤いと言ってきた。

この時はSTATUSランプは「緑」。
HDDの購入が3年前だったのでサポートで無償交換になるかなと思ったが微妙に3年を超えているので明細書とか探すのはその時点でやめ。HDDは東芝の2.5インチHDDはMQ01ABD100という型番。探すとまだまだ普通に流通していて2.5インチHDDの進化がないなぁという感想と長く使う人には有難いことだと感じた。
ノジマで4,870円で12月5日(土)に注文。ちなみにHDDは6日に出荷され、7日の午前に家に届いた。
HDD2番は5日の午前10時についにfailedになる。不調になってから4日ぐらいで切り離されたという事の模様。

6日(日)はNASのそばで大掃除をしていたのだが。なぜかNASがピーピーなる。なんだろうと思いつつも大掃除なので無視。
実はこの音は謎のHDD4番のdisconnect/connectの連発で生じていた模様。


ログもよく読むとrebuildingがスキップとか書かれている。   

これ何のエラーなんだろう。

同じエラーがもう一度出た後に。。。


inactiveと。おそらくこのタイミングでNASとしてファイルサーバの機能が停止したので自宅内AD機能やDNS機能が停止。STATUSランプも赤になったものと思われる。

実は6日(日)の段階でDNS機能が死んでいることは分かっており、NASの画面からinactiveも出ていたが、初めての交換だったこともあり、普通にNASは動いているはずでADの機能がきっとメモリ不足とかで死んだかなぁとか思っていた。

7日(月)午前にHDDが届いたので夜に交換作業を試みてみる。
HDD2番がやっぱり赤。ちなみにHDD4番は特に問題ない状態。この時は細かくログを見ていなかったので4番に問題はあると思っていなかった。



ストレージプールの管理画面で「管理」から1台ずつ交換が選べるらしいというので対応してみようと思ったが選択できない状態。
よくわからないけどホットスワップ対応機種なのでHDD2番を物理的に抜いてみると。
物理筐体にはHDDの番号が書いていないのでちょっと戸惑うね。
管理画面を出していれば問題なくわかるけど、スロット数が多くなると数え間違いもあるかもしれないから番号ぐらい降ってほしいね。

HDDが抜けたことが検知されて、
HDDを付け替えて、差し戻すと

すぐに認識される。
指したら自動でリビルドが走るのかと思っていたが動かない。ここからデータロストの可能性を考え出していろいろ焦る。

まずはリビルドが手動でキックする実装もあるだろうと思い、ここで「管理」からRAIDグループの復旧を選ぶ。

「復旧」ボタンを押すと、

おっおっおっ。。。
ここからログを読みだしてHDD4番もおかしそうだとかinactiveって停止していることだよなという事実を認識したり。
数か月前に契約しているO365のOneDriveへのクラウドバックも仕掛けていることも思い出してクラウド側もチェック。クラウドにデータは全部あることを確認して一安心。
それが分かって、落ち着いて対応。仮にHDD2番と4番が死んでいてもRAID6なので建前上は大丈夫なはず。ただ大丈夫なはずなのにサービスが死んでいる現実もある。
HDD4番が緩んでいるのではないかと考え、一度外して再度指してみる。HDDの認識はするがRAIDの復旧はできず。

ここはイチかバチか再起動。
待つこと10分ぐらい(いつも再起動はこれぐらいかかる)。
再起動中にSTATUSランプがグリーンに。

おっっと、なんとリビルドが始まった!!!!




リビルドがHDD2番だけなのか2番と4番の2玉なのか確認方法が分からず。
リビルドは4時間ほどで終了。

とりあず、8日(火)の段階では問題なく動いている。
良かった。日頃操作しない対応なので難しいや。