あひるの勉強部屋

つらつらつら~と不定期にカキコするブログ

s25t障害に関する事後報告

2020年6月22日に social.mikutter.hachune.net(以下s25t)においてサーバーにアクセスができない問題が発生しました。

復旧まで1週間弱かかりましたが、幸いなことにデータの破損等は見受けられませんでした。

なお復旧後確認したところ、過去30日間のSLA80.5029%(thx @2bo)でした。

復旧後はユーザーより

  • SLA39.39%からほど遠い
  • SLA39.39%以下になって初めてSLAを守れたといえるのではないのか

などと厳しい追及を受けております。 精進いたします。

障害発生期間

2020/06/22 02:10 ~ 2020/06/27 22:26

障害内容

ディスクに対するあらゆるIOが不可能な状態になり、その結果サーバーに対する一切の接続ができない状況が発生しました。

被害

  • 全ユーザーが障害期間中へのインスタンスへのアクセスができない
  • shibafu528のtootを気軽に通報できない
  • 障害期間中、TLを見れないことによってVtuberにハマり、復活後もTLを見ることが減ったためオタクが治ったと勘違いするユーザが続出

原因

ディスクイメージのバックアップ後に、サーバーが不安定になり始めた前後のログを確認しましたが、有用な情報は一切得られませんでした。
ディスクイメージ吸出しにあたり、ディスクの読み込みは問題ありませんでした。
更に吸出し後にホストに接続したところ問題なく起動しました。
起動後にストレージの状態をnvme-cliで確認しましたが、問題となるような情報は得られませんでした。
以上のことから原因不明と結論付けました。

対応

  • memtest86+を2周してエラーがないことを確認しました。
  • NVMe SSDのディスクイメージのバックアップを行いました。
  • 予備のNVMe SSDを調達しましたが、交換対応は見送りました。
    • nvme-cliで確認したところ一切のエラーが発見されず、今回の原因がディスクであると断定できなかったため。
  • NVMe SSDヒートシンク CRYORIG Frostbit を購入しましたが設置は見送りました。
    • 運用時にヒートシンクなしで35℃程度と優秀であったため。
    • しばらくは今回の記念碑として扱います。
  • 適切なスケジュールでバックアップが実行されるように設定しました。
  • 今回の障害のテーマ曲としてフリージアを採用。mora.jpでハイレゾ版を購入し、これを聴きながら復旧作業にあたりました。
    • モチベーションを上げるため。

対応経緯

月日 時分 事象
1/12 ホストマシンをNUCから現在のマシンに移行。バックアップ設定は来週やることに。
1月中旬 このあたりからサーバ管理者が一ヶ月くらい寝込む。
2月中旬 体調が回復。バックアップの設定変更のことは忘れている。
6/22 02:10 CPU,Load Averageの急激な上昇,Disk IOの急激な低下
02:30 監視系への通知が停止
07:15 起床。体調がここ半年で最も悪い状態だった。
07:29 サーバー管理者が監視系の異常に気付き調査の開始
08:52 サーバーの電源を落とす。以降はまっとうな社会人として仕事を行っていた。
12:00 午後休を取るも体調がよくなる傾向が皆無であったため、復旧は週末と決めた。
18:00 最後のバックアップが1/12で停止していることが判明。この時点ではSSDの破損が強く疑われていたため、半年のデータ巻き戻りを前提に休養を進めることに。
20:20 503ページの公開
6/24 18:02 memtest86+によるRAMメモリーチェックを開始
6/25 07:56 memtest86+を2周した結果エラーなしを確認
6/26 17:37 作業用BGMとしてフリージアを購入
21:38 フリージアをかけながら、翌日に行う復旧の手順書の作成と確認
6/27 10:00 復旧作業の事前準備
14:00 復旧の開始
17:51 サーバーのテスト起動
22:00頃 フリージアをかけながらDNSの切り替え完了を待つ
22:26 インスタンスの疎通確認

謝辞

s25tユーザーの皆様に関しては、インスタンスの復旧を気長に待っていただきありがとうございました。
特に、復旧するにあたり相談させていただいたs25t管理者の方々には心より御礼申し上げます。
彼らがいたからこそ適切に復旧できたといっても過言ではありません。