あひるの勉強部屋

つらつらつら~と不定期にカキコするブログ

s25t障害に関する事後報告20200802

s25t HDD炎上障害報告

2020年7月28日に social.mikutter.hachune.net(以下s25t)においてサーバーにアクセスができない問題が発生しました。

復旧までに1週間弱かかりましたが、幸いデータの破損等はありませんでした。

障害発生期間

2020/07/28 01:30 ~ 2020/08/01 19:40

障害内容

サーバー内のHDDに使用されていたペリフェラル電源−SATA電源変換ケーブルが焼けました。

焼けたコネクタの写真
焼けたコネクタ

amzn.to

被害

  • 障害期間中、全ユーザーがサーバへアクセスできませんでした

原因

ペリフェラル電源−SATA電源変換ケーブルが焼けたことが原因です。

上記変換ケーブルを利用していた理由としては、使用していたHDDが3.3V問題を抱えていたため、これを回避するために使用していました。

構成

マストドンでアップロードされた画像等のメディアデータは、先日問題が発生したSSDではなく、HDD上に保存していました。

先月の問題発生によってSSDのバックアップは設定したが、HDDは画像だけだし、そのうちでいいかと思っていたところに、今回の事件が発生しました。

そのことによって、画像等のデータに全てアクセスできなくなるだけでも、事実上サービスを提供できなくなるということが判明しました。

3.3V問題

SATA3.2規格のHDDで、3.3Vの電源入力があると動作しないHDDがあります。

今回問題となったHDDは、もともと外付けHDDとして販売されていたものをバラして内蔵HDDとして転用したもので、この問題によって動作しませんでした。

マシン構築当時は、ペリフェラル電源−SATA電源変換ケーブルでは3.3Vのピンがないことを利用して、この問題を回避していました。

対応

  • HDDの交換を行いました。
  • 電源ユニットの交換を行いました。
  • ペリフェラル電源−SATA電源変換ケーブルを取り除きました。

対応経緯

月日 時分 事象
7/28 01:30 ケーブルが焼ける
01:50 サーバー管理者がインシデントに気づく。この時点でサーバーの設置部屋と廊下がダイオキシンの匂いが充満していた。
02:00 配線が焼けているのを発見した。この時点で電源は落ちていた。電源ケーブルをコンセントから抜く。
07:00 起床して夢じゃないことを確認
21:40 HDDを @sushi に郵送
7/29 19:40 交換用の電源ユニットを発注@sushi
7/30 21:30 @ahiruからHDDが届き初期診断
22:00 今回は焼けたHDDから直接データを取り出す方針とし、まずは焼損部分の除去を開始
23:13 除去後には電源投入でき、HDDの全データをコピー開始
7/31 18:30 電源ユニットが@ahiruの元に到着
20:20 全データのコピー完了を確認できた
20:45 HDDを @ahiru に郵送
8/1 09:55 @sushi によって復旧されたHDDが到着
14:00 電源ユニットとHDDの交換作業開始
17:40 HDDの3.3Vのピンの除去作業
19:40 復旧完了
20:00 フリージア をかけて復旧を祝う

Appendix.A データサルベージ

焼けた状態のHDDが到着し、まずは初期診断を実施

コネクタの除去をしている写真
コネクタの除去

焼損部分は変換ケーブル側の12V付近とHDDの電源コネクタに限られたため、下記の道具を用意し焼けたコネクタの除去を行いました。

  • 無水エタノール
  • 歯ブラシ
  • ペンチ
  • マイナスドライバー
  • カッターナイフ

コネクタ除去後のSATA端子の写真
除去後の端子

その後は用意していた同容量HDDにデータをすべて移し替えました。

移行元と移行先HDDを並べている写真
移行元と移行先HDD

Appendix.B 3.3V問題の解決

  • 根本的問題解決のため@sushi の指導の下、HDDの3.3Vのピンを切除しました。
    3.3Vピンを切除したHDDのSATA端子の写真
    3.3Vピン切除後

youtu.be

謝辞

前回の障害に引き続きs25tユーザーの皆様におかれましては、サーバの復旧を待っていただきありがとうございました。