s25t HDD炎上障害報告
2020年7月28日に social.mikutter.hachune.net(以下s25t)においてサーバーにアクセスができない問題が発生しました。
復旧までに1週間弱かかりましたが、幸いデータの破損等はありませんでした。
障害発生期間
2020/07/28 01:30 ~ 2020/08/01 19:40
障害内容
サーバー内のHDDに使用されていたペリフェラル電源−SATA電源変換ケーブルが焼けました。
被害
- 障害期間中、全ユーザーがサーバへアクセスできませんでした
原因
ペリフェラル電源−SATA電源変換ケーブルが焼けたことが原因です。
上記変換ケーブルを利用していた理由としては、使用していたHDDが3.3V問題を抱えていたため、これを回避するために使用していました。
構成
マストドンでアップロードされた画像等のメディアデータは、先日問題が発生したSSDではなく、HDD上に保存していました。
先月の問題発生によってSSDのバックアップは設定したが、HDDは画像だけだし、そのうちでいいかと思っていたところに、今回の事件が発生しました。
そのことによって、画像等のデータに全てアクセスできなくなるだけでも、事実上サービスを提供できなくなるということが判明しました。
3.3V問題
SATA3.2規格のHDDで、3.3Vの電源入力があると動作しないHDDがあります。
今回問題となったHDDは、もともと外付けHDDとして販売されていたものをバラして内蔵HDDとして転用したもので、この問題によって動作しませんでした。
マシン構築当時は、ペリフェラル電源−SATA電源変換ケーブルでは3.3Vのピンがないことを利用して、この問題を回避していました。
対応
対応経緯
月日 | 時分 | 事象 |
---|---|---|
7/28 | 01:30 | ケーブルが焼ける |
01:50 | サーバー管理者がインシデントに気づく。この時点でサーバーの設置部屋と廊下がダイオキシンの匂いが充満していた。 | |
02:00 | 配線が焼けているのを発見した。この時点で電源は落ちていた。電源ケーブルをコンセントから抜く。 | |
07:00 | 起床して夢じゃないことを確認 | |
21:40 | HDDを @sushi に郵送 | |
7/29 | 19:40 | 交換用の電源ユニットを発注@sushi |
7/30 | 21:30 | @ahiruからHDDが届き初期診断 |
22:00 | 今回は焼けたHDDから直接データを取り出す方針とし、まずは焼損部分の除去を開始 | |
23:13 | 除去後には電源投入でき、HDDの全データをコピー開始 | |
7/31 | 18:30 | 電源ユニットが@ahiruの元に到着 |
20:20 | 全データのコピー完了を確認できた | |
20:45 | HDDを @ahiru に郵送 | |
8/1 | 09:55 | @sushi によって復旧されたHDDが到着 |
14:00 | 電源ユニットとHDDの交換作業開始 | |
17:40 | HDDの3.3Vのピンの除去作業 | |
19:40 | 復旧完了 | |
20:00 | フリージア をかけて復旧を祝う |
Appendix.A データサルベージ
焼けた状態のHDDが到着し、まずは初期診断を実施
焼損部分は変換ケーブル側の12V付近とHDDの電源コネクタに限られたため、下記の道具を用意し焼けたコネクタの除去を行いました。
- 無水エタノール
- 歯ブラシ
- ペンチ
- マイナスドライバー
- カッターナイフ
その後は用意していた同容量HDDにデータをすべて移し替えました。
Appendix.B 3.3V問題の解決
- 根本的問題解決のため@sushi の指導の下、HDDの3.3Vのピンを切除しました。
謝辞
前回の障害に引き続きs25tユーザーの皆様におかれましては、サーバの復旧を待っていただきありがとうございました。