ADCからのお知らせ No.54 (2009/04/21)
データ解析システムの不具合について
天文データセンター解析システムのユーザーの皆様
データ解析システムの運用から13ヶ月が経過しておりますが、
2009/04/21 現在で、システム領域である内蔵ディスクが
運用中に突然オフラインとなる不具合が合計5回発生致しました。
原因について調査を行なっておりますが、原因解明に至っておらず、
今後も発生する可能性があります。そのため、不具合の内容について
お知らせ致しますとともに、利用者の皆様にお願いを申し上げます。
【不具合の概要】
システム領域である内蔵ディスクが運用中に突然オフラインになる。
本不具合が発生しても、内蔵ディスクにアクセスできない状態ではあるが、
OS はその時点では異常終了することなく動作が継続する。そのため、
システムを利用する際、不具合の発生に気付くことが困難な場合がある。
【対象サーバ】
対話型解析サーバ ana03 - ana14
バッチ型解析サーバ cls , cls01 - 05
作業用大容量ファイルシステムサーバ fs01 - 04
ゲートウェイサーバ gw01 - 02
【症状】
・以下のようなコンソールメッセージが発生する。
sd 0:2:0:0: rejecting I/O to offline device
・OS は異常終了することなく動作が継続する。しかし、内蔵ディスク中の
ファイルにはアクセスできないため、キャッシュから外れたものから
動作しなくなっていき、最終的には /bin/ls 等の基本的なコマンドも
含め動作しなくなる。
・内蔵ディスクへのアクセスであっても、メモリキャッシュへの書き込み、
メモリキャッシュからの読み込みはできる可能性がある。
内蔵ディスクには /var/tmp , /tmp も含まれており、これらの領域に
出力されたデータは、ディスクへの書き込みが行われない。
・NFS領域へのアクセスはできる可能性がある。
/mfs0[1-4][a-v]
/home , /home_solaris , /home_linux
/cls/cls0[1-5][AB]
・各サーバに接続された RAIDディスク領域については、
アクセスできる可能性がある。
/wa[03-14][ab] (対話型解析サーバ ana03 - 12)
/temp[AB] (バッチ型解析サーバ cls01 - 05)
・ssh によりシステムにログインできる可能性がある。
【影響】
本不具合が発生した場合、被害が拡大しないようシステムを強制終了させ、
再起動することにより復旧を行う。強制終了により、以下に示す影響がある。
- 実行中のプロセスが強制終了される。
- ログイン中のセッションが切断される。
- キャッシュに書き込まれたデータをディスクに書き込むことができない。
システムの強制終了によりキャッシュに書き込まれていたデータは消失する。
不具合が修正されるまでの期間、各サーバの運用状況を自動で確認し、
以下のURLにて公開しております。
https://www.adc.nao.ac.jp/J/RAID_RUNNING_STATUS
また、バッチ型解析サーバにつきましては、不具合が発生したサーバに
ジョブが割り当てられないようにする対策を次回メンテナンス時
(5月11日)に運用系に施す予定です。
ユーザの皆様は、公開情報を参照して頂き、不具合が発生している
サーバがある場合は利用を中断し、正常運用中のサーバを利用して
頂きますようお願い致します。
また、多数のサーバ間で相互ログインなどを行なう事は、障害発生時に
ログイン先にプロセスを残したりして問題になりえますのでお控え下さい。
原因究明、恒久対処にむけて鋭意調査を続けております。
ユーザーの皆様のご理解・ご協力をお願い致します。