- ベストアンサー
サーバ障害の原因が特定できません
社内のサーバで年2・3回の頻度で障害が発生しており、 その原因が特定できず、対応に困っております。 環境はHWが「PRIMERGY RX100」、OSが「Vine Linux 4.2」です。 サーバアプリとして「apache」、「bind」「squid」「sendmail」「ntpd」が稼動しています。 同様の構成のコールドスタンバイ機がありまして、メイン機とスタンバイ機ともに同じ障害が発生したことがあります。 症状は以下のとおりです。 (1)Pingコマンドに対する応答あり。 (2)sshによるリモート接続不可。 (3)KVMからの直接操作では、ログイン画面でキーボードから入力した文字は表示されるがEnterを押してもシェルからの応答がない。 (パスワード入力要求メッセージが出力されない) (4)システムクロックに遅延が発生する。 (5)smartdが起動しており、一時間毎に状態をログに出力するよう設定を行っているが、それを含めた一切のログが出力されなくなる。 (6)NTPサーバを稼動させており、これと同期を取っているクライアントPCはサーバ障害発生時に(4)の影響でクロックが遅延する。 (7)障害復旧はマシンの電源ボタンで強制シャットダウンすることで対応していますが、過去に一度だけ再起動後にBIOSのRAID設定が消えていたことがあります。 会社のCE部門に尋ねても原因はわからないと言われてしまいました。 障害が発生する際にログ等の出力がないため、原因がハードにあるのかソフトにあるのか特定できず、今後の対応に困っております。 宜しくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
ログも何も吐かれていなければ回答は不可能です。 とは言え、現場では何らかのアクションが必要ですものね。 #似たような経験があります コアが吐かれていないのであればハードの可能性が高いはずです。 基本的にはメーカーコールをしてシステムチェックを行います。 運用に影響が出ると考えるならば部品を見込み交換しながら原因を特定するのが吉。 サーバー更新をするのが現場では一番ありがたいでしょうけど。 また、個人的意見ですがVineをミッションクリティカルなサーバーにすることに異論があります。 仕事で使用するのであれば保守サポートをつけることが望ましいと思いますが。
その他の回答 (1)
- yamato1957
- ベストアンサー率24% (2279/9313)
ヒートメモリーでは?。
お礼
ありがとうございます。 「ヒートメモリー」とは「メモリの熱」のことでしょうか? メモリに関しましては、memtest86+を3周ほど動かしましたが異常は検出されませんでした。
お礼
ありがとうございます。 ハードの保守契約は「なぜか」結んでいないのでメーカーコールするとなればスポットになると思います。 OSをLinuxに以外のモノに入れ替えてしばらく運用し、同様の障害が発生すれば「ハードの問題」、 逆に何事も起こらなければ「ソフトの問題」と、切り分けが可能です。 と上司に提案したのですが、 現時点では、大袈裟すぎる(工数が掛かりすぎる)との理由で却下されました。 結局は上司の指示により、現状ままでしばらく様子をみることに決定いたしました。 ありがとうございました。