さくらサーバーの障害について(1/26)

登録日: 2009-01-26 14:23:12

NEOを、「さくらのレンタルサーバ」でご利用の方へ。
http://www.sakura.ne.jp/

昨年末頃より、
「さくらのレンタルサーバ」に設置されたNEOで、
メールが配信されない、などの障害がありました。
たいへん申し訳ありませんでした。

# 障害の復旧方法については、
# http://www.mail-neo.com/newinfos/view/62/
# ↑こちらのページをご覧ください。


この障害の詳細、再発防止策、
および補填内容について、ご報告します。

また、障害時の当社の対応に関して、
もっと情報がほしかった、というご意見をたくさんいただきました。
それを受けて、障害発生時の情報公開についても、ルールを定めましたので、ご報告します。


------------------------------
障害の詳細
------------------------------

昨年12月30日~31日に行ったNEOのバージョンアップの際に、
ソフト内で無限ループを引き起こすような処理を誤って混入してしまったために、
NEOが設置されたサーバーのメモリを大量に消費していました。

この障害自体はすぐに修正できたのですが、
サーバーに過大な負荷を与えてしまったため、
当社サーバーとさくらのレンタルサーバとの接続が制限されてしまいました。

NEOは、さまざまな動作に、当社サーバーからの接続を利用しています。

そのため、この制限が解除されるまで、
NEOのほとんどの機能が利用できなくなっていました。


------------------------------
再発防止策
------------------------------

まず、2重の再発防止策をとりました。

1: ソフトの修正にあたっては、
  最低7日間のデバッグ(公開前のチェック)期間を設ける。
2: 万一同様の問題が発生した場合でも、処理を強制終了させるようプログラムを修正。

1について。
ソフトに修正を入れた場合は、修正の大小に関わらず、
7日間のデバッグ期間(期間中に行う内容も細かく定めています)を経て公開することを義務化しました。

今回の問題についてだけ言えば、上記だけでも発生は防げていました。
が、万が一のチェック漏れを考慮し、2も実装しました。

2について。
スクリプト内部で、使用メモリと処理時間に制限を設け、
万が一今回のように、無限ループ処理などが発生した場合も、
一定のループ後に、処理を強制的に終了させるようにしました。

これにより、同様の問題(設置サーバーに過剰な負荷を与える処理が発生すること)の再発を防止しました。


加えて、
これはまだ、実装方法の検討段階なのですが、

> NEOは、さまざまな動作に、当社サーバーからの接続を利用しています。

↑この状況自体をなくすため、
当社サーバーからの接続がなくとも(または非常にすくない頻度の接続で)、
NEOが問題なく動作するよう、改良を行います。

具体的には、
NEOが設置された各サーバーでCRONを設定し、
サーバー内からプログラムを呼び出すようにします。

※CRONが使えないレンタルサーバーもありますので、現在の仕組みも残し、
 どちかを選べるようなかたちを予定しています。


------------------------------
補填内容
------------------------------

この障害により、NEOを正常に利用できなかった方に対しては、
現在ご利用中のアクティベーションキーを、30日間延長させていただきます。

対象者の方には、個別にご連絡させていただきます。
(2/6(金)までにご連絡します)


------------------------------
障害発生時の情報公開について
------------------------------

万が一NEOに障害が発生したときには、
障害を確認した時点から復旧の時点まで、
「ニュース」にて、毎当社営業日に状況をご報告します。
※当社営業日: 毎週月~金曜日(夏季,冬季の休業日を除く)

メールでのご報告は、障害に何か動きがあったときや、特に重要なご連絡がある場合にのみ行います。

ニュースは、
・ご自身の設置したNEOにログインした後の画面
http://www.mail-neo.com/ にログインした後の画面
でご確認いただけます。




ご報告は以上です。
障害によりメール配信に支障を生じさせてしまい、
たいへん申し訳ありませんでした。

Copyright2008~2024@PRJAPAN Inc,