当ブログについて

WMS

管理人:WMS
政治・経済・金融を中心した2chまとめサイトです。

相互RSS・リンク歓迎です。 依頼フォームよりご連絡ください。


このサイトの全記事一覧

最新記事
最新コメント
ページ内人気記事
カテゴリ
月別アーカイブ
アクセスランキング
アクセスカウンター
他サイト様人気記事
 
 

【クラウド】アマゾン、クラウドストレージサービスでの大惨事の原因を公開 ヒューマンエラーが発端だった



ph20170307_31.png 

1: 海江田三郎 ★ 2017/03/03(金) 13:07:16.84 ID:CAP_USER
http://jp.techcrunch.com/2017/03/03/20170302aws-cloudsplains-what-happend-to-s3-storage-on-monday/

AWSのS3クラウドストレージが4時間にわたってダウンした件は、当然ながら、強い批判を浴びた。
AWSは検証レポートを発表し、この事件について原因と経過を詳しく説明した。技術的情報と将来に向けての防止策も含まれている。
直接の原因は、やや平凡な理由だが、ヒューマンエラーだった。あるエンジニア―ここではジョー(仮名)と 呼んでおく―が間違ったコマンドを入力してしまったということだ。ジョーはあるサブシステムをシャットダウンするつもりだった。
それ自体は日常行われるオペレーションだった。しかし月曜日、バージニア州北部データセンターではルーチンワークが大変な問題を引き起こした。
ジョーは正規の特権ユーザーであるため、システムをシャットダウンするコマンドを入力する資格があった。
ただしこの作業はAmazonが「確立された手順書(established playbook)」に従ったもので、
ここではS3サブシステムの少数のサーバーを停止することが意図されていた。ところがジョーは誤って多数のサーバーを停止するコマンドを入力してしまった。

素人の表現でいえば、地獄のような騒ぎが持ち上がった。
Amazonはもっと技術的な表現をしているが、問題のエラーはカスケードしてバージニア州北部データセンター全体に 影響を与えることになった。ジョーのエラーは決定的に重要なサブシステムを停止してしまい 、センターのデータ保存能力の大きな部分を失わせた。システムは再起動を余儀なくされたが、この間S3は リクエストを処理することができなくなった。AWS自身のダッシュボードも機能を失い(これはかなり恥ずかしい事態だ)、S3の稼働状態を確認できなくなった。
そして外部の世界も影響を感じ始めた。一般ユーザーはお気に入りのサイトが開かなかったり、アプリが異常な動作をしたりするのに気づいた。
昼頃、AWSはサービスの復旧に全力を上げていたが、なにぶんシステムの規模が大きすぎた。
AWSは何年にもわたってダウンしたことがなく、従って全システムの再起動を行ったこともなかった。
S3はいわば自分自身の成功の犠牲になった。再起動をかけるとシステムは安全性のチェックとメタデータ の整合性の確認を始めた。ところがこれは予想外に時間を必要とした。
こうしたヒューマンエラーによる事故の再発を防ぐためにAWSでは運営手順に変更を加えるという
レポートによれば「この〔事故の原因となった〕ツールに修正を加え、作動速度を遅くし安全策を追加した。
〔停止要求に対し〕配下の最小限のレベルにおけるサブシステムのみを停止させるようにした」という。
これでジョーのような慌て者が同様のミスをするのは防げるだろう。

しかしAWSでは、もっと根本的にS3のサブシステムの構成の見直しも行っている。サブシステムをセル(cell)と呼ばれるさらに多数の区画に分割し、 一挙に大量のサーバーが停止されないようにするという。これは過去にも試みられたことがあったはずだ。
ともかくS3のサブシステムは許容可能な時間で再起動するには大きすぎた。

AWSのレポートは謝罪と改善の約束で締めくくられている。単純なヒューマンエラーで始まったものの、 影響が連鎖反応で急速にデータセンター全体に拡大して大事故となった。AWSのシステムがこの種の 深刻なエラーを想定せず、したがってそのカスケードを防ぐ機能が組み込まれていなかったのが惨事の根本的な原因だったようだ。


関連
【クラウド】アマゾンのクラウドサービスがダウン、MediumやImgurなど多数のサービスに影響
http://potato.2ch.net/test/read.cgi/bizplus/1488326866/

引用元:http://potato.2ch.net/test/read.cgi/bizplus/1488514036/






3: 名刺は切らしておりまして 2017/03/03(金) 13:11:38.98 ID:HpSUjblh
掃除のおばちゃんね

4: 名刺は切らしておりまして 2017/03/03(金) 13:12:58.63 ID:IIpA1hQt
足首コンセント現象

8: 名刺は切らしておりまして 2017/03/03(金) 13:17:23.32 ID:zqktoCwz
>>2
気の弱い奴だと自殺してもおかしくないよな

5: 名刺は切らしておりまして 2017/03/03(金) 13:13:01.01 ID:f7vvV6iz
加速装置

6: 名刺は切らしておりまして 2017/03/03(金) 13:13:51.35 ID:Y6VFmDNd
東京リージョンだったらぶちきれてた

9: 名刺は切らしておりまして 2017/03/03(金) 13:18:05.50 ID:BJDDoB4B
うちのPentium2も再起動に許容できない程の時間を要するわ

10: 名刺は切らしておりまして 2017/03/03(金) 13:19:04.26 ID:gIDScv2u
クラウドは今ひとつ信用出来ねぇわ

11: 名刺は切らしておりまして 2017/03/03(金) 13:19:17.51 ID:WmAAeQ7u
やっぱ粛清されるの?

16: 名刺は切らしておりまして 2017/03/03(金) 13:37:16.23 ID:R1HD4lOQ
>>11
こういうのやってるの、年俸2万ドル以下のワーカーだから、責任は問われない。

叱責はされるだろうけどね。

システムとマニュアルが不味かったという話になるだろうし、
再起動が法外な時間かかったのは彼の所為ではない。

27: 名刺は切らしておりまして 2017/03/03(金) 14:25:18.04 ID:l+9lGnPy
>>16
amazonのシステムを停止できる、
正規の特権ユーザーがそんな年俸のワケねーだろ

28: 名刺は切らしておりまして 2017/03/03(金) 15:00:32.23 ID:siEoANEB
>>16
Amazonは知らんが日本だと外注に委託されてたりするんだよね
で、外注が損害金支払って飛ぶ

12: 名刺は切らしておりまして 2017/03/03(金) 13:20:57.35 ID:I+vA1NU9
まっ、次は気をつけなよ。あと再起動の速度は改善してね(はーと

13: 名刺は切らしておりまして 2017/03/03(金) 13:21:34.06 ID:Vx38f45c
マイクロソフトとかグーグルのような海外IT企業は基本的に不具合が有っても
連絡先もろくなのが無いし、基本返事なんか返ってこないだろうし
そこに本当に重要なデータを預けるのってかなり怖いな

23: 名刺は切らしておりまして 2017/03/03(金) 13:53:51.16 ID:golG5Ikv
>>13
MSは上客だけには丁寧、グーグルは一律に機械的な対応
だからグーグルの有料サービスへの課金は推奨しない

14: 名刺は切らしておりまして 2017/03/03(金) 13:30:21.47 ID:AtFLMXzA
韓国人が謝罪と賠償を要求まだぁ

15: 名刺は切らしておりまして 2017/03/03(金) 13:35:44.76 ID:ERK3H/9q
いったいいつAI化するんだよ、こういう作業。

17: 名刺は切らしておりまして 2017/03/03(金) 13:41:12.96 ID:brIKy9gB
>全システムを再起動を行ったこともなかった
SEからするとこの状態からよく短時間で復旧したなと思う
普通は手順の確認だけで半日以上かかる
むしろどこから手をつけて良いか途方にくれてもおかしくない

18: 名刺は切らしておりまして 2017/03/03(金) 13:45:22.06 ID:4UtrjF96
同じ時間帯にヤフーも繋がらなかったけど関係あるの?

19: 名刺は切らしておりまして 2017/03/03(金) 13:45:29.06 ID:vAgndHBJ
DB削除してバックアップも取れてなかったとかよりましか。

20: 名刺は切らしておりまして 2017/03/03(金) 13:47:41.92 ID:aVLwcXYl
クラウドとかに個人情報上げる奴は情弱

21: 名刺は切らしておりまして 2017/03/03(金) 13:51:37.62 ID:94QZi1K+
カスケードなんて意識の高い横文字使わずに被害の連鎖とか、延焼とかいう表現使えよ

24: 名刺は切らしておりまして 2017/03/03(金) 13:54:29.82 ID:94QZi1K+
俺らがクラウドを馬鹿にしている間に
AWSもAzureも失敗から学びながらどんどん進化していく。

26: 名刺は切らしておりまして 2017/03/03(金) 14:13:20.63 ID:7f6cbCvm
こういう他人の大チョンボの話聞くと
自分の過去の大失敗がフラッシュバックしませんか

29: 名刺は切らしておりまして 2017/03/03(金) 15:07:00.09 ID:mLKAaRbC
だからいつもいつもENTER押す前に画面に向けて指差し確認しろっつってんだろ
俺の言うこと聞いときゃこんなんならず済んだんだよ

30: 名刺は切らしておりまして 2017/03/03(金) 15:59:44.91 ID:WHcNo0Pd
アマのストレージは転送遅すぎる
グーグルで充分
そもそもクラウドストレージなんかみんなで動画共有する程度の使い方で良いんだよ
個人情報とか企業情報とかのやり取りしてるやつは危機管理能力0

31: 名刺は切らしておりまして 2017/03/03(金) 16:24:06.26 ID:TKQLaPJb
システムがちゃんと聞いてやれよw。
「ジョー、いいのかい?このコマンド入力したら
大変なことになるよ。職を賭して入力するんだろうねw? YES NO」

35: 名刺は切らしておりまして 2017/03/03(金) 17:09:00.06 ID:NwGzC2z5
ヒューマンエラーならAIに変えればいいよ

42: 名刺は切らしておりまして 2017/03/03(金) 19:18:21.82 ID:z0bTMjrK
バッチにしとけばいいじゃん、これ叩くだけねって

45: 名刺は切らしておりまして 2017/03/03(金) 21:58:51.04 ID:Kd4IPIpW
つーかクラウドの意味ねーじゃん・・・

47: 名刺は切らしておりまして 2017/03/03(金) 22:11:24.26 ID:d8Z+GUhK
指差し声出しが基本だって言ってるのに守らない奴の多いこと
案の定ミスしやがるしなそういう奴は
まさにこれよ

48: 名刺は切らしておりまして 2017/03/03(金) 22:14:14.44
サバ管はビルメンみたいなもんだし

49: 名刺は切らしておりまして 2017/03/03(金) 22:29:12.49 ID:hm8cMPoC
大規模にトラぶって4時間で回復とかむしろ神業かと思ったぜ。

62: 名刺は切らしておりまして 2017/03/05(日) 09:53:11.19 ID:mcB3Aiy2
まあこの手のスレ見てればわかるが、
クラウド嫌いはまともに運用に関わった事が無いのばっかりだからな

64: 名刺は切らしておりまして 2017/03/05(日) 10:53:10.55 ID:xabUKYxb
規模はどうあれ元に戻っただけ、まだマシだろ。
日本だとデータ喪失して、ごめんなさいも曖昧にするからな。

68: 名刺は切らしておりまして 2017/03/05(日) 19:51:01.89 ID:tPFZtnID
AWSは、アマゾンでもへんなチームで案外温情的だったりするから
この人はクビにならないかもしれないが、

ファーストサーバーで間違って顧客のデータ消しちゃった人は
あの後どうなったんだろ。

46: 名刺は切らしておりまして 2017/03/03(金) 22:02:40.37 ID:GbA0UKOc
まあこうやって問題をつぶしていって
盤石になっていくんもんだろ

関連記事


amazon
     
 
コメント















 管理者にだけ表示を許可する

 
最新記事
 
 
 
 
天気予報

-天気予報コム-
検索フォーム
RSS・SNS・QR
  •  
  • にほんブログ村 2ちゃんねるブログ 2ちゃんねる(ビジネス)へ
QR
為替レート
パーツ提供:FX比較のALL外為比較
アンテナサイト様
相互サイト様
おすすめサイト
人気記事
投票
アンケート
Face book
他サイト様新着記事
はてなブックマーク
メールフォーム

名前:
メール:
件名:
本文:

 
ページ先頭へ HOME