AWS大規模障害、ついに解消--2000以上のサービスに影響した理由は?

 「Reddit」や「Ring」、「Roblox」などのサイトを停止させたAmazon Web Services(AWS)の大規模障害は解消したと、同社が発表した。この障害により、10月20日には「Snapchat」「フォートナイト」「Venmo」「PlayStation Network」、Amazon本体、さらにはオンラインバンキングなどの重要なサービスを含む2000以上の企業やサービスに影響が及んだ。

提供:Jeffrey Hazelwood/CNET ※クリックすると拡大画像が見られます

 米国太平洋時間10月20日午後3時53分(日本時間21日午前7時53分)に、Amazonはこの大規模な問題が解消したと発表した。同社によると、障害は19日午後11時49分に始まり、米国東海岸のサービスでエラー率の上昇が見られたという。Amazonは20日午前0時26分にエラーの原因を特定し、リージョン内の「DynamoDB」サービスエンドポイントにおけるDNS解決の問題が原因だとした。この問題が解消した後も、Amazonはさらなる問題に直面し、特定の操作に対してスロットリング(一時的に能力やパフォーマンスを制限すること)をする必要があった。

 「時間の経過とともに操作のスロットリングを緩和し、サービスが完全に回復するまでネットワーク接続の問題解決を並行して進めた」と、最新の更新情報には記載されている。「午後3時1分までに、すべてのAWSサービスは正常な運用状態に戻った」

 Amazon傘下のクラウドサービスプロバイダーであるAWSは、インターネットの巨大な部分を支えている。そのため、AWSがダウンすると、われわれが愛用するサービスの多くもダウンした。過去数年間に起きたFastlyCrowdstrikeの障害と同様、今回のAWS障害は、インターネットがいかに多くを同じインフラに依存しているか、そして問題が発生したときに、われわれが依存するサイトやサービスへのアクセスがいかに迅速に奪われるかを露呈した。

 ウェブを支えるために少数の大企業に依存することは、ごく一握りのカゴにすべての卵を入れるようなものだ。うまくいっている時は素晴らしいが、たった1つの小さな問題が起こるだけで、インターネットはほんの数分で機能不全に陥ってしまう。

 AWSが最初にサービスステータスページに問題を登録したのは、20日の太平洋時間午前0時過ぎだった。そこでは「US-East-1リージョンにおける複数のAWSサービスでエラー率とレイテンシーが増加している事象を調査中」としていた。午前2時頃には、問題の潜在的な根本原因を特定したと発表。それから30分以内に緩和策の適用を開始し、大幅な回復の兆しが見られたという。

 「根本的なDNSの問題は完全に緩和され、現在、ほとんどのAWSサービスのオペレーションは正常に成功している」と、AWSは午前3時35分に述べた。

 米国東海岸がオンラインになる時間帯までには問題はほぼ解決したように見えたが、午前8時過ぎに西海岸で業務が始まると、障害報告は再び急増した。

 Amazonは、AWSのヘルスダッシュボードを再度参照するよう促す以外に、さらなるコメントの依頼には応じなかった。

 AWSが最初にエラー率に気づき始めた頃、障害追跡サイト「Downdetector」は、銀行、航空会社、電話会社を含む多くのオンラインサービスで報告が急増し始めたことを確認した。AWSが問題を解決するにつれ、これらの報告の一部は減少したが、いまだ正常に戻っていないものもある。

提供:Downdetector/Screenshot by CNET ※クリックすると拡大画像が見られます

 午前4時頃の時点でRedditはまだダウンしており、Ring、Verizon、YouTubeなどのサービスでも依然として多数の問題が報告されていた。Redditのステータスページによると、午前4時30分頃にようやくオンラインに復帰し、その後、米CNETも確認している。

 Downdetectorが確認した報告は合計980万件を超え、うち270万件が米国、110万件以上が英国からで、残りは主にオーストラリア、日本、オランダ、ドイツ、フランスからだった。影響を受けた企業は計2000社以上にのぼり、午前10時頃の時点でも約280社が依然として問題を抱えていたという。

 「基盤となるインターネットサービスが広範囲のオンラインサービスをダウンさせる、この種の障害は、年に数回しか起こらない」と、Downdetector by OoklaのプロダクトディレクターであるDaniel Ramirez氏は米CNETに語った。「企業がクラウドサービスに全面的に依存するよう促され、特定のクラウドプラットフォームを最大限に活用するようにデータアーキテクチャが設計されるにつれて、おそらく障害の頻度はわずかに高くなっているのだろう」

 AWSは障害の原因について、すぐには詳細を明らかにしなかった。その後、太平洋時間午前8時43分に、次のような短い説明を提供した。「根本原因は、われわれのネットワークロードバランサーの健全性を監視する役割を担う、基礎となる内部サブシステムにある」

 これより前、同社は障害の原因を「DNSの問題」としていた。DNSとは「ドメインネームシステム」の略で、人間が読めるインターネットアドレス(例えば、CNET.com)を、ブラウザーとウェブサイトを接続する機械可読なIPアドレスに変換するサービスを指す。

多くのサービスに影響した提供:Downdetector/Screenshot by CNET ※クリックすると拡大画像が見られます

 DNSエラーが発生すると、この変換プロセスが実行できなくなり、接続が中断する。DNSエラーはインターネットにおける一般的な障害だが、通常は小規模で発生し、個々のサイトやサービスに影響を与える程度だ。しかし、AWSの利用は非常に広範囲にわたるため、DNSエラーも同様に広範囲な結果をもたらす可能性がある。

 Amazonによると、問題は地理的にUS-East-1リージョン、すなわち、多くのデータセンターが拠点を置くバージニア州北部の一帯に起因しているという。そこはAmazonにとっても、他の多くのインターネット企業にとっても重要な場所であり、米国と欧州にまたがるサービスを支えている。

 「ここでの教訓は回復力(レジリエンス)だ」と、Ooklaの業界アナリストであるLuke Kehoe氏は述べた。「多くの組織は依然として重要なワークロードを単一のクラウドリージョンに集中させている。重要なアプリやデータを複数のリージョンやアベイラビリティゾーンに分散させることで、将来のインシデントによる影響範囲を大幅に縮小できる」

 DNSの問題は悪意ある攻撃者によって引き起こされることもあるが、現段階で今回のAWS障害がそうであったという証拠はない。

 しかし、技術的な障害は、企業が(対応に追われて)背を向け、防御が手薄になったときに、ハッカーが脆弱性を探して悪用する道を開く可能性があると、NordVPNの最高技術責任者(CTO)であるMarijus Briedis氏は指摘する。

 「これは技術的な問題であると同時に、サイバーセキュリティの問題でもある」と、同氏はコメントした。「真のオンラインセキュリティとは、ハッカーを締め出すことだけではない。システム障害時にも接続を維持し、保護が続くようにすることでもある」

 このような障害が発生した場合、人々が障害を認識していることに乗じようとする詐欺師にも警戒すべきだと、Briedis氏は述べた。フィッシング攻撃や、アカウント保護のためにパスワードを変更するよう指示する電子メールには、特に注意が必要だ。

AWSのサービスステータスページ

この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。

Amazonで現在開催中のセールを見る

関連記事: