先週、CrowdStrike のバグのあるアップデートが原因で、何百万台もの Windows マシンが停止状態に陥りました。約 850 万台のデバイスに影響を及ぼしたこのインシデントは、テスト ソフトウェアのバグが原因でした。
不具合のあるアップデートが検証プロセスをすり抜け、広範囲にわたるクラッシュを引き起こしました。この CrowdStrike の問題により、同社は今後のアップデートでより厳格なテストとエラー処理の改善に取り組むことになりました。

CrowdStrikeの問題がMicrosoftのサービス停止に影響を及ぼす
CrowdStrike の最近の大失態は、CrowdStrike だけの問題ではなく、テクノロジー業界のより広範な課題に関係しています。Microsoft もこの件で重大な障害に見舞われ、混乱は拡大し、国々に影響を及ぼすほどになりました。Microsoft の障害の原因はそれぞれ異なりますが、同時に発生した問題により、クラウド サービスの脆弱性とソフトウェア障害の波及効果が浮き彫りになりました。結局のところ、CrowdStrike の問題が引き金となりました。このような事件は、あらゆる領域で堅牢なテストおよび検証プロセスが必要であることを強調しています。
CrowdStrike の停止とは何ですか?
CrowdStrike の Falcon ソフトウェアは、企業にとって重要なツールであり、何百万台もの Windows マシンでマルウェアやセキュリティ侵害に対する強力な保護を提供します。CrowdStrike の問題は、潜在的な脅威に関するテレメトリを収集することを目的とした定期的なコンテンツ構成の更新が、代わりに壊滅的なクラッシュを引き起こしたときに発生しました。この更新は Rapid Response Content の一部であり、40 KB の小さなファイルで、正しく動作せず、広範囲にわたるシステム障害を引き起こしました。これは古いウイルスのようです。ドンという音が鳴り、何も言わない警告メッセージが延々と流れ、コンピューターが不意にシャットダウンするようなものです。

停電の分析
CrowdStrike の問題は、マルウェア検出を改善するために Falcon センサーを更新した Rapid Response Content に関連していました。この特定の更新には、バグのために Content Verifier を通過した問題のあるコンテンツ データが含まれていました。CrowdStrike は、更新では通常、自動テストと手動テストの両方を実行すると述べています。しかし、Quick Response Content は他の更新と同じ徹底的なテストを受けていなかったか、何らかの理由でテストに合格し、壊滅的なクラッシュにつながりました。
どうしてすべてがうまくいかなかったのでしょうか?
CrowdStrike の問題は、コンテンツ バリデーターの信頼性に関する誤った想定に起因しています。3 月にテンプレート タイプが新たに導入されたことで、CrowdStrike は検証プロセスが完璧であると確信しました。しかし、この自信は間違っていたことが判明しました。問題のある Rapid Response コンテンツがセンサーのコンテンツ インタープリターに読み込まれ、Windows が処理できない境界外メモリ例外がトリガーされ、悪名高いブルー スクリーン (BSOD) が発生しました。

CrowdStrikeの障害はいつ始まったのか?トラブルのタイムライン
CrowdStrike の問題は、企業が通常週末に向けて業務を縮小する金曜日に発生しました。このタイミングは最悪で、多数の組織で即時の混乱を招きました。セキュリティ強化を目的とした不完全なアップデートは、システムを機能不全に陥れ、大幅なダウンタイムとフラストレーションを引き起こしました。
初期対応と被害制御
CrowdStrike は、問題の原因が Rapid Response Content ファイルにあることをすぐに特定しました。すぐに特定できたにもかかわらず、被害はすでに発生していました。CrowdStrike Falcon を利用している企業は、クラッシュの影響を緩和するために必死でした。状況の緊急性から、CrowdStrike は、根本的な原因と今後の再発防止策を概説した詳細な事後インシデント レビュー (PIR) を公開しました。
将来の問題を防ぐための取り組み
CrowdStrike の問題を受けて、同社はこのような災害が再発しないようにするためのいくつかの対策を約束しました。これには次のものが含まれます。
- 強化されたテスト: ローカル開発者テスト、コンテンツ更新およびロールバック テスト、ストレス テスト、ファジング、およびフォールト インジェクションを実装します。
- エラー処理の改善: Falcon センサー内のコンテンツ インタープリターのエラー処理機能を強化します。
- 段階的な展開: 即時プッシュではなく、インストール ベースのより大きな部分に更新を段階的に展開します。

CrowdStrike Falconとは?問題のプロテクター
CrowdStrike Falcon は、この問題の中心となるソフトウェアです。これは、ウイルス対策、脅威インテリジェンス、エンドポイント検出および対応 (EDR) を組み合わせたエンドポイント保護を提供するクラウドベースのプラットフォームです。このソフトウェアの主な機能は、マルウェアやセキュリティ侵害から保護することであり、世界中の企業にとって重要なツールとなっています。
ファルコンの仕組み
Falcon は、Windows マシンのカーネル レベルでセンサーを展開することで動作します。これらのセンサーは、疑わしいアクティビティを継続的に監視し、AI と機械学習を使用して検出機能を強化します。Rapid Response コンテンツなどのこれらのセンサーの更新は、新たな脅威に対する最新の保護を維持するために不可欠です。
迅速な対応コンテンツの役割
Rapid Response Content アップデートは、Falcon センサーの動作を微調整して、新しい形式のマルウェアを検出できるように設計されています。これらのアップデートは通常、サイズが小さく、すぐに展開できるため、Falcon の機能に不可欠な部分となっています。ただし、CrowdStrike の問題は、これらのアップデートが十分に検証されていない場合の潜在的なリスクを実証しました。
国防省とサイバーセキュリティ・インフラセキュリティ庁(翻訳:) は、CrowdStrike、Microsoft、および連邦、州、地方、重要なインフラストラクチャのパートナーと協力して、システム停止を徹底的に評価し、対処しています。
— 国土安全保障省 (@DHSgov) 2024年7月19日
CrowdStrike問題から学ぶ教訓
CrowdStrike の問題は、堅牢なテストと検証プロセスの重要性をはっきりと思い出させるものです。同社は将来のインシデントを防ぐためのいくつかの対策を概説していますが、テクノロジー コミュニティは間違いなく注視しています。セキュリティ ソフトウェアの信頼性を確保することは最も重要であり、CrowdStrike の問題は、それに伴うリスクを浮き彫りにしました。
CrowdStrike の問題は、迅速なアップデートとシステムの安定性の間の微妙なバランスを強調しています。企業はセキュリティのためにこのようなソフトウェアに大きく依存し続けているため、この事件から学んだ教訓は、将来の慣行やプロトコルを形成する上で非常に重要になります。
注目の画像クレジット: Scoop News Group
Source: CrowdStrike 問題に関する短期集中講座








