メインコンテンツまでスキップ

第12章:障害対応の基本手順を作ろう 🚨

障害が起きたとき、慌ててログを開くだけだと迷いやすいです。
見る順番を決めたrunbookを作っておくと落ち着いて対応できます。


1. まず影響範囲を見る 🧭

最初に知りたいのは「どれくらい困っているか」です。

  • 全ユーザーか
  • 一部routeだけか
  • 特定機能だけか
  • 管理画面だけか
  • 外部API連携だけか

影響範囲が分かると、優先度を判断しやすくなります。


2. 次に全体メトリクスを見る 📊

Workers Analyticsで全体を確認します。

エラー率
リクエスト数
実行時間
CPU time
ステータスコード

急に変化した時間帯を見つけます。


3. 直近変更を見る 🧩

障害の直前に何が変わったかを確認します。

  • デプロイ
  • migration
  • wrangler設定
  • secret変更
  • 外部API設定
  • DNSやRoute設定

新しい変更が原因とは限りませんが、有力な手がかりです。


4. 個別ログで原因へ近づく 🔎

全体像を見たあと、個別ログを見ます。

requestId
jobId
route
status
error message
durationMs

同じエラーが繰り返されているか、特定データだけで起きるかを見ます。


5. 章末チェック ✅

  • 障害時は影響範囲から見ると分かる
  • メトリクスで全体を確認できる
  • 直近変更を確認すると分かる
  • 個別ログで原因に近づける
  • runbookを作る意味が分かる

この章で覚える一言はこれです。
障害対応は、影響範囲 → 全体メトリクス → 直近変更 → 個別ログの順に見ると落ち着きます 🚨

Chapter 12 Summary Check

Incident Response Runbook Summary