障害対応が遅れる本当の理由は「探しもの」:初動10分で動ける“必要情報”を整理

障害対応や緊急対応が遅れる原因は、技術力不足よりも「必要な情報が散在していて初動が止まる」ことが多いです。Slack、メール、スプレッドシート、口頭伝承に情報が分散していると、復旧作業の前に「探す」「確認する」「連絡を待つ」時間が発生します。

制作会社のディレクター/PMは、インフラ専任が薄い体制の中で、顧客・開発・保守会社・各種ベンダーの間に立つ調整役になりがちです。その結果、障害時は復旧作業より先に、ログイン情報・連絡先・切り分けの材料を集める作業に追われます。

この記事では、初動10分で動ける状態を作るために、最低限そろえるべき情報を整理します。ゴールは立派な資料を作ることではなく、緊急時に「どこを見れば、次の行動が決まるか」が明確になっている状態にすることです。

障害対応が遅れるのは「技術」ではなく“探しもの”から始まる

制作会社の現場でよく起きるのが、次のような状態です。

  • Slackに断片的な情報が流れている(例:「DNSは◯◯が見ていたはず」)
  • メールに契約情報が埋もれている(例:どのベンダーで契約しているか分からない)
  • スプレッドシートはあるが更新されていない(例:担当者退職、最終更新が半年前)
  • 「◯◯さんが知っているはず」で口頭伝承になっている(属人化)

障害が発生した直後、最初に必要になるのは復旧作業そのものではなく、「入る」「連絡する」「切り分ける」ための確認です。具体的には次の3つです。

  • どこにログインするか(どの管理画面を見るか)
  • 誰に連絡するか(意思決定者/作業者/外部窓口)
  • どこで問題が起きている可能性が高いか(切り分けの順番)

“初動が止まる”典型シーン(ミニケース)

たとえば、サイトが急に表示できなくなった場合、確認したいのは概ね次の順番です。

  1. DNSが変わっていないか(切替/期限/設定ミス)
  2. CDN/WAFが遮断していないか(ルール変更/誤検知)
  3. Origin(サーバ/コンテナ/クラウド)が停止していないか
  4. アプリやDBでエラーが出ていないか
  5. 監視に何が出ているか、いつからか

ただし現場では、確認の順番が分かっていても、管理画面や窓口が特定できずに初動が止まることが多いです。

  • DNSの管理画面URLが分からない(どのサービスか/誰の名義か)
  • CDN/WAFがどれか分からない(Cloudflareなのか、ALBなのか、別サービスなのか)
  • 監視の通知が誰に届いているか分からない(どのSlackチャンネル/誰のメール)
  • 顧客側の意思決定者に連絡できない(夜間に電話してよいか/誰が承認するか)

つまり「復旧が遅い」の正体は、技術対応そのものよりも、次の3つで止まっているケースが多いということです。

  • ログインできない(管理画面URLが不明/名義が不明/MFAの所在が不明)
  • 連絡できない(顧客の意思決定者・承認者が不明/保守会社の窓口が追えない)
  • 構成が分からない(どこから切り分けるべきかが決まっていない)

制作会社では、インフラ専任が薄い/いないことも多く、障害時の調整がディレクターやPMに集中しがちです。復旧のために手を動かす前に、まず情報を集め、関係者を揃え、判断材料を用意するところから始まってしまう。これが初動遅延の実態です。

初動10分で動くために整理すべき“必要情報”3つ

初動10分で動ける状態とは、「完璧なドキュメントがある」ことではありません。最低限、次の3つが揃っていて、すぐに辿れる状態です。

  • 入れる(権限):必要な管理画面にログインできる
  • 連絡できる(連絡先):判断できる人/作業できる人に連絡できる
  • 切れる(構成):原因候補の範囲を絞り、次に見るべき箇所が決まる

ここでいう「10分」は復旧完了ではありません。10分で次の行動が決まる状態です。たとえば、次ができれば十分です。

  • どの管理画面を見るべきかが分かり、ログインできる
  • 誰に連絡すべきかが分かり、連絡できる
  • 影響範囲の仮説が立ち、切り分けの順番が決まる

1. 権限(入れないと始まらない:管理画面・アカウント・MFA)

最優先は「入れる」ことです。ログインできないと、確認も問い合わせも進みません。

最低限そろえるもの

  • 管理画面URL一覧(DNS/CDN/クラウド/監視/サーバ など)
  • 名義・アカウントの所在(誰が持つ/どこに保管)
  • MFAの所在(誰の端末/どの手段)
  • パスワードは直書きしない(保管場所のリンクにする)

直書きしない理由

  • 更新されず、緊急時に使えない
  • 共有が難しくなり、特定の人に依存する
  • セキュリティ上のリスクになる

現実的な落とし所
ここに書くのは「秘密情報」ではなく「辿り方」です。

  • 管理画面URL
  • 保管場所(1Password/Bitwarden/社内Vault/Backlogの添付やWiki など)
  • 管理者(誰が管理しているか)
  • MFAの所在(認証アプリ/物理キー/SMSなど、誰が持つか)

MFAが不明だと、IDとパスワードが分かっていてもログインできません。だからこそ、MFAは必ず「所在」を記録します。

2. 連絡先(決められないと進まない:顧客・保守会社・ベンダー)

障害対応は技術対応だけで完結しません。判断・承認・外部調整が必ず発生します。

最低限そろえるもの

  • 顧客側:意思決定者/承認者/窓口(夜間・休日ルール含む)
  • 外部:保守会社/クラウド/DNS業者/証明書/CDN/WAF
  • 一次連絡テンプレ(何が起きた/影響/暫定対応/次アクション)

連絡先で重要なのは「役割」
名前があっても、役割が曖昧だと判断が止まります。

  • この人に連絡すれば判断できる(停止/切り戻しの判断)
  • この人に連絡すれば承認できる(作業の許可)
  • この窓口に連絡すれば作業できる(実行部隊)

夜間・休日ルール(最小限)

  • 夜間は電話OKか
  • まず誰に連絡するか(一次窓口)
  • 何分返信がなければ誰にエスカレーションするか

一次連絡テンプレ(要素が揃っていることが重要)

  • 事象:何が起きているか(例:サイトが503)
  • 影響:誰が困っているか(例:全ユーザー)
  • 発生:いつからか(例:10:12頃)
  • 現状:分かっていること(例:監視でCPU高騰、DB接続エラー)
  • 暫定:やったこと(例:再起動、切り戻し検討中)
  • 次:判断が必要なこと(例:一時停止して復旧するか)

3. 構成(どこで落ちているかを切る:依存関係・監視・影響範囲)

構成が曖昧だと、切り分けが当て推量になり、時間が失われます。

最低限そろえるもの

  • 依存関係を1行で(DNS→CDN/WAF→Origin→DB→外部API)
    • 例:example.com → Cloudflare → ALB → ECS → RDS → 外部決済API
  • 監視の入口(何をどこで見て、通知はどこへ)
  • バックアップ/切り戻しの導線(どこに、何世代、復元リンク)

構成図を作り込む必要はありません。1行で依存関係が分かれば、初動の順番が決まり、関係者への説明も早くなります。

監視も設定内容を全部書く必要はなく、最低限は次の3点です。

  • 異常か正常かを判断できるダッシュボードURL
  • 通知先(Slack/メール/電話)
  • アラート履歴を確認できる場所

初動10分の“必要情報チェック”テンプレ

ここからは、前章の3カテゴリ(権限/連絡先/構成)を、そのまま埋められるチェック形式に落とします。
目的は一覧を綺麗に作ることではなく、不足している情報を見える化し、緊急時に辿れる状態にすることです。

最初から全項目を完璧に埋める必要はありません。まずは空欄を出し、「誰に何を確認すれば埋まるか」を決められる状態にします。空欄が見えれば、顧客や保守会社に確認すべき内容が明確になります。

A. 権限チェック(管理画面URL/名義/MFA)

以下の項目を、「どこにログインするか」と「どう辿るか」が分かるように整理します。
パスワードそのものは記載せず、保管場所へのリンクを置く運用にします。

  • DNS管理:管理画面URL/名義/アカウント保管場所/MFAの所在
  • CDN/WAF:管理画面URL/名義/権限者/MFAの所在
  • クラウド:管理画面URL/名義/権限者/MFAの所在
  • 監視:管理画面URL/通知先/閲覧権限
  • サーバ:管理画面URL(または接続情報の保管場所)/作業権限

記入例(目安)

  • 名義:顧客法人名/制作会社法人名(個人名義は要注意)
  • 保管場所:1PasswordのVault名/BacklogのWikiページ/Notionの固定ページ/社内Vaultなど
  • MFAの所在:PM端末/顧客情シス端末/物理キーの保管場所(保管者)など

B. 連絡先チェック(意思決定者/外部窓口/夜間休日)

障害対応では「作業できる人」だけでなく、「判断できる人/承認できる人」が必要です。
連絡先は氏名だけでなく、役割と連絡ルールまで整理します。

  • 顧客:意思決定者/承認者/窓口(連絡手段・対応時間・夜間休日ルール)
  • 保守会社:一次窓口/緊急窓口(契約有無・対応範囲)
  • 各ベンダー:DNS/証明書/CDN/クラウド(問い合わせ方法・ログイン要否)

一次連絡テンプレ(コピペ用)

  • 事象(何が起きた):
  • 影響範囲(誰に影響が出ている):
  • 発生時刻(いつから):
  • 現状(分かっていること):
  • 暫定対応(実施済みのこと):
  • 次に判断が必要なこと(承認・方針決定が必要な点):

補足:問い合わせ方法まで書く理由
「問い合わせフォームしかない」「電話がある」「チャットがある」だけでも初動が変わります。
また、問い合わせ自体にログインが必要なベンダーもあるため、連絡先は権限情報(A)とセットで管理します。

C. 構成チェック(DNS→CDN→サーバ→DB→外部API)

構成は作り込んだ図よりも、初動で切り分けの順番を決められる情報が重要です。
まずは依存関係を1行で書ける状態にします。

  • 依存関係(1行):
    • 例:example.com → Cloudflare → ALB → ECS → RDS → 外部決済API
  • 監視の入口(どこを見る):
  • 通知先(誰に届く/どこに届く):
  • 影響範囲の見立て(例:全ユーザー/ログインのみ/購入のみ/管理画面のみ):

補足:影響範囲は粗くて構いません
最初の説明で必要なのは精密な分析ではなく、一次報告としての見立てです。
「全ユーザー」「主要機能に影響」「管理画面のみ」程度でよいので、すぐ書ける形にします。

D. 監視・バックアップ・切り戻し導線チェック

緊急時に必要なのは、設定の詳細よりも「どこを見て」「どこへ戻せるか」です。
以下はリンク中心で整理します。

  • バックアップ:対象/頻度/保持世代/復元手順リンク
  • 切り戻し:戻す先(前設定/前リリース)/実行手順リンク
  • 緊急時の判断基準:切り戻しを検討する条件(例:復旧見込みが立たない、影響が大きい)

判断基準の例(置けるなら強い)

  • 30分以上、復旧見込みが立たない場合は切り戻しを検討する
  • 決済/会員など主要機能に影響が出ている場合は、まず復旧を優先する(機能制限も選択肢に含める)
  • 顧客承認が必要な場合は、承認者を連絡先に紐づける(Bと接続する)

E. 変更履歴(最小限):原因特定と切り戻しのため

「いつからおかしいか」が分からないと、原因特定も切り戻し判断も遅れます。
詳細ログを完璧に残す必要はありません。最小限の履歴だけ残します。

  • 変更日/変更者/対象
  • 変更内容(1行)
  • 根拠(チケットURL/依頼URL)
  • 戻し先(前設定/前バージョン)
  • 影響(あれば)

この履歴があるだけで、「直近の変更に当たりを付ける」「戻し先を迷わない」といった初動が早くなります。

初動10分を維持する:必要情報チェックの更新ルール

チェックは作った直後が最も整っています。更新されないと、緊急時に使えません。
そのため、ルールは「少なく、確実に」を優先します。

1. 変更作業の完了条件に「必要情報チェック更新」を入れる

最も危険なのは、「変更したのにチェックが古い」状態です。
変更作業のDone条件に入れるだけで、更新が作業の一部になります。

  • DNSを変えた → DNS欄を更新する
  • CDN/WAFのルールを変えた → 管理画面URL・変更履歴・影響範囲を更新する
  • 監視通知先を変えた → 通知先と閲覧手順を更新する

2. 月1で“最終更新日だけ”見

全部見直す運用は継続しません。月1で確認するのは次の2点だけで十分です。

  • 最終更新日が古い箇所がないか
  • 空欄が減っているか(埋めるべき情報が放置されていないか)

必要があれば、優先順位は「権限・連絡先」から先に更新します。

3. 障害後に1つだけ追記する

再発防止を大きくしすぎると、結局続きません。
障害後は「今回詰まった箇所」を1つだけ改善します。

  • 連絡先が分からなかった → 連絡先欄を埋める
  • MFAが不明だった → MFAの所在を追記する
  • 切り戻し導線がなかった → 戻し先リンクを追記する

小さく直し続けることで、チェックが実務に馴染んでいきます。

よくある失敗と回避

詳細を書きすぎて更新できない → リンクハブにする

チェックは「覚え書き」ではなく「入口」です。
詳細手順や構成図までここに書くと、更新コストが上がり、古くなります。
チェックにはリンクを置き、詳細は別ドキュメント(手順書/構成図/チケット)に逃がします。

作った人しか分からない → オーナー/更新責任者を決める

属人化の原因は「誰が更新するか不明」なことです。
制作会社の体制ではPMがオーナーになりやすいので、最初から割り切って決めた方が運用が安定します。

  • オーナー:更新の責任者(必ず1名)
  • 代替:不在時に更新する人(兼務でも可)

緊急時に見つからない → 保管場所を固定+権限設計

緊急時に「どこにあるか」を探している時点で初動が遅れます。
保管場所は1つに固定し、URLを共有し、閲覧権限は必要な範囲で広めに設定します。

  • 例:BacklogのWiki固定/Notionの固定ページ/Google Driveの固定フォルダ など

パスワードを直書きして破綻 → 保管場所リンクに統一

パスワードの直書きは「更新されない」「共有しづらい」「管理上のリスクが増える」につながりがちです。
最初から「保管場所リンク」に統一すると、更新負荷が下がり、運用が続きます。

まとめ:探しものを無くせば、初動は10分で動き出す

障害対応が遅れる原因は、技術の前に「探しもの」で初動が止まることです。
初動10分で動けるようにするために、まずは次の順番で整理してください。

  • 権限:必要な管理画面に入れる状態を作る
  • 連絡先:判断できる人・作業できる窓口に連絡できる状態を作る
  • 構成:切り分けの入口と、切り戻しの入口を用意する

全部を完璧に揃える必要はありません。まずは「辿れる導線」を先に整えることが最短で効きます。

コーポレートサイトクラウドでセキュアに

コーポレートサイトをクラウドでセキュアに クロジカガイドブック

サーバー管理
クロジカガイドブック

「クロジカサーバー管理」の詳しい内容がわかる資料をご用意しました。
  • コーポレートサイト構築・運用の課題を解決
  • クロジカサーバー管理の主な機能
  • 導入事例
  • 導入までの流れ

詳しい資料をご覧いただけます

クロジカサーバー管理のサービス内容を記載した資料をダウンロードできます。
クロジカの機能や事例が分かる
資料ダウンロード