監視の棚卸しできてますか？クライアントに確認する前に整理すべき20項目

制作会社の現場では「監視しています」という表現が頻繁に使われます。しかし、障害や性能劣化が起きた瞬間に問われるのは「監視しているかどうか」ではなく、監視が運用として機能する設計になっているかです。

ここでいう「機能する」とは、単にメトリクスを見ている状態ではありません。少なくとも、以下の要素が定義され、関係者が参照できる状態です。

何を監視するか（対象・範囲）
どの条件で異常とみなすか（しきい値・判定）
誰が通知を受けるか（一次受け・当番）
いつ対応するか（対応時間・例外）
最初に何を確認するか（初動手順）
どこへ連絡するか（エスカレーション：連絡順・判断基準）
何を残すか（記録・証跡）
どう改善するか（振り返り）

通知先／対応時間／初動／連絡順が未定義のままだと、障害時に「通知は来たが誰も動けない」「動いたが判断できない」「連絡先が分からない」が連鎖し、調整負荷が制作会社側に集中しやすくなります。

本記事は、クライアント（※必要に応じて既存保守会社・開発会社・前任ベンダーなど関係者を含む）へ確認に走る前に、制作会社側で前提・範囲・運用条件を棚卸しするための20項目をまとめたものです。提案フェーズ・運用フェーズのどちらでも、「監視が機能している状態」かどうかを点検できます。

1 なぜ監視の棚卸しが必要か
- 1.1 「監視している」の認識違いが、期待値ズレ／初動遅延／属人化につながる
- 1.2 制作会社はインフラ専任が薄く、調整負荷が集中しやすい
2 監視は「項目」ではなく、運用設計（通知・初動・判断）の整備である
- 2.1 棚卸し不足で発生しやすい典型的なズレ
3 クライアントに確認する前に整理すべき20項目
4 2. 監視項目（Q5〜Q10）
5 3. しきい値とアラート設計（Q11〜Q14）
6 4. 通知・初動・当番（Q15〜Q18）
7 5. 証跡・改善（Q19〜Q20）
- 7.1 Q19. 履歴と対応記録を残す場所（チケット／運用台帳等）
- 7.2 Q20. 振り返り方法（月次レポ、再発防止の決め方）
8 未設計があった場合の整備手順
9 まとめ
- 9.1 棚卸しで押さえるべき結論
- 9.2 次にやること

なぜ監視の棚卸しが必要か

「監視している」の認識違いが、期待値ズレ／初動遅延／属人化につながる

「監視しています」という言葉が指す内容は、関係者ごとに異なります。

クライアント：「外形も死活も性能もアプリも見ている」
制作会社：「死活（落ちたら通知）だけ」「通知設定はあるが運用は未整備」
既存保守会社：「監視は既存がやっているはず」だが、実態は範囲が限定的

この認識差が残ったまま進むと、障害発生時に次のような摩擦が起きやすくなります。

「監視しているなら、なぜユーザーからの連絡が先なのか」
「通知は来ていたが、一次受けが不在で見ていなかった」
「営業時間外の扱いを決めていなかった」
「復旧の定義が一致せず、連絡が遅いと言われた」

技術的な復旧の難しさ以前に、期待値ズレによる信頼毀損が先に発生しやすい点が、監視で問題になりやすいところです。

制作会社はインフラ専任が薄く、調整負荷が集中しやすい

制作会社では、インフラ専任がいない／薄い状態で、PM・ディレクター・営業が「調整役」になりがちです。監視の運用設計が曖昧だと、障害時に次のような「詰まり」が起きます。

誰に連絡するかが分からず、連絡が遅れる
監視ツールやクラウドの権限が揃っておらず、確認に時間がかかる
初動の確認順がなく、切り分けが止まる
結果として、調整役に負荷が集中する

だからこそ、ツールの話をする前に、まず棚卸しで設計の穴を可視化することが重要です。

監視は「項目」ではなく、運用設計（通知・初動・判断）の整備である

監視は「CPUを見てます」「死活監視があります」という項目の有無だけでは成立しません。監視が運用として機能するのは、検知→通知→初動→判断→エスカレーション→記録→改善がつながっているときです。

たとえば、通知が来ても一次受けが不在なら「気づけない」。気づいても初動が未整備なら「動けない」。動いても判断基準やエスカレーションが曖昧なら「止まる」。記録と振り返りがなければ「同じことを繰り返す」ことになります。監視は「点」ではなく「線」です。

棚卸し不足で発生しやすい典型的なズレ

通知設計の過不足により、重要アラートの見落としが起きる

通知が多すぎると埋もれ、少なすぎると検知できません。重大度の段階がないと、夜間に不要な通知で疲弊し、結果として重要通知の見落としにつながりやすくなります。

初動手順が未整備で、検知後の対応が遅れる

「まず何を見ればいいか」が決まっていないと、外形・死活・直近の変更・ログ確認がばらばらになり、切り分けが遅れます。

当番・運用時間・エスカレーションが曖昧になり、調整負荷が集中する

誰が一次受けするか、対応時間はどこまでか、誰に繋ぐかが曖昧だと、結局PM／ディレクターが交通整理をする構図になりがちです。

記録・振り返りがなく、改善が継続しない

対応内容を記録しないと、改善が回らず同種の通知・事故が繰り返されます。

次の章の20項目は、こうしたズレを潰すための棚卸し観点です。

クライアントに確認する前に整理すべき20項目

この20項目で整理できること

監視が「機能している状態」かどうかを判断できる
不足があれば、未整備箇所（通知／初動／当番／証跡など）を特定できる
整理した内容を、社内共有・引き継ぎ・クライアント説明に転用できる

ポイントは「クライアントに確認する前に」です。確認そのものが悪いのではなく、「何を確認すべきか」が曖昧なまま関係者に聞き始めると、情報収集が長期化し、属人化しやすいためです。先に観点を揃えてから確認に走るだけで、確認の抜け漏れが減り、質問が具体化します。

棚卸しの進め方

答えられない項目＝未整備として扱う
完璧を目指すより、最低ラインを先に固める（後述のStep1が最優先）
決まった内容は議事録・運用メモに残し、更新できる形にする

補足として、確認先は「クライアント」だけとは限りません。既存保守会社・開発会社・前任ベンダーなど、情報が分散しているケースは多くあります。棚卸しは「誰に聞くか」ではなく、まず「何を確認するか」を確定させる作業です。

1. 目的と対象範囲（Q1〜Q4）

Q1. 監視の目的（早期検知／兆候検知／セキュリティ兆候など）

監視の目的が曖昧だと、必要な項目も通知の設計もぶれます。
例：止まると困る（死活）／遅くなると困る（応答・性能）／エラー率が困る（アプリ）／兆候検知がしたい（容量や遅延の傾向）

Q2. 監視範囲（外形・サーバー・DB・ミドルウェア・アプリ・ジョブ・証明書等）

どこまでを監視対象に含めるかを決め、関係者で認識を揃えます。特に「アプリ監視」「ジョブ監視」は抜けやすいので要確認です。

Q3. 対象環境（本番のみ／検証含む）

本番だけなのか、検証も含めるのかを整理します。検証を含める場合は、通知疲れを防ぐ設計（通知先や抑止）も合わせて検討が必要です。

Q4. 「異常」の定義（停止・遅延・エラー率・逼迫など）

「異常」の定義がないと「通知は来たが対応判断ができない」状態になります。
例：応答時間が何秒を超えたら異常か／エラー率が何％で異常か／容量は何％で要注意か

2. 監視項目（Q5〜Q10）

Q5. 外形監視（頻度・判定条件・監視地点）

URL監視は最小限の監視として有効ですが、頻度・地点・判定条件次第で価値が変わります。
例：1分間隔か5分間隔か／複数地点が必要か／200でもエラー画面を返すケースを拾えるか

Q6. 死活監視（単位：VM／コンテナ／LBなど）

何を単位として「落ちた」と判断するかを整理します。インフラ構成によっては、VMが生きていてもLB配下が死んでいる状態が起きます。

Q7. リソース（CPU／メモリ／ディスク／IO／ネットワーク）

見るだけでなく、しきい値や段階とセットで考えます。特にディスク逼迫は兆候検知として代表的で、気づけると事故を減らせます。

Q8. アプリ（500率、ログエラー、APM等）

サーバーが生きていてもアプリが止まるケースは少なくありません。
例：500が増える／特定APIだけ遅い／ログに特定エラーが増える

Q9. バッチ／ジョブ（失敗・遅延・未実行の検知）

「失敗」だけでなく「走っていない」「遅れている」を拾えるかを確認します。売上や業務に直結する処理ほど、外形より先にジョブ監視が有効な場合があります。

Q10. 期限（SSL証明書・ドメイン等）

期限系は影響が大きい一方で、設計が後回しになりがちです。何日前に誰へ通知し、誰が更新するかまで決めます。

3. しきい値とアラート設計（Q11〜Q14）

Q11. しきい値の決め方（固定／平常値比／時間帯別）

固定値で良いか、平常値からの乖離を見るか、時間帯で分けるかを整理します。「正解」より、まず「根拠の置き方」を決めることが重要です。

Q12. 段階（Warning／Critical）と、それぞれの条件

段階がないと、通知が「全部同じ重さ」になり、運用が疲弊します。まずはWarningで兆候を拾い、Criticalで即時対応、のように整理します。

Q13. 誤検知 vs 検知遅れ、どちらを優先するか（方針決定／判断基準の明確化）

サービス特性で最適が変わります。
例：ピーク時は検知遅れを避けたい／開発中は誤検知を抑えたい

Q14. メンテ時の抑止（サイレンス）の手順（誰が／どうやる）

メンテで鳴り続ける→慣れて無視→本番の重大アラートも見落とす、という流れは典型的な事故パターンです。「誰が」「どの手順で」「いつ解除するか」まで運用として定義します。

4. 通知・初動・当番（Q15〜Q18）

Q15. 通知先（メール／Slack／Teams／電話）と一次受け

「通知が飛ぶ」ではなく「誰が受ける」が主語です。一次受けが曖昧だと、監視の効果が出にくくなります。

Q16. 運用時間（監視の対応時間（何時〜何時、誰が一次受けするか））と例外条件

24／365か、営業時間か、ベストエフォートか。重要なのは「言い切る」ことではなく、線引きを明文化することです。
例：時間外は重大障害のみ連絡／一次受けはするが復旧は翌営業日

Q17. 初動手順（最初の5分で確認する項目）

初動は完璧な手順書でなくて構いません。まずは5分の固定化が有効です。
例：外形→死活→直近変更（デプロイ／設定変更）→ログ→影響範囲

Q18. エスカレーション（連絡順・連絡手段・判断基準）

誰に、どの順で、どう繋ぐかを整理します。連絡順が曖昧だと、障害時に「関係者探し」が始まり、初動が遅れます。

5. 証跡・改善（Q19〜Q20）

Q19. 履歴と対応記録を残す場所（チケット／運用台帳等）

チャットだけに残すと、後から振り返れません。「最低限どこに残すか」だけでも決めると、改善が回り始めます。

Q20. 振り返り方法（月次レポ、再発防止の決め方）

監視は運用で育てるものです。
例：月次でアラート件数・重大度・誤検知・再発を確認し、しきい値と通知設計を調整する

未設計があった場合の整備手順

20項目を埋めると、必ず「答えられない」「曖昧」が出ます。ここからが本番です。未整備を一気に全部埋めようとすると止まりやすいので、最短で「機能する監視」に寄せる順番で進めます。

Step1｜決める（検知して動ける状態を作る）

ここが未整備だと、監視ツールがあっても機能しません。まず最低ラインを作ります。

一次受け（通知先）：誰が受けるか（担当／当番／窓口）
運用時間（いつ誰が見るか）：対応時間・例外条件
初動（最初の確認手順）：最初の5分の確認順
エスカレーション（誰に繋ぐか・判断基準）：連絡順と判断ライン

ポイントは「完璧」ではなく「止まらない」ことです。Step1が揃うだけで、障害時の交通整理に費やす時間が減ります。

Step2｜整える（見落とし・疲弊を防ぐ）

次に「監視はあるのに役に立たない」状態を防ぎます。通知の質を上げる工程です。

しきい値の根拠（固定値／平常値比／時間帯別）
段階（Warning／Critical）
メンテナンス時の抑止（サイレンス）手順

Step2は、アラート疲れによる見落としを防ぐ意味でも重要です。特にメンテ時の抑止は、Step2の中では優先度が高い項目です。

Step3｜仕組みにする（改善を回す）

最後に、同じ課題を繰り返さない仕組みを作ります。ここまで来ると監視が運用として改善される状態になります。

履歴・対応記録の置き場
振り返りの頻度と観点（アラート削減／再発防止）

詰まりやすいポイント

運用時間を決めきれない（期待値が怖い）

「24／365か否か」ではなく、まずは一次受け可能な時間帯、時間外の扱い、緊急時の例外に分けて線を引くと決めやすくなります。

初動手順の粒度が分からない（どこを見るべきか）

まずは「最初の5分」だけ固定化します。完璧なRunbookは後から育てれば良い、という割り切りが重要です。

しきい値の基準が作れない（根拠不足）

いきなり正解を決めず、Warning→Criticalの段階を作り、1〜2週間の観測で調整する前提にすると進みます。

まとめ

棚卸しで押さえるべき結論

この棚卸しで得たい成果は、「監視しています」を運用として説明できる状態にすることです。項目の数ではなく、検知後に止まらず動ける条件が揃っているかを確認してください。

監視は「項目」ではなく、運用設計（通知→初動→判断）
未設計があれば、Step1→2→3の順で埋める
特にStep1（通知先／運用時間／初動／エスカレーション）が最優先

次にやること

ここから先は、棚卸し結果を“未整備のタスク”に変換するだけです。答えられない項目は未整備として扱い、前提に合わせて埋めていきましょう。

まずは20項目を埋める（答えられない＝未整備を可視化する）
未整備が出たら、Step1から最短で整備する
詰まったら、前提に合わせて落とし込む支援を使う

コーポレートサイトをクラウドでセキュアに

クラウドサーバー管理
クロジカガイドブック

「クロジカクラウドサーバー管理」の詳しい内容がわかる資料をご用意しました。

コーポレートサイト構築・運用の課題を解決
クロジカクラウドサーバー管理の主な機能
導入事例
導入までの流れ

資料を無料ダウンロード