こんにちは。「クロジカサーバー管理」 IT/テックライターのkait78です。
サーバーは24時間・365日稼働してシステムやアプリケーションサービスをユーザーへ提供し続けています。そのため、サーバーには定期的なメンテナンスが必要です。
しかし、企業によってはサーバー管理に人手を割くリソースがない場合や外部委託に任せようにもサーバーについて不明点が多く、「とりあえずサーバーは動いているからいいか」とサーバーの管理を「ほったらかし」で運用しているWebご担当者さまもいるかと思います。
サーバー管理を怠ることは危険なのでしょうか?
今回は、「ほったらかし」サーバー管理に焦点を当てて解説していきます。
目次
サーバー管理とは?
サーバー管理とは、企業のホームページやアプリケーションを動かしているサーバー本体の状態管理やリソースの監視・セキュリティ対策などを行うことを指します。
多くの企業はサーバー管理のために自社内で監視・運用チームを構築したり、サーバー管理会社に委託を行って、24時間・365日のサーバー管理を実現しています。
「ほったらかし」サーバー管理でもサーバーは動く
サーバー管理は24時間・365日実施したほうが良いのですが、実際には「ほったらかし」サーバー管理でも、企業ホームページやアプリケーションは問題なく動いているケースが数多くあります。しかし、「ほったらかし」で動いているサーバーは、今のところ運良く正常に動いているだけの可能性があります。もしくは、気づいていないだけで、既に潜在的に影響が出ている場合があります。
続いて、サーバー管理を怠った場合に発生するリスクを解説します。
サーバー管理を怠った場合に発生するリスク
サーバー管理を怠っている場合、下記のようなリスクが発生します。
- システム・アプリケーション障害
突然、システムやアプリケーションが正常に動かなくなるリスクがあります。
たとえば、システムやアプリケーションを動かしているサーバーが故障した場合や、サーバーのCPUなどのリソースが足りなくなるケースです。サーバー管理をしていれば、故障やリソースの枯渇を事前に把握して、対策を立てることで障害を未然に防ぐことができます。
- 長時間障害
サーバー管理を怠っている場合、障害発生時に復旧までの時間が長期化するリスクがあります。たとえば、サーバーのバックアップが保存されていなかった場合や、バックアップの保存場所が分からなかったり、そのデータのリストアする手順が不明な場合に長時間障害となってしまいます。長時間障害は、その間システムやアプリケーションが利用できなくなるため、会社の信頼やビジネスにおいて深刻な影響を及ぼします。
- セキュリティインシデント
セキュリティインシデントが発生するリスクもあります。OSやミドルウェア・プラグインなどのソフトウェアは、開発会社により定期的にアップデートが行われています。これは、ソフトウェアの機能の充実という側面もありますが、脆弱性が発見された場合はその脆弱性の解消が目的です。
サーバーのバージョンアップを怠っている場合、サーバーの脆弱性を突かれ、ハッキングや個人情報の漏洩などセキュリティインシデントに繋がります。
- ユーザー体験(ユーザーエクスペリエンス)の低下
Web担当者からは、システムやアプリケーションは問題なく動いているように見えていますが、実はユーザー体験(ユーザーエクスペリエンス)が低下している場合があります。
たとえば、システムやアプリケーションにおいて、ユーザーが最も利用する時間帯がWeb担当者が見ていない夜間の場合などです。ユーザー利用がある特定の時間に集中すると、サーバーの負荷が高まり、ページの閲覧や読み込み速度が遅くなっている場合があります。
「ほったらかし」のサーバー管理は上記のようなリスクがあると分かりました。これらが発生しないようにするには日々のメンテナンスが重要です。
サーバー管理で最低月1回で確認しておくべきポイント4つ
ここまでの解説で、サーバーの管理の重要性は理解されたと思いますが、日々の担当業務もある中で毎日サーバー状態の管理をするのは現実的に難しいWebご担当者様もいると思います。
そこで、サーバー管理において最低限・月1回でも確認しておくべきポイントをご紹介します。
※こちらは、あくまでサーバー管理の最低限の確認ポイントであり、このポイントを抑えればサーバー障害が発生しないというものではありません。
サーバー状態・リソースの確認
サーバーの状態・リソースの確認を月に一度確認しておきましょう。
基本的にサーバー状態やリソースは急激に状況・状態が変化するものではありません。日々のサーバー利用で徐々に変化していく項目であるため、毎月のサーバー状態・リソースの増加傾向を把握しておきましょう。
サーバーの状態・リソース項目は下記です。
- CPU
サーバーのCPU使用率を確認します。CPU利用率は0%〜100%の間で表され、100%になっている場合は高負荷状態のため、いつサーバーが停止してもおかしくありません。
そのため、CPU使用率の平均が80%程度になった場合にサーバー性能アップなどを検討し、使用率90%になるまでには対策をしましょう。上述したように、ユーザーがメインで利用する時間帯が夜間の場合は、その時間に合わせてCPU使用率を確認し、より正確な状態が把握できます。
- メモリ
サーバーのメモリ使用量を確認します。サーバーにはそれぞれメモリサイズ(一般的にはギガバイト単位)が決められており、メモリサイズが上限に近い場合はCPUと同様に高負荷状態となっています。システムダウンやエラーが発生する原因となります。
そのため、サーバーのメモリサイズを把握しておき、メモリも全体の80%使用している場合はメモリの増設などを検討します。
- ストレージ
サーバーのストレージ・ディスク容量を確認しましょう。サーバーにはそれぞれディスク容量が決まっています。ディスク容量を超えるデータは保存ができません。そのため、ディスクの空き容量を確認し、容量不足にならないよう注意します。その場合は、不要なデータを削除するなどの対応を行います。
- 冗長機能
サーバーが冗長機能を持っている場合は、冗長機能の確認をしましょう。サーバーが1台故障した場合でも、システムやアプリケーションが正常に動作するようにサーバーが2台構成で動いている場合があります。
しかし、1台目の故障に気づかずに2台目が故障した場合、冗長が機能せずにシステム・アプリケーション障害が発生します。冗長機能が正常に動く状態であるか確認しておきましょう。
バックアップの取得確認
サーバーの定期的なバックアップ取得がされているか確認しておきましょう。
障害が発生した場合は、サーバーの状態にもよりますが、取得したバックアップから復元・復旧する場合があります。たとえば、バックアップが取得できていない場合は、一からOSやプログラムを設定しなくてはなりません。また、バックアップ取得日が数年前のデータの場合は、現在から取得日までのデータ復元ができなくなります。
バックアップの取得期間を把握し、最新のバックアップが取得できているか月に1度は確認しておきましょう。ただし、この場合はバックアップの取得失敗に気づくまで最大1か月かかります。障害から復旧させる場合に、1か月前のデータでの復旧を会社として許容できるかの判断が必要です。
ソフトウェアなどのバージョン確認
サーバーに使用されているソフトウェアやミドルウェアのバージョンを確認し、最新のセキュリティパッチやアップデートをするべきか確認しましょう。古いバージョンのソフトウェアはセキュリティ上の脆弱性を抱える場合があり、定期的なアップデートが必要です。しかし、ゼロデイ攻撃など脆弱性が発見されたその日に攻撃するケースもあるため、出来るだけ早期の対応が必要です。
Webサイト・システムの確認
ウェブサイトやアプリケーションの動作や表示、機能などを定期的に確認しましょう。サーバーも問題なく稼働しており、Web担当者やユーザーでも気づいていないバグや未知のリスクが潜んでいる可能性があります。
また、毎月確認をしておくと、いざという時に「あれ?おかしいな」という違和感や気づきが生まれます。障害が発生した際も、正常時の挙動と比較ができるため、早期の復旧に役立てることができます。
しっかりとしたサーバー運用はどのようなことをしている?
それでは、サーバー管理を「ほったらかし」にしていない企業はどのようなことをしているのでしょうか。しっかりとしたサーバー管理についてご紹介します。
サーバー状態・リソース確認ツールの導入
サーバー状態・リソース確認はツールを導入して、自動で管理をしています。
CPUやメモリ使用率が上昇すると、監視システムからメールやアラートが出力されるように設定します。監視システムは無料で利用できるシステムもありますが、システムによって、ライセンス料や別途サーバーが必要な場合、月額費用として利用料が発生する場合があります。
監視システムをいくつかご紹介します。
- CloudWatch
AWS(Amazon Web Service)というクラウドサービスの中のサービスの1つです。オンプレミス・クラウドのサーバーのどちらも監視可能です。
導入が簡単で初期費用はかかりませんが、監視項目数により料金が発生します。https://aws.amazon.com/jp/cloudwatch/
- Zabbix(ザビックス)
オープンソースのソフトウェアであり、無料で利用が可能です。ですが、Zabbixをインストールするサーバーが別途必要です。
初期設定はサーバーコマンドで実施し、チューニングも必要になります。https://www.zabbix.com/jp
- Nagios(ナギオス)
こちらも、オープンソースのソフトウェアです。他のシステムと同様、監視データの収集やアラート通知など基本的な監視が可能です。
しかし、Nagios自体が古いソフトウェアであるため、操作性やグラフィックなどはひと昔前のユーザーインターフェースとなっています。
https://www.nagios.org/
バックアップ取得・リストア(復旧)訓練
定期的なバックアップの取得とリストアの訓練を行います。
バックアップの取得方法や自動取得の仕様を把握し、そのバックアップデータを復元する手順を確認し、早期に障害から復旧できるような訓練を行います。
ソフトウェアの適切なバージョンアップ
サーバーに使用されているソフトウェアやミドルウェアのバージョンを定期的に確認し、最新のセキュリティパッチやアップデートを適用します。
脆弱性やセキュリティリスクを最小限に抑え、安定した運用をしています。
Webサイト・システム確認方法のマニュアル化
Webサイトやシステムの運用に関する手順や設定をマニュアル化し、運用チームや関係者が迅速かつ正確に対応できるように整備します。
障害対応やトラブルシューティング時に役立ち、作業の効率化にも繋がります。
クロジカサーバー管理で疑似「ほったらかし」サーバー管理を!
クロジカが提供する「クロジカサーバー管理」は、上記のような「ほったらかし」サーバー管理のリスクを軽減するためのソリューションです。
クロジカサーバー管理では、24時間の常時監視・定期的なバックアップの取得・セキュリティ運用など、総合的なサーバー運用を代行します。
Webサイトのご担当者さまはサーバー管理に時間を割かず、本来の業務に集中できます。
クロジカサーバー管理を活用して、疑似的に「ほったらかし」サーバー管理を実現しましょう!
ライター:kait78
元大手通信事業者のインフラエンジニア。ネットワーク・サーバー・AWS領域でIT/テック記事に特化した記事を執筆。Webサーバーにまつわる課題や悩みに対して実務経験を基にした、現場社員目線の課題解決となるアイデアを提供します。
コーポレートサイトをクラウドでセキュアに
無料ではじめるサーバー管理
クロジカガイドブック
- コーポレートサイト構築・運用の課題を解決
- クロジカサーバー管理の主な機能
- 導入事例
- 導入までの流れ