

【運用管理の勘所②】9つの管理項目
システムマネジメントサービス部の蝶野です。
運用方法論は9つの「管理項目」で構成されています。


日常的な運用現場のどんなシーンで、どの管理が必要になるか、具体的な場面を想定して解説しましょう。
新たにシステムを全面的に更新するケースはまれなので、ここでは既に稼動しているシステムのデータを活用し、企業として新しいサービスを顧客に提供しようとした場合にどのような事象が発生するか考え、これに付随してどのような運用管理が発生するのかを述べていきます。
想定シーン
新サービスのために顧客インターフェイスとしてインターネットを活用することとした。サーバーは企業PR用のものが既にあったが、これとは別にさらに信頼性の高いものを用意し、24時間×365日稼動させることを目標とした。商品データは既にあるデータベースから抽出するが、顧客データは新サービスを通じて新たに収集した後、既存システム側にも反映してマーケット分析に活用できるようにする。
このような要件にあわせて、システム開発部門は新しい資源を用意して開発を開始した。システムの企画から運用までを時系列に追ってみよう。
具体的な場面
シーン1:機密管理
既存システムは社内利用を前提に権限を定義して運用していたが、新システムはインターネットを通じて広く 公開されるため、コンサルタントにセキュリティ設定の指導を受け、ファイアーウォールなどを実装し、セキュリティバイオレーションの検出と対応手順を用意することとした。
シーン2:資産管理
最初の一年間の需要予測をたててシステム規模を見積り、必要資源を調達するための投資決裁書を作成し、承認を受けた。その後、製品の無償保守期間の確認を行い、購買部門にハードウェア購入、保守契約とソフトライセンス契約の依頼を行なった。 購入した資源は資産として登録した。
シーン3:稼働管理
新システムで収集する顧客情報を既存システムに反映する際、既存システムのバッチジョブの一部を修正した方が良いことがわかり、既存システムのスケジュール修正を実施した。こうして当初予定通り、本番システムに新システムの導入を開始した。
シーン4: 構成管理
本番に移行した新システムに関する機器を、既存システム構成図の中にすべて追記し、機器の詳細表を新たに追加した。新しく契約したソフトライセンス、追加ライセンスも一覧表に追記した。
シーン5: 配布管理
既存システムで使用している外字を、新システムのヘルプデスクでも使えるようにするため、該当PCに外字データを自動反映するしくみを構築した。既存システム側のスケジュールと同期して、外字データをサーバー経由で配布しPC内の辞書データを自動更新することとした。
シーン6: 変更管理
今後のシステム変更が円滑にかつ整合性のとれたものとして維持できるように、本番移行をシステム的に管理できるようにした。
シーン7: 問題管理
このBtoCサービスのために、顧客からの問い合わせに円滑に対応し、対応情報を蓄積できるしくみを別途用意し、新設のヘルプデスクが利用を開始した。クレームの中にはシステムの不具合も含まれるので、システム運用部門に速やかに連絡が入るようにした。運用部門では、その内容を調査し、原因の特定を行い、さらには同一障害の発生時に速やかに切り分けが可能となるよう、障害管理データベースを用意した。
シーン8: 性能管理
実際に運用に入ってしばらくすると、顧客から「レスポンスの悪い時がある」という問い合わせが入った。該当する時刻の負荷状況のデータを調べたところ、トランザクションのピークではない時間帯に問題が発生していることがわかった。
シーン9: 問題管理
そこで根本原因を調査すべく、アプリケーション設計・開発担当者、運用設計者、運用管理者などを招集して原因分析会議を行なった。
シーン10: 性能管理
結果として、パッケージの不具合が原因であることが判明した。その修正版が出荷されるのが来月であることがわかり、これを反映するための計画を立てるとともに、日々の稼動状況を把握するためのデータ項目を新たに追加することにした。
シーン11: 変更管理
具体的な反映日、テスト方法、失敗時の対処などの詳細をつめて、実施許可を運用部門責任者から取り付けた。
シーン12: 性能管理
この修正を反映してからは、レスポンスに関する問い合わせは少なくなったが、新商品の発売案内を出した直後の昼前にはトランザクションが普段より一桁多く、クレームを頂くことがあった。品揃えの増加と共に、日平均のページビューも増加し続けているので、今まで月単位で実施していたパフォーマンス・データ分析を週単位で行うことにした。
シーン13:性能管理
さらに過去一年のデータを使った季節変動傾向を加味して、現状の環境の増強時期を予測した。システムパラメータ、データベースソフトのパラメータなどのチューニングも並行して実施し、予測時期までにシステムの追加計画を立案し、追加投資の決済を仰ぐことにした。
シーン14:回復管理
そのような折に、システムの電源系の障害で一台のサーバーがダウンした。サーバーは多重化してあったので、サービスそのものが停止するまでには至らなかったが、負荷の増加する時間帯まで間が無かったので、既に用意していた回復手順に従って速やかに復旧し、事なきを得た。様々な障害を想定し、障害発生時の対処についてリハーサルも実施していたので、大した混乱もなく正常稼動に戻すことができた。
典型的な事象のみを取り出していますので、相互関連などわかりにくい点があったかもしれませんが、9つのシステム運用管理項目の必要性は感じとって頂けたと思います。それぞれの管理項目の概要は本連載記事で紹介します。