検索
Special

みずほ銀行が語る「オブザーバビリティー」導入の舞台裏 顧客体験と安定稼働を両立させた武器は?オブザーバビリティー活用で変わったシステム運用

今やビジネスの健全性は、ITシステムの安定稼働や継続的な改善なしでは語れない。みずほ銀行はデジタルサービスの信頼性を高めるべく、オブザーバビリティーをシステム運用に取り入れ始めた。同行にその狙いと効果を聞いた。

PC用表示
Share
Tweet
LINE
Hatena
PR

 ITシステムの安定稼働には、モニタリング(監視)は欠かせない。従来は、想定以上の負荷が集中してパフォーマンスが低下したり、障害が発生したりした場合にはアラートを発し、運用チームが対応に当たることでサービスの継続性が確保されてきた。

 デジタル技術がビジネスを支えている現在は、ITシステムの稼働状況がビジネスに直接的に影響を及ぼす。1つの障害が、自社はもちろん取引先や社会にまで大きな影響を与える恐れがあるため、受け身の対処だけでは不十分になっている。可能な限り早期に障害の芽を摘み、影響が広がる前に収束させる必要がある。特に一般消費者向けのITシステム/サービスは応答遅延などの障害が、ビジネスの機会損失や会社の信頼失墜にまで直結してしまう。

 こうした中で浮上してきた新しい概念が「オブザーバビリティー」(可観測性)だ。アプリケーションの実行状態や処理要求状況を継続的に収集し、システム内部の状況をデータに基づいて深く把握し、サービスが期待通りに動作しているか、問題の予兆はないか、もし障害があればどこに原因があるのかといった事柄を可視化する。ログやメトリクスだけにとどまらない、トレースやコンテキストを提供することで運用担当者が迅速に対応できるよう、システム全体を深く理解し、問題の根本原因を特定、原因究明と改善アクションへとつなげるアプローチだ。「見守る」というモニタリングの機能を超えて、システム全体をリアルタイムに把握することで、プロアクティブな対応が手間をかけずにできる、それがオブザーバビリティーの特徴だ。

 みずほ銀行は、2024年11月のインターネットバンキングサービス「みずほダイレクト」のリニューアルを機に、オブザーバビリティーを実現するIBMの「Instana」を採用した。オブザーバビリティーを取り入れることでどのような効果が生まれたのか、みずほ銀行の萩原大貴氏と、みずほリサーチ&テクノロジーズの岩崎歌織氏に聞いた。

図1
顧客接点のコアとなる「みずほダイレクト」《クリックで拡大》

モニタリングによる後追いの障害対応では対応の遅れが課題に

 店舗での対面取引だけでなく、デジタル技術を生かした非対面チャネルを活用して顧客接点をいかに拡大するか――これはみずほ銀行のみならず銀行業界全体の課題となっている。そんな中、Webブラウザやスマートフォンから振り込みや明細確認などが行えるみずほダイレクトは、インターネットやスマートフォンの普及を背景に、着実に利用者を増やしてきた。

萩原氏
みずほ銀行の萩原大貴氏(デジタルチャネルIT部 デジタルチャネルITチーム)

 「インターネットバンキングが普遍化する中で、トランザクション量も比例して増加し、いかに業量(業務量)に対応するかが課題となってきました。利便性を高めるだけでなく、悪意ある攻撃への対策も不可欠であるなど、多角化した要件への対応が求められています」(萩原氏)

 中でも金融サービスに必須の要件が、可用性やレジリエンシー(回復力)だ。みずほ銀行は従来、インターネットバンキングシステムのモニタリングを実施し、エラーが生じた際にはすぐ対処する体制を整えていたが、初動までのタイムラグは避けられなかった。同行のシステム導入と運用管理を担う立場として、みずほリサーチ&テクノロジーズの岩崎氏はこう振り返る。

 「『CPU使用率が上昇している』といったイベント(システムの状態変化)があればアラートは上がるのですが、ボトルネックや原因の特定に時間がかかり、中には追究しきれない場合もありました」

 原因を把握するには本番システムのログが必要だが、金融というシステムの特性上、データセンターに駆け付け、一定の手続きをした上でログを入手しなければならない。状況を確認し、初動対応に入るまでの時間をいかに短縮するかが課題となっていた。

 システム開発・運用のメンバーは有限である中で、ビジネスのスピードは加速し、システムは複雑化する。「ビジネス戦略にのっとった開発に投資していくためにも、日常の保守をいかに効率的にするかを考えてきました」(萩原氏)

 みずほダイレクトは2024年11月に、ユーザーインタフェース(UI)を刷新し、チャットbotなどの新機能も追加する大幅なリニューアルを予定していた。そこで、みずほダイレクトのリニューアルをオブザーバビリティー適用の第1弾として、Web版の「みずほダイレクト[インターネットバンキング]」を対象に導入することを決定したという。

 「新たなインターネットバンキングのリリースに当たって、障害を避け、サービスを守りたいと考えていました。そこでオブザーバビリティーという仕組みを取り入れ、何かあっても迅速に対応できるようにしようと考えました」(萩原氏)

リニューアルを機にオブザーバビリティーを導入 Instanaの導入しやすさとIBMの手厚いサポートが決め手に

 ここ数年でオブザーバビリティーという考え方が広がるにつれ、複数の製品が登場している。みずほ銀行も複数のオブザーバビリティー製品を比較検討したところ、「メトリクスやトレーシングなどのデータを通じてシステムの状態を可視化する」「稼働状態を分析する」といったオブザーバビリティーの基本機能についてはどの製品も一定の要件を満たしていた。だが、複数の観点からInstana採用が適切だと判断するに至った。

 Instana採用の決め手になったのは、IBM側の技術的知見と深い業務理解、そして手厚いサポート体制だった。具体的には、リニューアルプロジェクト側のメンバーと密に連絡を取り合いながら、随時、IBMによる高品質のサポートを受けつつ、既存システムに影響を与えることなく導入できた。

 なお、Instanaは基本的にエージェントを導入するだけでシステムを可視化でき、導入は1サーバ当たり5分もかからない。今回も、監視ルールのカスタマイズやシステムに合わせたイベント通知のチューニングなどを行ったが、リニューアルプロジェクトそのものに影響を及ぼさず、短期間で導入できたという。

図2
Instanaによってシステム全体のサービス提供状況が俯瞰(ふかん)的に把握可能に。全体から個別要求にまで順次ドリルダウンが可能(提供:日本IBM)《クリックで拡大》

リニューアルの裏側で大活躍したInstana、他システムへの横展開も検討

 みずほ銀行は予定通り、2024年11月10日にインターネットバンキングをリニューアルし、稼働を開始した。その裏側では「Instanaが大活躍」(萩原氏)していたという。

 当初想定していた障害への初動対応に関しては、リニューアルプロジェクト自体がうまく進み、初期障害もほぼ発生しなかったため、Instanaで検知する対象もあまりなかったそうだ。ただ、小さなインシデントについては的確にピックアップし可視化した。運用担当者の視点から、岩崎氏はこう語る。

岩崎氏
みずほリサーチ&テクノロジーズの岩崎歌織氏(IT本部第2事業部第4部課長)

 「Instanaの導入によって、どこでスローダウンが発生しており、何が問題になっているか、どこまで影響が及んでいるのかといった事柄が可視化され、ぱっと見ただけで状態を把握できるようになりました。ログデータを確認するための事前手配や調整をすることなく、リアルタイムにシステムの状態を見られる点で、現状把握のスピード感に大きな違いがありました」

 初動から詳細な報告を上げるまでの時間が、本番環境でログ集め調査し、開発機にデータ転送し、さらに深掘り調査と3時間程度かかっていたが、現在では1時間で報告までできるようになり、問題発生時の調査に要する時間を65%以上削減できている。

 予想外の効果をもたらしたのが、Instanaの「カスタム・ダッシュボード」だ。運用担当者が手間暇かけてレポートを作成しなくても、レスポンスタイムやリクエスト数をはじめ、運用担当者以外にも分かりやすい形で状況がリアルタイムに可視化されるため、みずほ銀行とみずほリサーチ&テクノロジーズの間でも情報共有が容易になり、共通の認識の下で問題解決に当たれるようになった。

 「リニューアル後の一週間ほどは、対策本部のような関係者の待機部屋を用意し、そこにInstanaの画面を常時投影してシステムの状態を共有していました。担当からのフィードバックを待たなくても、カスタム・ダッシュボードを見ることで何も問題が起きていないことが分かり、報告の簡素化にも役立ちました」(萩原氏)

図3
必要な情報をすぐに整理できる「カスタム・ダッシュボード」で報告の手間を軽減(提供:日本IBM)《クリックで拡大》

 その後も、新たなキャンペーン開始に合わせてウィジェットを追加、拡張するなど、さまざまな形でカスタム・ダッシュボードを活用している。気になるインシデントがあれば、その問題に関するダッシュボードを短時間で作成し、関係者で共有しながら原因の見当を付け、解決に向けて動いている。「最近では、二言目に『それ、Instanaで見えないのか?』と言われます」(萩原氏)

 レポートを作成してきたみずほリサーチ&テクノロジーズ側の負荷も削減できた。「情報を取得して開発環境で再現し、データを整形し、資料を作成する……という従来生じていた手間がなくなり、現在はレポート作成にかける時間が以前の50%以下まで減っています。一度ダッシュボードを作成しておけば、そのURLから継続的な推移を把握できるため、定期的に情報を集めてレポートを作成し報告する必要もなくなりました。トータルでは大幅な工数削減になっています」(岩崎氏)

 顧客からの問い合わせを受けた事象に関する原因調査や、性能テストといった場面でもInstanaが活躍しているという。「1つのリクエストが各プロセスを経るのにどれくらいの時間がかかっているのか、その時間が想定通りなのか異常値なのかについて、可視化された情報を基に迅速に判断できるようになりました」と岩崎氏は説明する。各プロセスの流れやサービス間の依存関係を含めて可視化された情報を参照することで、より的確な回答を顧客に提供したり、性能テストの結果をより効率的に分析したりできるようになった。

図4
コンポーネントをまたいだ処理の状況をリクエストごとに把握が可能。問題箇所の特定も迅速に(提供:日本IBM)《クリックで拡大》

 このようにInstanaの効果を実感したみずほ銀行は、インターネットバンキングでの導入成功を踏まえ、周辺システム、さらには他チャネル領域への横展開を検討している。

 「Instanaの利点の一つは、複数のシステムや基盤をまたいで特定のトランザクションがどう処理されているかを追えることです。他のシステムも同じInstanaで一気通貫に管理することによって、どのシステムで調子が悪いのかを可視化し、大きな障害を未然に防いでレジリエンスを高める役に立つのではと期待しています」(萩原氏)

 IBMが注力するAI技術にも期待を寄せている。「障害が発生した後に速やかに動くことは実現できていますが、今後AIをうまく活用し、障害を発生させないための予兆検知ができれば、可用性をさらに上げられるのではないかと考えています」と岩崎氏は語る。この分野に関しては大きく飛躍が期待されるところだろう。Instanaにも「watsonx」の機能が組み込まれ始めている。これにより、AIが普段とは異なる動きを事前に察知、その対応方法を推奨、自動で対策をとるといったことが可能になるはずだ。

 みずほ銀行は、今後もインターネットバンキングの機能を継続的に改善・拡充し、顧客の利便性を高めるとともに、オブザーバビリティーの力を生かして安定稼働に努める構えだ。

写真

Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本アイ・ビー・エム株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2025年6月28日