データリンクは生きているのにデータセンターが全断! 原因は?:羽ばたけ!ネットワークエンジニア(17)(2/2 ページ)
2019年5月、データセンターのスイッチ障害によってかなり重大な障害が発生した。その障害の原因解析と対策を進める過程で学んだデータセンターの接続方式について解説する。
ルーター独自機能で職人技の対策
オンライン業務終了後の夜間、故障したスイッチを交換して障害前の構成に戻した。しかし、障害対策はこれでは終わらない。今回と同様の「データリンクは正常だがフレームの転送ができない」障害が次に起きた際、自動でバックアップ経路に切り替わるように工夫しなければならない。この対策は障害発生当日に完了というわけには行かない。
ネットワークとデータセンターの接続例を図2に示す。この構成ではネットワーク側のルーターとデータセンター側のL3スイッチの間でダイナミックルーティングプロトコルであるOSPF(Open Shortest Path First)を使って経路の正常性の監視や切り替えをできるようにしている。これならリンクダウンでも、パケットの転送不能でも異常を検出して経路を切り替えることができる。
ただし、図2のような構成を今回の障害対策として採用するとかなり大きな変更になるため、設計や事前試験に工数がかかる。現地で現用の機器を利用し、短時間で確認試験と構成変更を進めることは難しい。
そこで、このネットワークの担当SEが考え出したのが図3の方法だ。これまでネットワーク側には開示されていなかったが、データセンターのLANにはL3スイッチがある。従来の拠点側のルーターからデータセンター側のルーターへのping監視に加えて、データセンター側のルーターからL3スイッチへのpingを追加することにしたのだ。
こうするとスイッチが「データリンク正常、フレーム転送不可」の障害を起こすとping応答がなくなり、データセンター側のルーターは拠点側ルーターからのpingに対しても応答を止める。これによって拠点ルーターは経路を切り替えることになる。
この方法だとデータセンター側のルーターにping監視を追加するだけなので設計はシンプルで、設定変更や確認試験も簡単にできる。
今回の障害の経験からネットワークとデータセンターの接続について学び直すことができ、ネットワークの世界には独自機能を生かした職人的な工夫の余地がまだまだあることが分かった。
筆者紹介
松田次博(まつだ つぐひろ)
情報化研究会主宰。情報化研究会は情報通信に携わる人の勉強と交流を目的に1984年4月に発足。
IP電話ブームのきっかけとなった「東京ガス・IP電話」、企業と公衆無線LAN事業者がネットワークをシェアする「ツルハ・モデル」など、最新の技術やアイデアを生かした企業ネットワークの構築に豊富な実績がある。企画、提案、設計・構築、運用までプロジェクト責任者として自ら前面に立つのが仕事のスタイル。『自分主義-営業とプロマネを楽しむ30のヒント』(日経BP社刊)『ネットワークエンジニアの心得帳』(同)はじめ多数の著書がある。
東京大学経済学部卒。NTTデータ(法人システム事業本部ネットワーク企画ビジネスユニット長など歴任、2007年NTTデータ プリンシパルITスペシャリスト認定)を経て、現在、NECセキュリティ・ネットワーク事業部主席技術主幹。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
2024年ISDN終了問題、閉域モバイル網とクラウドPBXで上手に乗り切ろう!
2024年にサービスが終了するISDN(Integrated Service Digital network)。今も多くの店舗やオフィスで電話、ファクシミリ用の回線として役立っている。今回はISDNが担ってきた電話やFAXをデータ通信用のフレッツに統合し、コスト削減や利便性の向上を図る方法について紹介する。働き方改革から災害対策まで「閉域モバイル網」を徹底活用しよう!
連載第3回はモバイルに焦点を当てる。この数年で固定通信と比較して、モバイル向け通信の高速化と低価格化が進んだ。企業はモバイルをより多く活用する「モバイルシフト」によって、通信コストを削減できる。それだけでなく、働き方改革や災害対策にも役立つ。その際使うべきなのはインターネットに接続していない「閉域モバイル網」だ。