検索
連載

データリンクは生きているのにデータセンターが全断! 原因は?羽ばたけ!ネットワークエンジニア(17)(2/2 ページ)

2019年5月、データセンターのスイッチ障害によってかなり重大な障害が発生した。その障害の原因解析と対策を進める過程で学んだデータセンターの接続方式について解説する。

Share
Tweet
LINE
Hatena
前のページへ |       

ルーター独自機能で職人技の対策

 オンライン業務終了後の夜間、故障したスイッチを交換して障害前の構成に戻した。しかし、障害対策はこれでは終わらない。今回と同様の「データリンクは正常だがフレームの転送ができない」障害が次に起きた際、自動でバックアップ経路に切り替わるように工夫しなければならない。この対策は障害発生当日に完了というわけには行かない。

 ネットワークとデータセンターの接続例を図2に示す。この構成ではネットワーク側のルーターとデータセンター側のL3スイッチの間でダイナミックルーティングプロトコルであるOSPF(Open Shortest Path First)を使って経路の正常性の監視や切り替えをできるようにしている。これならリンクダウンでも、パケットの転送不能でも異常を検出して経路を切り替えることができる。


図2 データセンター接続の例

 ただし、図2のような構成を今回の障害対策として採用するとかなり大きな変更になるため、設計や事前試験に工数がかかる。現地で現用の機器を利用し、短時間で確認試験と構成変更を進めることは難しい。

 そこで、このネットワークの担当SEが考え出したのが図3の方法だ。これまでネットワーク側には開示されていなかったが、データセンターのLANにはL3スイッチがある。従来の拠点側のルーターからデータセンター側のルーターへのping監視に加えて、データセンター側のルーターからL3スイッチへのpingを追加することにしたのだ。


図3 図1に示した障害の対策

 こうするとスイッチが「データリンク正常、フレーム転送不可」の障害を起こすとping応答がなくなり、データセンター側のルーターは拠点側ルーターからのpingに対しても応答を止める。これによって拠点ルーターは経路を切り替えることになる。

 この方法だとデータセンター側のルーターにping監視を追加するだけなので設計はシンプルで、設定変更や確認試験も簡単にできる。

 今回の障害の経験からネットワークとデータセンターの接続について学び直すことができ、ネットワークの世界には独自機能を生かした職人的な工夫の余地がまだまだあることが分かった。

筆者紹介

松田次博(まつだ つぐひろ)

情報化研究会主宰。情報化研究会は情報通信に携わる人の勉強と交流を目的に1984年4月に発足。

IP電話ブームのきっかけとなった「東京ガス・IP電話」、企業と公衆無線LAN事業者がネットワークをシェアする「ツルハ・モデル」など、最新の技術やアイデアを生かした企業ネットワークの構築に豊富な実績がある。企画、提案、設計・構築、運用までプロジェクト責任者として自ら前面に立つのが仕事のスタイル。『自分主義-営業とプロマネを楽しむ30のヒント』(日経BP社刊)『ネットワークエンジニアの心得帳』(同)はじめ多数の著書がある。

東京大学経済学部卒。NTTデータ(法人システム事業本部ネットワーク企画ビジネスユニット長など歴任、2007年NTTデータ プリンシパルITスペシャリスト認定)を経て、現在、NECセキュリティ・ネットワーク事業部主席技術主幹。


Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |