検索
ニュース

「Azure Data Lake Storage Gen2」と「Azure Data Explorer」を正式リリース――MicrosoftさらにAzure Data Factoryの新たな機能も発表

Microsoftは、「Azure Data Lake Storage Gen2」および「Azure Data Explorer」の正式リリースと、「Azure Data Factory Mapping Data Flow」のプレビュー版を発表し、Azureのデータサービスを拡充した。

Share
Tweet
LINE
Hatena

 Microsoftは2019年2月7日(米国時間)、「Azure Data Lake Storage Gen2(ADLS)」および「Azure Data Explorer(ADX)」の正式リリースと、「Azure Data Factory Mapping Data Flow」のプレビュー版を発表した。

 ADLSはビッグデータ分析用のデータレイク。ADXは高速データ探索サービス。Azure Data Factory Mapping Data Flowは、クラウドベースのデータ統合サービス「Azure Data Factory(ADF)」におけるデータ変換プロセスを視覚的に設計、構築、管理できる機能だ。それぞれの概要は以下の通り。

Azure Data Lake Storage Gen2

 ADLSは、優れたスケーラビリティや、費用対効果、セキュリティモデル、「Azure Blob Storage」の豊富な機能、アナリティクス用に構築され「Hadoop Distributed File System(HDFS)」と互換性がある高パフォーマンスのファイルシステムといった特徴を備えている。

 ADLSでは、Apacheエコシステムとの互換性の確保に重点が置かれており、Microsoftは「Azure Blob File System(ABFS)」ドライバを開発することでこれを実現した。ABFSドライバは「Apache Hadoop」「Apache Spark」に正式に含まれており、多くの商用ディストリビューションに組み込まれている。

 またADLSでは、ファイルシステムのセマンティクスがサーバ側で実装されている。このアプローチにより、複雑なクライアント側ドライバを不要にするとともに、高忠実度のファイルシステムのトランザクションを可能にしている。

 Microsoftはアナリティクスパフォーマンスの向上に向けて、アトミックなファイルおよびフォルダ操作をサポートする「階層型名前空間(HNS)」も実装した。これにより、BLOBストレージ上でのビッグデータ処理に伴うオーバーヘッドが軽減されている。これは、必要なコンピュータの操作を減少し、ジョブ実行の高速化とコスト削減につながる。

 こうしたABFSドライバとHNSは、ADLSのパフォーマンスを大幅に高め、スケーリングとパフォーマンスのボトルネックを解消している。Azure Blob Storageと同様の低コストで、こうした優れたパフォーマンスの恩恵が受けられるようになっている。

 ADLSは、Azure Blob Storageと同じく以下の強力なデータセキュリティ機能を提供する。

  • データの転送時および保存時のTLS(Transport Layer Security)1.2による暗号化
  • ストレージアカウントファイアウォール
  • 仮想ネットワーク統合
  • ロールベースのアクセスセキュリティ

 さらに、ADLSのファイルシステムは、POSIX ACL(アクセス制御コントロール)をサポートする。このアプローチにより、きめ細かなアクセス制御によるセキュリティ保護が可能になっている。


Azure Data Lake Storage Gen2

 ADLSは、「Azure Databricks」「Azure HDInsight」、ADF、「Azure SQL Data Warehouse」「Power BI」と緊密に統合されており、組織のあらゆるレベルで強力なビジネス洞察を提供するエンドツーエンドのアナリティクスワークフローを実現する。また、ClouderaやHortonworksをはじめ、ビッグデータアナリティクスを手掛ける世界のISV(独立系ソフトウェアベンダー)やシステムインテグレーターにサポートされている。

Azure Data Explorer

 ADXは、大量のストリーミングデータのリアルタイム分析が可能なフルマネージドの高速なデータ探索サービスだ。データやメタデータを変更することなく、1秒未満で10億件のレコードのクエリを実行できるという。ADLS、Azure SQL Data Warehouse、Power BIと接続するためのネイティブコネクターを備えており、直感的なクエリ言語が用意されている。

 ADXはスピードとシンプルさを追求して設計されており、「Engine」サービスと「Data Management(DM)」サービスが連携して動作するアーキテクチャが採用されている。これらのサービスはAzureでコンピュートノード(仮想マシン)のクラスタとしてデプロイされる。


Azure Data Explorer

 DMサービスはさまざまな生データを取り込み、必要に応じて障害、バックプレッシャー、データグルーミングタスクを管理する。また、独自の自動インデックス作成および圧縮方法により、高速なデータ取り込みを実現している。

 Engineサービスは、取り込まれた生データの処理とユーザークエリへの対応を担う。自動スケーリングとデータシャーディングを組み合わせて、優れたスピードとスケーラビリティを実現している。またシンタックスの読み取り、作成、自動化が容易に行えるように設計された読み取り専用のクエリ言語が用意されている。

 ADXは、ISVやシステムインテグレーターなどのパートナーにサポートされており、そのエコシステムは拡大している。

Azure Data Factory Mapping Data Flow

 Azure Data Factory Mapping Data Flowでは、ADFおけるデータ変換プロセスを、Apache Sparkを習得したり、その分散インフラを深く理解したりすることなく、視覚的に設計、構築、管理できる。


Azure Data Factory Mapping Data Flow

 Azure Data Factory Mapping Data Flowでは、ETL(抽出、変換、ロード)ジョブとデータ統合プロセスを容易に実行、トリガー、監視できるように、機能豊富な表現言語と対話型デバッガが組み合わされている。

 ADFは、幅広いISVやシステムインテグレーターにサポートされている。

Copyright © ITmedia, Inc. All Rights Reserved.