OSSのストレージフレームワーク「Delta Lake 3.0」公開 DWHの課題を解決:相互運用性、効率性、パフォーマンスが向上
Linux Foundationはデータレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の一般提供を開始した。
Linux Foundationは2023年10月18日(米国時間)、データレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の提供を開始したと発表した。
レイクハウスは、データウェアハウスの主要な課題(データの陳腐化、信頼性、総所有コスト、データのロックイン、限られたユースケースのサポートなど)を解決するのに役立つ。Delta Lakeでは「Apache Spark」「PrestoDB」「Apache Flink」「Trino」「Apache Hive」などのコンピュートエンジンとScala、Java、Rust、Ruby、PythonのAPIを用いて、データレイク上にレイクハウスアーキテクチャを構築できる。
レイクハウスではACIDトランザクション、スケーラブルなメタデータ処理、ストリーミングとバッチデータ処理の統合、スキーマ強制、タイムトラベルおよびデータセットのマージ、更新、削除などの機能を利用できる。1つのフォーマットでETL(抽出、変換、ロード)、データウェアハウス、機械学習(ML)をレイクハウスに統合可能だ。
Delta Lakeは、「Amazon S3」(Amazon Simple Storage Service)、「ADLS」(Azure Data Lake Storage)、「Google Cloud Storage」などの既存データレイクに対応している。
Delta Lake 3.0の主な特徴は、Delta Universal Format(Delta UniForm)、Delta KernelおよびMERGEとDELETEの大幅な高速化だ。
Delta UniForm
企業はシームレスなデータレイクハウスの構築を目指す中で、どのストレージフォーマットを標準化するかで頭を悩ませてきた。Delta UniFormは、アプリケーションが要求するフォーマットでデータを読み込むことを容易にし、高い互換性と幅広いエコシステムを保証する。「Apache Hudi」「Apache Iceberg」などの全てのテーブルストレージフォーマットが、Parquetデータファイルとメタデータレイヤーで構成されていることを利用して実現されている。
Delta Kernel
Delta Kernelプロジェクトは、Deltaテーブルの読み込みと書き込みが可能なDeltaコネクターを、Deltaプロトコルの詳細を理解しなくても構築できるようにするJavaライブラリのセットだ。簡素化されたAPIを提供し、Deltaコネクターの構築プロセスの効率化を支援する。
MERGEとDELETEの大幅な高速化
MERGEは、多くのケースで挿入のみのコードパスを使用できるデータスキッピングをより活用できるようになり、動作も全体的に改善された。これにより、さまざまなシナリオでパフォーマンスが最大2倍向上した。DELETE操作も2倍以上高速化した。DELETE操作の高速化は、データのパージや更新時の待ち時間短縮につながり、よりアジャイル(俊敏)なデータの管理と処理を可能にする。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Oracle、自律型データベース「Oracle Autonomous Data Warehouse」でマルチクラウド対応などを強化
日本オラクルが自律型データベース「Oracle Autonomous Data Warehouse」の新機能、機能拡張について記者発表会を開催。マルチクラウド対応やコラボレーションのしやすさなどを強化した。データ分析の領域でも「近代化」と「内製化」が鍵に ガートナーが企業のデータ活用に提言
ガートナージャパンは、企業がデータを活用してビジネス成果を実現するにはデータ管理環境の近代化と内製化が必要との見解を発表した。近代的なデータ管理基盤と活用手段となる技術を理解し、内製化を前提に人材を確保する必要があるとしている。生成AIを超えるのは? Gartnerが2024年の戦略的テクノロジートレンド トップ10発表
Gartnerは、企業が2024年に注目すべき戦略的テクノロジーのトップトレンドを発表した。