ストリームデータ分析に適したオープンソースのデータベースに商用版が登場。PostgreSQL互換で、SQLで直接クエリを投げられるため、ETLなどが不要な点が特徴だという。
2016年1月14日、PostgreSQLをベースにしたオープンソースのデータベース「PipelineDB」の商用版「PipelineDB Enterprise」がリリースされた。
PipelineDBは、ストリームデータに対して継続的にSQLクエリを走らせることができるため、リアルタイムでデータを分析することが可能だ。SQLで定義できるものであればETL(データの取り出し、変形、読み込み)操作なしで利用できる。
PipelineDBに特徴的な実装としては「Continuous view」が挙げられる。PipelineDBのWebサイトでは、Continuous viewを「非常にスループット性能が高くリアルタイムでインクリメンタルに更新されるマテリアライズドビューのようなもの」と説明されている。Continuous viewでは、ストリームデータを格納する「ストリームバッファ」から「Workerプロセス」を経て「combinerプロセス」で統合され、結果がデータベースに格納される(下図)。つまり、最終的なアウトプットが必ずデータベースに格納される点が大きな特徴だ。
PipelineDBは企業のミッションとして、「スケーラブルなリアルタイムアプリケーションを特別な実装なしに構築できるようにすること」を掲げている。現在PostgreSQL 9.4ベースにしているが、2016年3月までにはPostgreSQL 9.5との互換性も持たせる予定だという。PipelineDBでは、2015年7月の会社設立以来、企業名は明かせないものの既に金融、テレコム、広告、ゲーム、ネットワークなどの業界で商用版の先行採用が進んでいるとしている。
PostgreSQL 9.4の主要な改良点、9.5以降の展望
PostgreSQL 9.4 GINインデックスの評価、JSONBデータ型の使い方
SQLでストリーム分析ができる「Norikra v1.0.0」公開
SPL言語学習なしでもストリームデータ処理の実装が可能になった「InfoSphere Streams V3.0」
データ分析基盤をApache Sparkベースに置き換え、BluemixではSparkサービスも――米IBMCopyright © ITmedia, Inc. All Rights Reserved.