検索
連載

非構造化データをAI用に準備するための基本アプローチGartner Insights Pickup(408)

データ/アナリティクス環境が進化する中、構造化データと非構造化データの統合は、AIと生成AIの進歩に伴い早急に必要となっている。非構造化データの力を真に活用するために、本稿では、データ管理のリーダーが実践すべき基本的なアプローチを紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

ガートナーの米国本社発のオフィシャルサイト「Insights」などのグローバルコンテンツから、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

 データ/アナリティクス環境が急速に進化する中、これまで長期目標として掲げられてきた構造化データと非構造化データの統合は、AI(人工知能)と生成AIの進歩に伴い、早急に必要となっている。だが、これらのデータ資産を統合するのは茨の道だ。その大きな要因は、AIチームは非構造化データ準備ソリューションを独自に開発する傾向があることだ。

 非構造化データ資産については、アクセスや読み取りといったプロセスに加え、さまざまなユースケースにわたるレンダリング、分析、利用といった複数のレイヤーが存在する。これらの各ステップが、さらに多くのメタデータ資産を生成することになる。非構造化データの力を最大限に活用し、膨大なメタデータに翻弄(ほんろう)されないために、データ管理のリーダーは、特定のメタデータと補完的な技術の活用に重点を置く、以下の主要な実践手法を導入する必要がある。

メタデータの活用によるAI強化

 非構造化データでAIを強化する最も効果的な方法は、非構造化データを管理するシステム内のメタデータに焦点を当てることだ。非構造化データ資産を直接分析するのではなく、ネイティブシステムに資産のタグ付け、説明、インデックス作成、ロギングなどのタスクを処理させるとよい。このアプローチにより、既存のメタデータを活用して価値ある洞察を提供でき、重複作業を避けられる。

 非構造化データ資産は、文書にグラフやチャートなどの画像が含まれ、特定の指標の推移を示したりするように、階層を成していることが多い。こうした場合、重要なメタデータは、これらの資産がどのような階層関係にあるかだ。非構造化データをAIに追加するには、コンピュータのようにサイロでネイティブに管理する方法ではなく、人間が作業する場合のように、「さまざまな資産をどのように階層化するか」に焦点を当てる必要がある。

 メタデータを使用して、「異なるAIソリューションが各資産をどのように継続的に利用しているか」を比較することで、その資産が特定のユースケースに対してどのように検証されるか、あるいは不適格と判断されるかの実例が得られる。

非構造化データに関する議論の再構築

 「非構造化データ」という言葉はしばしば混乱を招き、多様な情報資産を効果的に統合する取り組みを妨げることがある。

 実際、全く構造化されていないデータは存在しない。全てのデジタル資産は何らかの構造を持っている。そのため、データの保存や取得のためのメタデータには、共通点が必要だ。さもないと、コンピュート環境はデータにアクセスできない。

 この意味論的な議論は、ささいなことではない。AI時代には、データ管理のリーダーとそのチームが、サイロ化されたソリューションから脱却し、共通性を重視する共有アプローチを受け入れることが極めて重要だ。

 構造化データと非構造化データを区別し続けると、孤立したソリューションを永続させることになる。データ管理のリーダーは、データタイプの違いにかかわらず、メタデータの共有技術と類似性に重点を移すべきだ。そうすることで、より効果的なデータ統合戦略の余地が生まれる。

 データ管理のリーダーとそのチームはデータ資産を「非構造化」ではなく「非類似」と考えるべきだ。

 一般的には「非構造化」という言葉が使われ続けるかもしれない。だが、企業にとっては、非構造化プラットフォームの既存メタデータを、既存および新規のツールやプラットフォームで再利用することに重点を置く新しい技術を用いて、これらの資産の活用方法を再定義することが重要だ。

 議論の焦点を変えることで、企業は、異なるタイプの資産を統合する補完的な手法を推進し、より堅牢(けんろう)なAIソリューションの構築につなげられる。

多様なメタデータの統合による複合分析

 非構造化資産のメタデータは、構造化資産のメタデータと基本的に同じであり、構成ではなく値が異なるにすぎない。これは、アナリティクスにおける既存のメタデータの扱い方を、非構造化データにも適用できることを意味する。メタデータには、文書内のグラフィックの出典のような明示的なものもあれば、CAD設計内の特定の金属に関する技術仕様のような暗黙的なものもある。

 構造化データに使用されるメタデータの機能は、構造化データと非構造化データの資産を組み合わせる際にも活用できる。生成AIは、暗黙的な情報を明示的なメタデータに変換できる。このプロセスはエラーが発生しやすいが、改善できる可能性がある。

 ただし、データサイエンティストやAI開発者は、統計モデルを用いてモデルの確率と精度を評価することで、モデルの出力結果と精度を監査するための“チェックサム”として機能する、信頼性スコアを提供する。

 その考え方は、非構造化資産をネイティブな管理システムに保持し、非構造化システムから得られる多様なメタデータを再利用して、ナレッジ(知識)グラフを構築するというものだ。このグラフは、使用頻度、ユーザー、状況などの使用パターンを視覚化しなければならない。包括的な理解を可能にするために、これらに関する洞察に基づいて注釈を付ける必要もある。

メタデータグラフの自然な構築

 文書のメタデータ(データの出典や計算の説明など)は、文書の脚注や文書に関する記事や解説を通じて、さまざまなシステムから得られる構造化データがどのように分析、リンクされているかを明らかにする。これにより、文書に挿入されたグラフィックや写真の出典が見つかる。

 これらのリンクはメタデータとなり、パターンを形成する。AIはそれらのパターンを識別することで、資産がどのように統合されているかを理解できる。メディア、文書、設計の各資産は、アクセス可能なメタデータを含んでおり、こうした資産を効果的に特定し、利用するために不可欠だ。

 コンテキストが異なる資産が組み合わされる場合はほとんど、出典などを示す参照注記、脚注、キャプション、テキスト説明が存在する。これらの参照情報は、計算がグラフィックや図にどのように関連しているかを説明するのに役立つ。

 こうした参照ポインタがない場合は、インテリジェント文書処理、オントロジー(概念体系)、タクソノミー(分類体系)管理などの技術がメタデータを抽出してタグ付けし、下流のユースケースのために既存のメタデータ資産にマッピングできる。

 「メタデータがメタデータグラフを継続的に構築していく」という自然な傾向を活用することが極めて重要だ。メタデータの定義である「データに関するデータ」は、単なるキャッチフレーズではなく、メタデータが既にグラフであることの宣言だ。つまり、メタデータは文字通り、「主語、述語、目的語」の3対を成す関係を体現している。

 1つのメタデータの「ノード」セットが新しいノードにリンクされるたびに、全てのメタデータが形成する単一のグラフが再構築される。メタデータは1カ所に保管する必要もなく、1つのメタデータリンクを取得するだけで済む。主語、述語、目的語のいずれかに何らかの共通性があれば、任意の2つのサブグラフ全体が互いにリンクされる。その経路は長く複雑かもしれないが、両者はリンクされることになる。

 AI/機械学習、プロファイリング、グラフ分析によって、ユースケースに応じてメタデータを自然に構築させるとよい。このアプローチは、データマートやデータウェアハウスを構築するために構造化データで用いられてきた従来の手法を反映している。時間の経過とともにメタデータの関連経路のネットワークが構築されるが、それには単一のリポジトリやプラットフォームは必要ない。

 データ管理のリーダーとそのチームは、メタデータが乏しくても、直ちにその収集、分析、活用を開始しなければならない。メタデータは時間とともに進化し、課題を提示し、強化され、拡大し、AIの精度と範囲を向上させる。このことを理解する必要がある。

出典:Essential Approaches to Ready Unstructured Data for AI(Gartner)

※この記事は、2025年5月に執筆されたものです。

筆者 Mark Beyer

Distinguished VP Analyst


Copyright © ITmedia, Inc. All Rights Reserved.

[an error occurred while processing this directive]