検索
ニュース

100種類以上の言語に対応 Googleが「Gemini Embedding」の最新モデルを一般提供開始多言語、大規模テキストのベクトル化に有用

Googleは2025年7月、テキストデータの文脈理解に役立つAIモデル「gemini-embedding-001」を「Gemini API」「Vertex AI」から利用可能にした。多言語、大容量対応や互換性の高さが特徴で、今後バッチ処理機能も追加される予定だ。

Share
Tweet
LINE
Hatena

 Googleは2025年7月14日(米国時間、以下同)、同社のAI(人工知能)関連サービス「Gemini API」と「Vertex AI」でテキスト埋め込みモデル「gemini-embedding-001」を利用可能にしたと発表した。2025年3月に試験的に公開されたものが、一般利用できるようになった形だ。

画像
リリース

 なお、テキスト埋め込みモデルとは、テキストデータを数値ベクトル(埋め込み表現)に変換するAIモデルで、文脈把握や意味理解において重要な役割を果たす。

gemini-embedding-001の特徴は?

 gemini-embedding-001は、テキスト埋め込みモデルの性能を評価するベンチマーク「Massive Text Embedding Benchmark」(MTEB)の多言語分野において高い評価を得ている。

 Googleによると、gemini-embedding-001は100種類以上の言語に対応し、最大2048トークンのコンテキスト長をサポートする。このため、例えば研究論文など大容量のテキストにも対応できる。また「Matryoshka Representation Learning」(MRL)などの技術も利用しており、用途や計算リソースに応じて最適な埋め込みベクトル長(次元数)を選択できるという特徴がある。

 gemini-embedding-001はGemini APIやVertex AIを通じて利用できる他、Webブラウザ上で使えるAIツール「Google AI Studio」でも利用可能だ。どちらの方法でも無料プランはあるが、本格的な運用や大量データ処理(例えば100万トークンを超えるものなど)する場合は有料になる点には注意だ。これまで他の埋め込みモデルで使っていたAPIのエンドポイントとの互換性もある。バッチ処理機能の提供も予定されており、Googleは「データの非同期処理が可能になり、コストを削減できる」と述べている。

 今回の発表に合わせ、Googleは、同社のテキスト埋め込みモデルの旧バージョンについてサポートを終える計画だ。「gemini-embedding-exp-03-07」および「embedding-001」は2025年8月14日まで、「text-embedding-004」は2026年1月14日までにサポートが終了する予定だ。同社はユーザーに対して、早期の移行を呼び掛けている。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。