Googleは、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2024年12月23日(米国時間)、「Google AI Studio」と「Gemini API」で利用できる「Gemini 2.0」の「Multimodal Live API」を公式ブログで紹介した。
Gemini 2.0のMultimodal Live APIは、「ビジュアル入力を使ってテキストや音声で質問すると、コンテキストを認識してテキスト、音声、動画を組み合わせた回答がリアルタイムで返ってくる」といったAI(人工知能)インタラクションを可能にする。Googleは、このAPIにより、リアルタイムデータを利用して、周囲の世界に反応するアプリケーションを構築できると述べている。
Multimodal Live APIは、WebSocketを利用したステートフルAPIであり、低レイテンシのサーバ間通信を容易にする。関数呼び出し、コード実行、検索のグラウンディングなどのツールや、1つのリクエスト内での複数ツールの組み合わせをサポートし、1つのプロンプトに対する包括的な応答を可能にする。開発者はこのAPIを用いて、より効率的で複雑なAIインタラクションを作成できる。
Multimodal Live APIの主な特徴は以下の通り。
Multimodal Live APIは、リアルタイムでインタラクティブなさまざまなアプリケーションを可能にする。Googleは、このAPIを効果的に適用できるユースケースの例として、以下を挙げている。
さらにGoogleは、Multimodal Live APIを利用したアプリケーションのデモ動画も紹介している。
Google、最新のAIモデルファミリー「Gemini 2.0」を発表 AIコーディングエージェント「Jules」など最新の取り組みを紹介
Google、Geminiで「Googleレンズ」や「AI Overview」を強化 撮影した動画に基づく検索や音声検索に対応
Google、「Gemini 1.5」搭載の「NotebookLM」の「音声概要」機能をアップデート 何ができるようになった?Copyright © ITmedia, Inc. All Rights Reserved.